Modélisation
tridimensionnelle linéaire des articulateurs de la parole
Introduction
La conjonction des traditionnelles
études sur l'articulation en parole, de l'accès facile aux
nouveaux moyens d'imagerie médicale, et des besoins liés
aux STICs en parole audiovisuelle a favorisé le développement
de la modélisation tridimensionnelle des articulateurs de la parole
et du conduit vocal.
Notre approche en modélisation
a consisté à déterminer, à partir de données
géométriques tridimensionnelles mesurées sur un locuteur
de référence, un certain nombre de mouvements de base (appelés
degrés de liberté) qui permettent de représenter simplement,
mais avec une très bonne précision, les mouvements complexes
des articulateurs tels que la mâchoire, la langue, le voile du palais,
les lèvres ou le visage.
Les données articulatoires
Afin de nous permettre d'acquérir
toutes les données nécessaires, le locuteur a prononcé
un ensemble d'articulations comprenant toutes les voyelles du français,
ainsi que les consonnes dans trois contextes vocaliques symmétriques,
dans deux conditions expérimentales différentes:
système d'Imagerie par Résonance
Magnétique
système d'enregistrement par
caméras vidéos
Traitement des données de la
langue et de la mâchoire
Trois piles d'images ont été
acquises pour chaque articulation (axiales, obliques et coronales, voir
figure ci-dessous). Les contours de langue ont ensuite été
tracés sur chaque image. La forme tridimensionnelle de la langue
a été enfin reconstruite, puis rééchantillonnée
suivant une grille semi-polaire qui s'ajuste en particulier à la
position de la pointe de la langue. La position de la mâchoire est
également déterminée à partir de l'image médiosagittale.
Traitement des données des lèvres
et du visage
Des images de face et de profil ont
été acquises pour chaque articulation. Les lèvres
du sujet sont maquillées en bleu pour faciliter la recherche de
leurs contours, tandis qu'un certain nombre de billes ont été
fixées sur le visage pour permettre de suivre précisémment
les mouvements. Lors d'un enregistrement complémentaire, une "éclisse
mandibulaire" a également été fixé à
la mâchoire du sujet pour permettre de mesurer sa position même
dans les cas où les incisises ne sont pas visibles.
Analyse en composantes linéaires
décorrélées
Grâce à des techniques
d'analyse en composantes linéaires classiques (ACP, régression
linéaire multiple), un certain nombre de mouvements de base ont
été mis en évidence pour la langue, la machoire, les
lèvres et le visage.
Composantes de la mâchoire et
de la langue
La mâchoire étant l'articulateur qui supporte
en grande partie la langue, son mouvement constitue le premier mouvement
de base. Le mouvement
de rotation de la mâchoire entraîne un mouvement de bascule
de la langue.
Deux autres mouvements importants, liés à
la masse globale de la langue sont: le mouvement du corps
de la langue (arrière - bas / avant haut) correspond
approximativement à un mouvement [a] / [i].
Le mouvement du dos
de la langue lui permet de se ramasser en boule vers l'arrière,
comme pour le son "ou" dans "loup" ou au contraire de se détendre.
Deux autres mouvements concernent plus particulièrement
la pointe de la langue, si important pour les consonnes telles que [s],
[t] ou [l]. Le mouvement
vertical de la pointe de la langue permet le contact, partiel ou total,
avec le palais dur et les incisives supérieurs. Le mouvement
d'avancée /rétraction de la pointe de la langue gère
les mouvements avant / arrière, en particulier pour la distinction
entre [s] et [sh].
Illustration de mouvements de mâchoire
et de langue déterminés à partir de films cinéradiographiques
A partir d'un film cinéradiographique réalisé
sur le même sujet prononçant une séquence
de voyelles, nous avons calculé par inversion les commandes
correspondantes de notre modèle articulatoire de mâchoire
et de langue, et nous avons ainsi pu reconstruire les mouvements
tridimensionnels de la langue correspondants à cette séquence
de voyelles. Cette technique peut être également illustrée
pour une séquence
contenant des consonnes plosives.
Composantes de la mâchoire, des
lèvres et du visage
Le mouvement
de rotation de la mâchoire constitue l'un des mouvements majeurs
pour l'ensemble lèvres / visage. Le mouvement
d'avancée - rétraction de la mâchoire apporte un
complément utile pour les consonnes labio-dentales telles que le
[f] pour lesquelles la lèvre inférieure vient en contact
avec les incisives supérieures.
Le mouvement le plus important en français et
le mouvement
de protrusion - rétraction des lèvres, qui permet par
exemple de passer de la voyelle [i] à la voyelle [y] ("j'ai lu").
Le mouvement
d'ouverture - fermeture des lèvres constitue un autre mouvement
important, puique c'est essentiellement celui qui permet toutes les consonnes
plosives labiales [p, b, m].
Le mouvement
vertical d'élévation - abaissement des lèvres,
bien que peu important au niveau du pourcentage des données aux
quelles il correspond, est cependant déterminant pour les consonnes
[f / v] et les consonnes [sh / zh] (comme "chat" et "jouer").
On notera sur toutes ces animations que les mouvements
du visage sont très corrélés avec ceux des lèvres.
Ceci est vrai pour une parole neutre. Par contre, nous avons pu montrer
que l'expression du sourire avoir une influence important sur les
mouvements des lèvres et du visage ()...
Illustration de mouvements déterminés
à partir de séquences vidéo
A partir d'un film audiovisuel tourné sur le même
sujet avec les mêmes billes, nous avons calculé par inversion
les commandes correspondantes de notre modèle articulatoire de mâchoire,
de lèvres et de visage, et nous avons ainsi pu reconstruire les
mouvements tridimensionnels de l'ensemble lèvres / visage pour une
séquence
contenant des consonnes plosives.
La séquence
contenant des consonnes labio-dentales montre que le mouvement particulier
nécessaire pour produire ces consonnes peut être parfaitement
reproduit avec notre modèle.
Illustration de copie d'une phrase
par synthèse articulatoire
Le comportement de ces modèles
articulatoires peut être également illustré dans le
cadre plus générale de la synthèse articulatoire.
Le même sujet a prononcé la phrase "Sophie, je suis fâché,
vous savez ?". Les paramètres de commande des modèles ont
ensuite été déterminés par inversion (cf. référence
ci-dessous). Cette phrase est illustrée par une version dans laquelle
apparaissent les lèvres et
le visage, et par une autre séquence dans laquelle apparaissent
la mâchoire et la langue.
Références bibliographiques
P. Badin, P. Borel, G. Bailly, L. Revéret, M. Baciu, and C. Segebarth.
(2000).
Towards
an audiovisual virtual talking head: 3D articulatory modeling of tongue,
lips and face based on MRI and video images. In Proceedings of the
5th Seminar on Speech Production: Models and Data & CREST Workshop
on Models of Speech Production: Motor Planning and Articulatory Modelling,
pages 261-264, Kloster Seeon, Germany.
P. Borel,P. Badin, L. Revéret, and G. Bailly. (2000).
Modélisation
articulatoire linéaire 3D d'un visage pour une tête parlante
virtuelle. In Actes des 23èmes Journées d'Etude de
la Parole, pages 121-124, Aussois, France.
D. Beautemps, P. Badin, and G. Bailly. (2001). Linear degrees of freedom
in speech production: Analysis of cineradio- and labio-film data and articulatory-acoustic
modeling.
Journal of the Acoustical Society of America, 109(5):2165-2180.
K. Mawass, P. Badin, and G. Bailly. (2000). Synthesis of French fricatives
by audio-video to articulatory inversion.
Acta Acustica, 86:136-146.