Modélisation  tridimensionnelle linéaire des articulateurs de la parole

Introduction

La conjonction des traditionnelles études sur l'articulation en parole, de l'accès facile aux nouveaux moyens d'imagerie médicale, et des besoins liés aux STICs en parole audiovisuelle a favorisé le développement de la modélisation tridimensionnelle des articulateurs de la parole et du conduit vocal.
Notre approche en modélisation a consisté à déterminer, à partir de données géométriques tridimensionnelles mesurées sur un locuteur de référence, un certain nombre de mouvements de base (appelés degrés de liberté) qui permettent de représenter simplement, mais avec une très bonne précision, les mouvements complexes des articulateurs tels que la mâchoire, la langue, le voile du palais, les lèvres ou le visage.

Les données articulatoires

Afin de nous permettre d'acquérir toutes les données nécessaires, le locuteur a prononcé un ensemble d'articulations comprenant toutes les voyelles du français, ainsi que les consonnes dans trois contextes vocaliques symmétriques, dans deux conditions expérimentales différentes:
  • système d'Imagerie par Résonance Magnétique
  • système d'enregistrement par caméras vidéos
  • Traitement des données de la langue et de la mâchoire

    Trois piles d'images ont été acquises pour chaque articulation (axiales, obliques et coronales, voir figure ci-dessous). Les contours de langue ont ensuite été tracés sur chaque image. La forme tridimensionnelle de la langue a été enfin reconstruite, puis rééchantillonnée suivant une grille semi-polaire qui s'ajuste en particulier à la position de la pointe de la langue. La position de la mâchoire est également déterminée à partir de l'image médiosagittale.

    Pile axiale

    Pile oblique

    Pile coronale

    Coupe médiosagittale reconstruite à partir des 3 piles

    Forme 3D de la langue reconstruite

    Langue rééchantillonnée /  grille semi-polaire

    Traitement des données des lèvres et du visage

    Des images de face et de profil ont été acquises pour chaque articulation. Les lèvres du sujet sont maquillées en bleu pour faciliter la recherche de leurs contours, tandis qu'un certain nombre de billes ont été fixées sur le visage pour permettre de suivre précisémment les mouvements. Lors d'un enregistrement complémentaire, une "éclisse mandibulaire" a également été fixé à la mâchoire du sujet pour permettre de mesurer sa position même dans les cas où les incisises ne sont pas visibles.
     

    Détermination des coordonnées des billes
    Détermination de la forme des lèvres
    Mesure de la position de la mâchoire

    Analyse en composantes linéaires décorrélées

    Grâce à des techniques d'analyse en composantes linéaires classiques (ACP, régression linéaire multiple), un certain nombre de mouvements de base ont été mis en évidence pour la langue, la machoire, les lèvres et le visage.

    Composantes de la mâchoire et de la langue

    La mâchoire étant l'articulateur qui supporte en grande partie la langue, son mouvement constitue le premier mouvement de base. Le mouvement de rotation de la mâchoire entraîne un mouvement de bascule de la langue.
    Deux autres mouvements importants, liés à la masse globale de la langue sont: le mouvement  du corps de la langue (arrière - bas  / avant haut)  correspond approximativement à un mouvement [a] / [i].
    Le mouvement du dos de la langue lui permet de se ramasser en boule vers l'arrière, comme pour le son "ou" dans "loup" ou au contraire de se détendre.
    Deux autres mouvements concernent plus particulièrement la pointe de la langue, si important pour les consonnes telles que [s], [t] ou [l]. Le mouvement vertical de la pointe de la langue permet le contact, partiel ou total, avec le palais dur et les incisives supérieurs. Le mouvement d'avancée /rétraction de la pointe de la langue gère les mouvements avant / arrière, en particulier pour la distinction entre [s] et [sh].
     

    Illustration de mouvements de mâchoire et de langue déterminés à partir de films cinéradiographiques

    A partir d'un film cinéradiographique réalisé sur le même sujet prononçant une séquence de voyelles, nous avons  calculé par inversion les commandes correspondantes de notre modèle articulatoire de mâchoire et de langue, et nous avons ainsi pu reconstruire les mouvements tridimensionnels de la langue correspondants à cette séquence de voyelles. Cette technique peut être également illustrée pour une séquence contenant des consonnes plosives.
     

    Composantes de la mâchoire, des lèvres et du visage

    Le mouvement de rotation de la mâchoire constitue l'un des mouvements majeurs pour l'ensemble lèvres / visage. Le mouvement d'avancée - rétraction de la mâchoire apporte un complément utile pour les consonnes labio-dentales telles que le [f] pour lesquelles la lèvre inférieure vient en contact avec les incisives supérieures.
    Le mouvement le plus important en français et le mouvement de protrusion - rétraction des lèvres, qui permet par exemple de passer de la voyelle [i] à la voyelle [y] ("j'ai lu").
    Le mouvement d'ouverture - fermeture des lèvres constitue un autre mouvement important, puique c'est essentiellement celui qui permet toutes les consonnes plosives labiales [p, b, m].
    Le mouvement vertical d'élévation - abaissement des lèvres, bien que peu important au niveau du pourcentage des données aux quelles il correspond, est cependant déterminant pour les consonnes [f / v] et les consonnes [sh / zh] (comme "chat" et "jouer").
    On notera sur toutes ces animations que les mouvements du visage sont très corrélés avec ceux des lèvres. Ceci est vrai pour une parole neutre. Par contre, nous avons pu montrer que l'expression du sourire avoir une influence important  sur les mouvements des lèvres et du visage ()...

    Illustration de mouvements déterminés à partir de séquences vidéo

    A partir d'un film audiovisuel tourné sur le même sujet avec les mêmes billes, nous avons calculé par inversion les commandes correspondantes de notre modèle articulatoire de mâchoire, de lèvres et de visage, et nous avons ainsi pu reconstruire les mouvements tridimensionnels de l'ensemble lèvres / visage pour une séquence contenant des consonnes plosives.
    La séquence contenant des consonnes labio-dentales montre que le mouvement particulier nécessaire pour produire ces consonnes peut être parfaitement reproduit avec notre modèle.
     

    Illustration de copie d'une phrase par synthèse articulatoire

    Le comportement de ces modèles articulatoires peut être également illustré dans le cadre plus générale de la synthèse articulatoire. Le même sujet a prononcé la phrase "Sophie, je suis fâché, vous savez ?". Les paramètres de commande des modèles ont ensuite été déterminés par inversion (cf. référence ci-dessous). Cette phrase est illustrée par une version dans laquelle apparaissent les lèvres et  le visage, et par une autre séquence dans laquelle apparaissent la mâchoire et la langue.
     

    Références bibliographiques

    P. Badin, P. Borel, G. Bailly, L. Revéret, M. Baciu, and C. Segebarth. (2000). Towards an audiovisual virtual talking head: 3D articulatory modeling of tongue, lips and face based on MRI and video images. In Proceedings of the 5th Seminar on Speech Production: Models and Data & CREST Workshop on Models of Speech Production: Motor Planning and Articulatory Modelling, pages 261-264, Kloster Seeon, Germany.

    P. Borel,P. Badin, L. Revéret, and G. Bailly. (2000). Modélisation articulatoire linéaire 3D d'un visage pour une tête parlante virtuelle. In Actes des 23èmes Journées d'Etude de la Parole, pages 121-124, Aussois, France.

    D. Beautemps, P. Badin, and G. Bailly. (2001). Linear degrees of freedom in speech production: Analysis of cineradio- and labio-film data and articulatory-acoustic modeling. Journal of the Acoustical Society of America, 109(5):2165-2180.

    K. Mawass, P. Badin, and G. Bailly. (2000). Synthesis of French fricatives by audio-video to articulatory inversion. Acta Acustica, 86:136-146.