![]()
La parole est un ensemble de gestes articulatoires rendus audibles ... et visibles. Les thèmes de recherche de l'équipe "Machines Parlantes" de l'ICP sont centrés sur l'étude et la modélisation des procédures d'encodage - par ces gestes articulatoires - des diverses informations linguistiques et paralinguistiques véhiculées par la parole. Ainsi, de la pensée à l'action, notre ambition est de pouvoir disposer de têtes parlantes (re)produisant une chaîne de causalité entre diverses représentations linguistiques, phonologiques, phonétiques et paramétrique du message. L'objectif est de pouvoir expliquer et reproduire toute la variabilité des signaux acoustiques et des mouvements faciaux observés en parole spontanée.
![]() |
Figure 1 : schéma général
des diverses activités de l'équipe. L'activité de
synthèse de synthèse de signaux et d'images proprement dite
n'est que la face émergée d'une activité d'élaboration
d'expériences où les stimuli recueillis sont analysés,
caractérisés puis mis à l'épreuve de la modélisation.
Enfin l'évaluation comparée - objective et subjective -
des stimuli naturels et synthétiques vise à valider les
stimuli et les théories et modèles sous-jacents à
la modélisation.
|
Les moyens mis en uvre pour reproduire les signaux/mouvements observés sont retracés dans la chaîne de compétence en Figure 1. Le nud central de notre travail est l'étape de modélisation où les descripteurs de la tâche (qui sont souvent - dans le cadre de la plupart de nos travaux - prédéfinis de part l'étude de tâches bien contrôlées) et la/les représentations paramétriques de signaux de la communication sont mis en correspondance. L'analyse et la caractérisation des signaux font partie intégrante des compétences développées au sein de l'équipe avec cependant une spécificité bien particulière à notre équipe : l'usage systématique -dans la mesure du possible- de procédures d'analyse par la synthèse où les modèles de contrôle de la production des signaux de la communication viennent conditionner l'analyse.
Grâce à de nombreux projets internationaux, européens
et nationaux, nous disposons d'une première chaîne opérationnelle
permettant de faire parler les clones virtuels de quelques locuteurs à
partir d'un simple texte. Bien que la source commune entre synthèse acoustique
et synthèse visuelle se résume pour l'instant à une chaîne
phonétique marquée en durée -permettant néanmoins
une synchronisation a posteriori des mouvements d'un clone avec de la parole
naturelle- nous travaillons, en lien avec les équipes "Modélisation
Articulatoire" et "Acoustique", à une génération
de mouvements articulatoires pour un modèle physique capable de produire
du son à partir de gestes.
Plus récemment, ces têtes ont été augmentées
d'une main, permettant à ces clones de choisir entre une délivrance
des mouvements invisibles de la parole par les outils de réalité
augmentée (voir rendu en peau transparente Figure 2) soit par les gestes
du Langage Parlé Complété.
Nous disposons ainsi d'une chaîne complète d'encodage de messages
dans laquelle des modules de traitement, de nouvelles représentations
voire de nouveaux modèles de mise en correspondance entre représentations
peuvent être testés tant du point de vue de leur contribution à
l'intelligibilité finale du message délivré, de la plausibilité
comportementale et de charge cognitive induite sur l'interlocuteur. Les progrès
réalisés sur le timbre des voix synthétiques et des rendus
d'images de synthèse permettent en outre d'envisager, dans de nombreux
cas, la confrontation directe des performances humaines avec celles de nos créatures
virtuelles.
![]() |
|
Figure 2 : clone 3D dont la peau
semi-transparente permet de "voir" le mouvement des articulateurs
internes de la parole (ici la langue).
|
![]()
Représentations paramétriques du signal de parole
Analyse, caractérisation et synthèse de visages parlants
Génération automatique de la prosodie
Synthèse audiovisuelle de la parole à partir du texte
Etude, caractérisation, modélisation et synthèse du geste LPC