Accueil > Recherche > Equipes

 

La parole est un ensemble de gestes articulatoires rendus audibles ... et visibles. Les thèmes de recherche de l'équipe "Machines Parlantes" de l'ICP sont centrés sur l'étude et la modélisation des procédures d'encodage - par ces gestes articulatoires - des diverses informations linguistiques et paralinguistiques véhiculées par la parole. Ainsi, de la pensée à l'action, notre ambition est de pouvoir disposer de têtes parlantes (re)produisant une chaîne de causalité entre diverses représentations linguistiques, phonologiques, phonétiques et paramétrique du message. L'objectif est de pouvoir expliquer et reproduire toute la variabilité des signaux acoustiques et des mouvements faciaux observés en parole spontanée.

Figure 1 : schéma général des diverses activités de l'équipe. L'activité de synthèse de synthèse de signaux et d'images proprement dite n'est que la face émergée d'une activité d'élaboration d'expériences où les stimuli recueillis sont analysés, caractérisés puis mis à l'épreuve de la modélisation. Enfin l'évaluation comparée - objective et subjective - des stimuli naturels et synthétiques vise à valider les stimuli et les théories et modèles sous-jacents à la modélisation.

Les moyens mis en œuvre pour reproduire les signaux/mouvements observés sont retracés dans la chaîne de compétence en Figure 1. Le nœud central de notre travail est l'étape de modélisation où les descripteurs de la tâche (qui sont souvent - dans le cadre de la plupart de nos travaux - prédéfinis de part l'étude de tâches bien contrôlées) et la/les représentations paramétriques de signaux de la communication sont mis en correspondance. L'analyse et la caractérisation des signaux font partie intégrante des compétences développées au sein de l'équipe avec cependant une spécificité bien particulière à notre équipe : l'usage systématique -dans la mesure du possible- de procédures d'analyse par la synthèse où les modèles de contrôle de la production des signaux de la communication viennent conditionner l'analyse.

Grâce à de nombreux projets internationaux, européens et nationaux, nous disposons d'une première chaîne opérationnelle permettant de faire parler les clones virtuels de quelques locuteurs à partir d'un simple texte. Bien que la source commune entre synthèse acoustique et synthèse visuelle se résume pour l'instant à une chaîne phonétique marquée en durée -permettant néanmoins une synchronisation a posteriori des mouvements d'un clone avec de la parole naturelle- nous travaillons, en lien avec les équipes "Modélisation Articulatoire" et "Acoustique", à une génération de mouvements articulatoires pour un modèle physique capable de produire du son à partir de gestes.
Plus récemment, ces têtes ont été augmentées d'une main, permettant à ces clones de choisir entre une délivrance des mouvements invisibles de la parole par les outils de réalité augmentée (voir rendu en peau transparente Figure 2) soit par les gestes du Langage Parlé Complété.
Nous disposons ainsi d'une chaîne complète d'encodage de messages dans laquelle des modules de traitement, de nouvelles représentations voire de nouveaux modèles de mise en correspondance entre représentations peuvent être testés tant du point de vue de leur contribution à l'intelligibilité finale du message délivré, de la plausibilité comportementale et de charge cognitive induite sur l'interlocuteur. Les progrès réalisés sur le timbre des voix synthétiques et des rendus d'images de synthèse permettent en outre d'envisager, dans de nombreux cas, la confrontation directe des performances humaines avec celles de nos créatures virtuelles.

Figure 2 : clone 3D dont la peau semi-transparente permet de "voir" le mouvement des articulateurs internes de la parole (ici la langue).

 

Représentations paramétriques du signal de parole
Analyse, caractérisation et synthèse de visages parlants
Génération automatique de la prosodie
Synthèse audiovisuelle de la parole à partir du texte
Etude, caractérisation, modélisation et synthèse du geste LPC