Têtes parlantes audiovisuelles
et applications
De très grands progrès ont été
récemment accomplis, en particulier à l'Institut de la Communication
Parlée, dans le développement des têtes parlantes
audiovisuelles :
développement de modèles
articulatoires tridimensionnels d'articulateurs comme la langue ou
les lèvres
video-réalisme accru des
modèles qui constituent aujourd'hui de véritables clones
du locuteur dont ils sont issus,
suivi automatique des mouvements des articulateurs tels que
la mâchoire, les lèvres, ou plus généralement
les mouvements du visage, qui permet ainsi d'animer le clone du sujet à
distance,
réalité augmentée, c'est-à-dire
possibilité d'animer et de montrer les articulateurs qui ne
pas toujours naturellement visibles tels que la langue ou le voile
du palais.
Ces progrès ouvrent la voie à un certain
nombre d'applications dans le domaine des Sciences et Techniques de l'Information
et de la Communication (STIC), que ce soit au niveau des télécommunications
audiovisuelles, de la synthèse à partir du texte ou de l'apprentissage
des langues. Ils permettent de poser clairement la parole dans son cadre
de système de communication face à face, multimodal, qu'il
convient d'analyser avec la gamme d'outils disponibles dans l'étude
des systèmes cognitifs. Ainsi, les recherches à l'Institut
de la Communication Parlée portent notamment sur les principes de
fusion perceptive des informations auditives et visuelles pour la reconnnaissance
de la parole en milieu bruité, avec une gamme de développements
possibles dans les domaines du débruitage et de la compression de
sources de parole audiovisuelles.
Parole audiovisuelle et télécommunications
Le premier projet de télécommunication audiovisuelle
de l'ICP, le Labiophone,
a été lancé par Christian Benoit dans le cadre
de la fédération de laboratoires ELESA. Le projet avait
développé un système assurant l'analyse et le
suivi en temps réel des mouvements des lèvres d'un
locuteur à l'aide d'une caméra fixée sur un casque
porté par le locuteur, et permettant ainsi les animer
à distance à travers un réseau de télécommunications.



Ce projet est poursuivi aujourd'hui dans le cadre beaucoup
plus ambitieux du projet TempoValse
, labellisé par le Réseau National de Recherche en Télécommunications
(RNRT). La principale limitation du Labiophone résidait dans la
nécessité pour le locuteur de se maquiller les lèvres
en bleu ! Sans compter le poids non négligeable du casque... TempoValse
a pour objectif de lever ces contraintes: on construit dans un premier
temps un clone video-réaliste du visage du locuteur qui peut être
piloté
par seulement six paramètres articulatoires de contrôle;
une micro-caméra montée sur un casque léger permet
ensuite de calculer ces paramètres par analyse par la synthèse;
les paramètres sont finalement transmis à travers le réseau
pour permettre permettent d'animer
le clone, véritable copie 3D du locuteur d'origine ou d'un autre.
Pilotage par une caméra de deux clones: image
originale (gauche), clone du locuteur (centre), et clone d'une autre personne
(droite).
Ce système ouvre la voie, en relation avec le standard
de télécommunication MPEG-4,
à la téléconférence audiovisuelle au cours
de laquelle le clone virtuel 3D de chacun des intervenants est remis en
scène dans un environnement
virtuel reconstitué.
Une assemblée de clones virtuels
Synthèse audiovisuelle à partir du
texte
Cette même tête parlante, associée au
système
de synthèse de parole à partir du texte COMPOST devéloppé
depuis de nombreuses années à l'ICP, permet de développer
un système de synthèse
de parole audiovisuelle à partir du texte.
Exemple de synthèse audiovisuelle.
Aide à l'apprentissage des langues et à
la réhabilitation des déficients auditifs
Chacun peut facilement se convaincre que deux catégories
de personnes sont particulièrement tributaires de la vision des
lèvres, de la mâchoire et plus généralement
du visage de son interlocuteur: les malentendants d'une part, et les apprenant
d'une langue étrangère d'autre part. Les têtes parlantes
audiovisuelles pourraient donc se révéler particulièrement
utiles dans des situations de réhabilitation / apprentissage.
Les jeunes malentendants / sourds ne peuvent pas faire
appel à leur perception auditive pour découvrir la position
de leurs articulateurs qui va leur permettre de produire un son donné:
la possibilité de voir, sur une tête parlante en mode
réalité
augmentée, la position et la forme de la langue pourrait les
aider à cet apprentissage /réhabilitation de la prononciation
de la parole.
La situation est similaire pour les apprenants d'une
langue étrangère: ils ont du mal à percevoir auditivement
certains sons, et voir les organes internes de la parole peut
les aider à mieux prononcer. Par exemple le son "u" du français
dans "j'ai lu" est difficile à acquérir pour les Italiens
ou les Japonais qui ne connaissent que le son "ou" dans "loup" (ces
deux sons ne sont pas distinguables sur le visage, mais seulement si l'on
voit
la langue.
Film en réalité augmentée montrant
les mouvements de la mâchoire
Le Langage Parlé Complété
(LPC) constitue une autre forme de réalité augmentée
utile aux malentendants. Le LPC est un moyen de communication qui rehausse
les informations issues de la lecture sur les lèvres à l'aide
de configurations et positions précises de la main près du
visage du locuteur, ce qui permet de compléter les informations
sur les articulations partiellement décrites par l'information visuelle.
Ce système est utilisé comme outil d'intégration du
système phonologique, d'apprentissage de la lecture et de l'écriture
et constitue un moyen essentiel d'intégration des malentendants
dans la société en facilitant l'accès à l'oral,
d'autant plus avantageux pour les personnes disposant d'un implant cochléaire
dont le nombre est en forte croissance.
La relation entre les gestes LPC et les mouvements de
lèvre est fondamentale. Dans le cadre de projets financés
par le programme
Cognitique et par le RNRT, et dans une perspective d'intégration
de la modalité LPC dans les systèmes de communication audio-visuels,
nous allons étudier et modéliser la coordination des gestes
manuels et oro-faciaux à partir de l'analyse de personnes pratiquant
le LPC (codeurs). Nous développerons ensuite un système
de synthèse audiovisuelle LPC à partir du texte, de façon
à pouvoir transmettre à la place du traditionnel télétexte
un petit clone virtuel 3D doté d'une main incrusté dans les
émissions télévisuelles.
Modélisation de l'apnée du sommeil
en vue d'un traitement chirurgical
Dans certaines conditions, lors
du sommeil, le voile du palais peut entrer en oscillation (ronflement)
ou conduire à une occlusion totale des voies aériennes supérieures
(apnée obstructive du sommeil). Les modèles biomécaniques
et aérodynamique développés aujourd'hui permettent
d'aborder de manière théorique et expérimentale l'étude
de l'écoulement de l'air au sein de la cavité oro-pharyngale
et de son interaction avec les tissus, et à terme, de disposer d'un
modèle complet et validé, véritable outil d'étude,
de prédiction et d'analyse des apnées du sommeil adapté
à l'aide au traitement chirurgical de cette pathologie. Un projet
de la fédération de laboratoires IMAG vient d'être
partiellement financé.