Têtes parlantes audiovisuelles et applications

De très grands progrès ont été  récemment accomplis, en particulier à l'Institut de la Communication Parlée,  dans le développement des têtes parlantes audiovisuelles :
  • développement de modèles  articulatoires tridimensionnels d'articulateurs comme la langue ou les lèvres
  • video-réalisme accru des modèles qui constituent aujourd'hui de véritables clones du locuteur dont ils sont issus,
  • suivi automatique des mouvements des articulateurs tels que la mâchoire, les lèvres, ou plus généralement les mouvements du visage, qui permet ainsi d'animer le clone du sujet à distance,
  • réalité augmentée, c'est-à-dire  possibilité d'animer  et de montrer les articulateurs qui ne pas toujours naturellement visibles  tels que la langue ou le voile du palais.

  •  

     
     
     

    Ces progrès ouvrent la voie à un certain nombre d'applications dans le domaine des Sciences et Techniques de l'Information et de la Communication (STIC), que ce soit au niveau des télécommunications audiovisuelles, de la synthèse à partir du texte ou de l'apprentissage des langues. Ils permettent de poser clairement la parole dans son cadre de système de communication face à face, multimodal, qu'il convient d'analyser avec la gamme d'outils disponibles dans l'étude des systèmes cognitifs. Ainsi, les recherches à l'Institut de la Communication Parlée portent notamment sur les principes de fusion perceptive des informations auditives et visuelles pour la reconnnaissance de la parole en milieu bruité, avec une gamme de développements possibles dans les domaines du débruitage et de la compression de sources de parole audiovisuelles.
     

    Parole audiovisuelle et télécommunications

    Le premier projet de télécommunication audiovisuelle de l'ICP, le Labiophone, a été lancé par Christian Benoit  dans le cadre de la fédération de laboratoires ELESA.  Le projet avait développé un système  assurant l'analyse et le suivi  en temps réel des mouvements des lèvres d'un locuteur à l'aide d'une caméra fixée sur un casque porté par le locuteur, et  permettant  ainsi les animer à distance à travers un réseau de télécommunications.





    Ce projet est poursuivi aujourd'hui dans le cadre beaucoup plus ambitieux du projet  TempoValse , labellisé par le Réseau National de Recherche en Télécommunications (RNRT). La principale limitation du Labiophone résidait dans la nécessité pour le locuteur de se maquiller les lèvres en bleu ! Sans compter le poids non négligeable du casque... TempoValse a pour objectif de lever ces contraintes: on construit dans un premier temps un clone video-réaliste du visage du locuteur qui peut être piloté par seulement six paramètres articulatoires de contrôle; une micro-caméra montée sur un casque léger permet ensuite de calculer ces paramètres par analyse par la synthèse;  les paramètres sont finalement transmis à travers le réseau pour permettre permettent d'animer le clone, véritable copie 3D du locuteur d'origine ou d'un autre.

    Capuchon Triple
    Pilotage par une caméra de deux clones: image originale (gauche), clone du locuteur (centre), et clone d'une autre personne (droite).

    Ce système ouvre la voie, en relation avec le standard de télécommunication MPEG-4, à la téléconférence audiovisuelle au cours de laquelle le clone virtuel 3D de chacun des intervenants est remis en scène dans un environnement virtuel reconstitué.


    Une assemblée de clones virtuels

    Synthèse audiovisuelle à partir du texte

    Cette même tête parlante, associée au système de synthèse de parole à partir du texte COMPOST devéloppé depuis de nombreuses années à l'ICP, permet de développer un système de synthèse de parole audiovisuelle à partir du texte.


    Exemple de synthèse audiovisuelle.


    Aide à l'apprentissage des langues et à la réhabilitation des déficients auditifs

    Chacun peut facilement se convaincre que deux catégories de personnes sont particulièrement tributaires de la vision des lèvres, de la mâchoire et plus généralement du visage de son interlocuteur: les malentendants d'une part, et les apprenant d'une langue étrangère d'autre part. Les têtes parlantes audiovisuelles pourraient donc se révéler  particulièrement utiles dans des situations de réhabilitation / apprentissage.
    Les jeunes malentendants / sourds ne peuvent pas faire appel à leur perception auditive pour découvrir la position de leurs articulateurs qui va leur permettre de produire un son donné: la possibilité de voir, sur une tête parlante en mode réalité augmentée, la position et la forme de la langue pourrait les aider à cet apprentissage /réhabilitation de la prononciation de la parole.
    La situation est similaire pour les apprenants d'une langue étrangère: ils ont du mal à percevoir auditivement certains sons, et voir  les organes internes de la parole peut les aider à mieux prononcer. Par exemple le son "u" du français dans "j'ai lu" est difficile à acquérir pour les Italiens ou les Japonais qui ne connaissent que le son "ou" dans "loup" (ces deux sons ne sont pas distinguables sur le visage, mais seulement si l'on voit la langue.


    Film en réalité augmentée montrant les mouvements de la mâchoire




    Le Langage Parlé Complété (LPC) constitue une autre forme de réalité augmentée utile aux malentendants. Le LPC est un moyen de communication qui rehausse les informations issues de la lecture sur les lèvres à l'aide de configurations et positions précises de la main près du visage du locuteur, ce qui permet de compléter les informations sur les articulations partiellement décrites par l'information visuelle. Ce système est utilisé comme outil d'intégration du système phonologique, d'apprentissage de la lecture et de l'écriture et constitue un moyen essentiel d'intégration des malentendants dans la société en facilitant l'accès à l'oral, d'autant plus avantageux pour les personnes disposant d'un implant cochléaire dont le nombre est en forte croissance.

    La relation entre les gestes LPC et les mouvements de lèvre est fondamentale. Dans le cadre de projets financés par le programme Cognitique et par le RNRT,  et dans une perspective d'intégration de la modalité LPC dans les systèmes de communication audio-visuels, nous allons étudier et modéliser la coordination des gestes manuels et oro-faciaux à partir de l'analyse de personnes pratiquant le LPC (codeurs). Nous développerons ensuite un système de synthèse audiovisuelle LPC à partir du texte, de façon à pouvoir transmettre à la place du traditionnel télétexte un petit clone virtuel 3D doté d'une main incrusté dans les émissions télévisuelles.
     

    Modélisation de l'apnée du sommeil en vue d'un traitement chirurgical

    Dans certaines conditions,  lors du sommeil, le voile du palais peut entrer en oscillation (ronflement) ou conduire à une occlusion totale des voies aériennes supérieures (apnée obstructive du sommeil). Les modèles biomécaniques et aérodynamique développés aujourd'hui permettent  d'aborder de manière théorique et expérimentale l'étude de l'écoulement de l'air au sein de la cavité oro-pharyngale et de son interaction avec les tissus, et à terme, de disposer d'un modèle complet et validé, véritable outil d'étude, de prédiction et d'analyse des apnées du sommeil adapté à l'aide au traitement chirurgical de cette pathologie. Un projet de la fédération de laboratoires IMAG vient d'être partiellement financé.