DeepMind,  filiale de Google spécialisée dans l’intelligence artificielle (IA), a mis au point une application de lecture sur les lèvres présentée comme beaucoup plus performante que les humains. En utilisant des milliers d’heures de programmes télé de la BBC, avec à la clé un corpus de 118’000 phrases à analyser, les scientifiques ont en effet réussi à littéralement entraîner un réseau de neurones artificiels à déchiffrer les paroles de séquences vidéo. Principale difficulté, relevée par les chercheurs dans l’article scientifique consacré à cette innovation et que les malentendants connaissent bien : les homophones, ces mots ayant un sens différent mais une même prononciation, et dont le mouvement des lèvres pour les prononcer est identique, d’où l’extrême difficulté d’en saisir le sens exact. Reste que la modélisation mise au point par les scientifiques dénommée « Watch, Listen, Attend and Spell » a permis d’obtenir des résultats saisissants, meilleurs que ceux d’un interprète humain de haut niveau, puisque l’application a été capable de déchiffrer 46,8 % des mots contre uniquement 12,4 % pour l’interprète humain, dans une vidéo choisie au hasard dans les programmes de la BBC entre 2010 et 2015. Si cette innovation majeure est source de belles promesses futures pour nombre de personnes souffrant de déficience auditive, pas sur qu’elle puisse pour l’instant rivaliser en revanche avec un malentendant entraîné à la lecture labiale.     " />

Lire sur les lèvres: Google va-t-il bientôt le faire pour vous?

L’information est tombée à la fin de l’année passée, et elle n’était pas destinée spécifiquement aux malentendants. Il n’empêche, l’innovation pourrait bien un jour changer complètement leur vie.

Une équipe composée de chercheurs de l’Université d’Oxford et de la société DeepMind,  filiale de Google spécialisée dans l’intelligence artificielle (IA), a mis au point une application de lecture sur les lèvres présentée comme beaucoup plus performante que les humains.

En utilisant des milliers d’heures de programmes télé de la BBC, avec à la clé un corpus de 118’000 phrases à analyser, les scientifiques ont en effet réussi à littéralement entraîner un réseau de neurones artificiels à déchiffrer les paroles de séquences vidéo.

Principale difficulté, relevée par les chercheurs dans l’article scientifique consacré à cette innovation et que les malentendants connaissent bien : les homophones, ces mots ayant un sens différent mais une même prononciation, et dont le mouvement des lèvres pour les prononcer est identique, d’où l’extrême difficulté d’en saisir le sens exact.

Reste que la modélisation mise au point par les scientifiques dénommée « Watch, Listen, Attend and Spell » a permis d’obtenir des résultats saisissants, meilleurs que ceux d’un interprète humain de haut niveau, puisque l’application a été capable de déchiffrer 46,8 % des mots contre uniquement 12,4 % pour l’interprète humain, dans une vidéo choisie au hasard dans les programmes de la BBC entre 2010 et 2015.

Si cette innovation majeure est source de belles promesses futures pour nombre de personnes souffrant de déficience auditive, pas sur qu’elle puisse pour l’instant rivaliser en revanche avec un malentendant entraîné à la lecture labiale.