Sonovision - Voxygen, la voix numérique

vendredi 15 avril 2016
Par S.P. Cholifex, avec Lionel Mery

Avec le temps, le numérique met à l’épreuve de l’innovation toutes les formes de technologies impliquées dans les systèmes de l’information. Pas étonnant qu’il soit donc sur le point de passer son grand oral. Notre environnement multimédia gagnerait, c’est sûr, à s’enrichir de la parole ; cette avancée majeure est portée par les deux processus de reconnaissance et de synthèse vocale. Les experts qui travaillent sur ce sujet depuis de nombreuses années en sont convaincus. Le public, lui, réagit très favorablement à l’expérience d’une voix qui le surprend, l’interpelle et le renseigne tout à la fois. L’image du robot parlant, vue dans les films d’anticipation a fait long feu, et on réalise aujourd’hui que la voix reconstituée peut couvrir un éventail de services dans des cas d’usage très diversifiés.

Nous sommes nombreux à être désormais habitués aux instructions de guidage de notre GPS en voiture. Sa voix de synthèse, nous l’avons sélectionnée parmi le choix restreint des quelques propositions de l’appareil, et certains sont même allés jusqu’à la personnaliser. Elle nous est familière dans le contexte automobile. Pourtant ce type de prise de parole par les systèmes techniques intervient déjà dans bien d’autres domaines, et devrait rapidement s’étendre à ceux de la communication, de l’information et des médias. Des domaines dans lesquels la question de l’accessibilité des contenus audiovisuels aux personnes mal-voyantes offre des perspectives d’application étendues à la voix numérique. Nous sommes donc allés à la rencontre d’une petite société française qui s’est fait une spécialité de cette voix numérique…

Une voix numérique venue du Grand Ouest

Issue d’un essaimage technologique des laboratoires de recherche Orange Labs, la société Voxygen s’est constituée en 2011 dans la continuité d’un projet de R&D initié par le Centre national d’études des télécommunications (CNET) historiquement basé à Lannion. La jeune entreprise bretonne regroupait à l’époque six collaborateurs issus du groupe Orange, qui ont repris l’activité de recherche et poursuivi les travaux de développement dans le domaine du traitement numérique de la voix humaine, avec la volonté de faire progresser deux processus techniques :
– comment analyser la voix pour la transformer automatiquement en texte ; cette reconnaissance vocale, qu’on appelle le « Speech To Text » (STT), devant s’opérer avec une latence minimale dans certaines circonstances.
– à l’inverse, comment reconstituer automatiquement la parole à partir d’un texte, avec une voix de synthèse générée par un processus de « Text-To-Speech » (TTS).

Aujourd’hui, le siège de Voxygen est localisé dans le nord de la Bretagne, à Pleumeur-Bodou. Les équipes sont multisites : un établissement rennais recevant une partie des équipes techniques et R&D, une antenne commerciale à Paris et des bureaux de développement à Dakar complètent le dispositif. La société investit près de 50 % de son chiffre d’affaires dans ces applications spécialisées dans le traitement de la voix. La société compte aujourd’hui trente collaborateurs et elle a conclu des partenariats avec plusieurs universités qui conduisent en France des travaux sur ces sujets.

Reconnaissance de la parole

Le système Voxygen est capable d’analyser le contenu vocal reçu, qu’il provienne d’un micro en direct ou qu’il soit contenu dans un fichier média existant ; et ce à grande vitesse, jusqu’à six fois plus rapide que le temps réel ; il traduit la décomposition des sons élémentaires perçus – appelés phonèmes – pour reconstituer le texte des paroles. Un lexique de vocabulaire de référence est présent avec plusieurs langues, ainsi qu’une grammaire de mots. Le texte reconnu en STT peut être indexé pour être synchronisé avec le contenu visuel du média grâce aux informations de temps codé (TC) de la vidéo. Les voix des locuteurs successifs, hommes et femmes, sont reconnues ; et leurs textes respectifs sont automatiquement réattribués. Les dénominations particulières, noms et expressions propres à un domaine de spécialité sont appelées des « entités nommées ». La reconnaissance de ces entités nommées est rendue possible grâce au support de registres spécifiques.

Synthèse de la voix

Ce traitement repose sur une technologie numérique qui permet de moduler le son d’une voix artificielle à partir du script d’un texte. Pour les services en ligne, le dispositif de synthèse de la parole peut être hébergé sur Internet, mais il peut aussi être embarqué dans un système dédié. Le déploiement d’un processus TTS est très flexible : une voix de synthèse identifiable peut devenir rapidement un élément identitaire de la communication d’une entreprise. Elle peut être utilisée pour personnaliser par exemple des messages sonores destinés à des clients ; elle peut décliner en temps réel des messages d’information publique comportant un grand nombre de variables, comme c’est le cas pour les messages diffusés à l’attention des voyageurs dans les gares. Les solutions de synthèse vocale de Voxygen s’appliquent à de nombreux domaines : télécoms, transports, accessibilité, santé, médias, formation et jeux…

Voxygen dispose aujourd’hui d’un catalogue de voix contenant plus de cent identités vocales différentes, avec des voix d’hommes, de femmes et d’enfants de tous âges, des voix professionnelles, amusantes, avec des accents typiques. Elle est également en mesure de réaliser des voix sur mesure, répondant aux besoins et à l’identité vocale de ses clients. Plusieurs langues sont déjà disponibles : français, anglais (UK & US), allemand, italien, espagnol et arabe. D’autres sont en cours de mise au point : portugais, néerlandais, ainsi que des langues du continent africain, pour lesquelles les équipes de Dakar assurent le développement.

Les clients utilisant actuellement la brique technologique de la synthèse vocale sont principalement des grands groupes industriels. L’évolution des technologies TTS et la réduction progressive de leurs coûts, devrait permettre plus largement dans l’avenir aux systèmes de s’adresser aux utilisateurs par la voie la plus naturelle, la plus rapide et la plus sûre : la parole…

Des traitements numériques de la voix pour l’audiovisuel

De nombreuses perspectives d’application de ces technologies sont liées au domaine audiovisuel, à ceux de l’information et du divertissement (jeux, serious games, programmes vidéo). Il y est question d’ajouter tantôt le son de la voix, tantôt l’image du texte, pour enrichir la présence et améliorer l’accès à la parole :
– entendre une voix qui lit les sous-titres des dialogues… ou de l’audio-description. Ce système vocal permet de lire une description des scènes d’un film pour le rendre accessible aux personnes non ou mal voyantes. Bien qu’il ne permette pas de bénéficier d’un jeu d’acteur incarnant la scène en tenant compte de son ambiance et son action, avec un haut niveau de contextualisation, le système permet de doubler les programmes en langues étrangères…
– voir s’afficher du sous-titrage automatique en temps réel et en direct,
– créer des publicités avec une bande son dynamique, susceptible d’évoluer à tout moment (ex : les pronostics d’une course hippique),
– générer automatiquement des métadonnées à partir des paroles, pour une meilleure connaissance des éléments et une valorisation des archives.

Plus généralement, la maîtrise de la voix dans l’environnement numérique permet de faciliter de nombreux apprentissages (lire, écrire, compter, reconnaître…), de donner une identité vocale aux entreprises qui communiquent avec une voix représentative de leur marque. Elle permet la lecture vocale d’articles de journaux, de magazines en ligne, de contenus de sites web et de services Internet (bulletins météo, actualité…). La présence de la voix dynamise les outils de formation avec des présentations et vidéos personnalisées, augmente l’expérience et le service client avec des agents conversationnels, voitures parlantes, objets connectés. Elle facilite l’accueil des clients par téléphone sur les serveurs vocaux interactifs, la création de messages de répondeur téléphonique personnalisés, et la mise en œuvre de campagnes d’appels téléphoniques. La synthèse vocale améliore l’accessibilité des bornes de distribution de billets, la sonorisation de lieux publics et dans les transports en commun.

Pour compléter ces différents axes de prospection, Voxygen a créé une filiale, Voxygen Health, consacrée au monde de la santé. L’un des projets consiste à réaliser des prothèses vocales destinées aux patients atteints de maladies graves (SLA, cancers ORL) entraînant la perte de la parole, en recréant leur propre voix. Une haute technologie mise au service de la reconstruction du moyen de communication le plus naturel, mais aussi le plus vital : la parole.

Dans de nombreux domaines, dont certains restent à explorer, le traitement de la voix est la technologie numérique qui permettra d’améliorer l’accessibilité des systèmes techniques modernes, pour les mettre plus encore au service de l’individu.

Pour en savoir plus, cliquer ici

Démonstrations en ligne, cliquer ici

Précisions

Si le son est décomposé en fréquences, qui sont analysées, transmises et reproduites dans tous les systèmes audio, la parole, elle, est caractérisée par plusieurs facteurs : d’abord, elle est décomposée en phonèmes : souvenez-vous de l’époque lointaine où vous avez appris à associer un son à une lettre ; consonne ou voyelle, le phonème est la plus petite unité distinctive du langage parlé. Les phonèmes sont ensuite combinés en groupes élémentaires pour former des syllabes qui ont la particularité d’être émises dans un flux d’air continu. La hauteur et la tessiture de la voix dépendent des fréquences – on y revient – auxquelles vibrent des cordes vocales. Mais la voix se singularise aussi par le rythme, la régularité de l’élocution et par le relief de l’énergie acoustique produite – c’est ce qu’on appelle la prosodie –, par ses résonances et ses particularités qui définissent le timbre singulier de la voix. Tous ces facteurs sont liés au domaine de la phonologie : l’étude les sons qui caractérisent un langage, et qui dépend bien sûr de la langue et de la région dans laquelle elle est parlée…