Traduction vocale quasi instantanée

La traduction dite en temps réel, en réalité « quasi-en temps réel », réalisée par un logiciel spécialisé est un processus non encore opérationnel, nécessitant de maîtriser simultanément 3 grandes étapes devant être réalisées pour chaque groupe de mots prononcés en quelques dixièmes de secondes et avec une haute qualité.

reconnaissance vocale et analyse du discours,
traduction (avec appel à une mémoire de traduction et des règles)
rendu en synthèse vocale, en s'appuyant éventuellement sur des processus et techniques de génération automatique de textes (certaines métaphores ou comparaisons ou expressions ayant un sens clair dans une langue, mais sans traduction littérale possible dans d'autres langues).

En temps-réel (ou quasi-temps réel), le système doit aussi idéalement donner un état de la qualité supposée (c'est-à-dire calculée) de la traduction ; il se mesure par le taux d'erreur de mots (WER pour "word error rate" en anglais ; l'unité de mesure classique pour mesurer les performances d'un système de reconnaissance vocale).
En cas de doute, un mot peut être ajouté en surimpression vocale pour signifier à l'auditeur que plusieurs traductions sont possibles. Un signal sonore ou visuel peut donner une indication de probabilité de bonne traduction.

La traduction en temps réel a longtemps été considérée comme techniquement impossible étant donné les moyens informatiques et logiciels alors disponibles.

Dans l'imaginaire

La traduction vocale quasi instantanée ou instantanée (éventuellement télépathique) a souvent été rêvée ou imaginée par les auteurs de science-fiction, parfois sous la forme d'un « traducteur universel » permettant à une langue étrangère, voire extraterrestre d'être traduite. Certains ont même imaginé des systèmes permettant de « communiquer » avec des animaux.

Le Babel Fish (ou Poisson Babel) est une espèce imaginaire de poisson inventé par l'auteur du Guide du voyageur galactique de Douglas Adams. Il permet, après se l'être enfoncé dans l'oreille, de comprendre n'importe quelle langue, et est à l'origine d'une guerre générale.

Difficultés

Les accents, variantes individuelles de prononciation, dialectes, idiomes, surnoms, néologismes individuels, ellipses, expressions idiomatiques, parole continue à ton monocorde ou chantées, le bégaiement, et autres idiosyncrasies étaient jusqu'ici considérées comme des obstacles insurmontables à une bonne traduction quasi instantanée d'un échange vocal, même en utilisant les meilleurs outils en linguistique informatique et en traduction automatique.
Le processus risque d'être très consommateur de puissance informatique, nécessitant de nouveaux centres informatiques pour traiter et calculer le flot de données vocales, et une consommation accrue d'énergie électrique et de bande passante.

Projets en cours

Début 2009, un projet était en cours au Japon consistant à équiper un téléphone mobile d'un traducteur multilingue automatique^[1]. Ce projet vise dans un premier temps à afficher sur l'écran du téléphone la traduction de phrases et mots simples prononcés en Japonais ou en d'autres langues, en quelques secondes et de manière autonome, c'est-à-dire sans dépendance à un serveur.
Le 7 février 2010, Google a annoncé une application de traduction vocale quasi instantanée (speech-to-speech translation)^[2].
Selon un article du Times, Google s'apprête à intégrer dans un téléphone mobile un système de reconnaissance vocale couplé à une traduction automatique.
Le système ne devrait fonctionner correctement que d'ici quelques années, a néanmoins précisé Franz Och, responsable de la traduction chez Google, qui estime que le téléphone mobile devrait favoriser la traduction en « output » car il est a priori susceptible de pouvoir mieux reconnaître et éventuellement « apprendre » la voix et la langue de son propriétaire ou locuteur fréquent (tant qu'il n'est pas fortement enrhumé, ivre, blessé ou brouillé par le bruit ambiant).
Google bénéficie de l'expérience de son traducteur en ligne (qui début 2010 traduisait par écrit - plus ou moins bien - 52 langues). Google pourrait aussi enregistrer et définir la voix des utilisateurs de portables quand ces derniers font des requêtes vocales sur son moteur de recherche. Ceci permettrait de faciliter la compréhension de la voix du locuteur par le système de traduction. Il serait même théoriquement possible d'imiter le timbre de la voix, ou les sentiments qu'elle exprime (colère, etc.) lors de la restitution de la traduction par synthèse vocale. Google est par ailleurs bien placé pour utiliser l'énorme base de données de sites Web et de documents traduits.

Prospective

Le traducteur universel parfait relèvera encore longtemps si ce n'est toujours de la science-fiction, mais divers usages directs ou dérivés de traducteurs vocaux semblent plausibles pour les années et décennies à venir, notamment avec des techniques d'améliorations collaboratives qui pourraient faciliter leur insertion dans les suites bureautiques.
Sous-titrage en direct (pour les sourds et malentendants sur écran de télévision ou de cinéma, ou encore dans des lunettes spéciales par exemple).
Sous titrage traduit à partir de la bande son d'un enregistrement vidéo ou d'un enregistrement fait par un dictaphone.
Dans une même salle, ou lors d'une visite commentée, différents auditeurs, via une oreillette ou un casque audio pourraient écouter dans leur propre langue un même conférencier ou commentateur
Assistance à la parole (via un téléphone mobile ou un traducteur direct pour des personnes ayant un trouble de la parole
Usages malveillants possibles ; À terme, un risque existe par exemple que le timbre, le ton et la voix d'une personne puissent être assez bien reconstitués pour simuler sa voix, éventuellement à mauvais escient.
Un tel traducteur, selon ce qu'on en fera, pourrait à la fois freiner et faciliter l'apprentissage des langues, et éventuellement encourager la persistance de langues autochtones rares ou anciennes (si elles peuvent être prises en compte par le traducteur, certaines de ces langues ayant été relativement bien étudiées par les ethnologues et linguistes). Dans un premier temps, des effets positifs pourraient être une meilleure diction et des phrases mieux construites de la part des utilisateurs qui voudront que leur logiciel de traduction fassent le moins d'erreurs possibles.
Il est permis d'imaginer pouvoir écouter dans sa langue et en quasi-direct un texte écrit dans une langue morte (latin et grec en particulier), dès lors qu'il peut être « lu » par un logiciel de reconnaissance d'écriture.

Voir aussi

Articles connexes

Liens externes

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Bibliographie

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Notes et références

↑ Brève d'ADIT-Japon sur la traduction automatique du japonais par un téléphone mobile (projet de NEC Corporation annoncé début 2009)
↑ Article intitulé "Google leaps language barrier with translator phone" ( Google prépare une application (pour téléphone) de traduction vocale instantanée) (Times online du 2010/02/07, consulté 2010/02/11)

[1] Brève d'ADIT-Japon sur la traduction automatique du japonais par un téléphone mobile (projet de NEC Corporation annoncé début 2009)

[2] Article intitulé "Google leaps language barrier with translator phone" ( Google prépare une application (pour téléphone) de traduction vocale instantanée) (Times online du 2010/02/07, consulté 2010/02/11)

[1]

[2]