Que vaut réellement Google Traduction ?

19 janvier 2021

Actualité sur la traduction | Combinaisons linguistiques | Traduction machine

i 3 Table des matières

Les avantages et les inconvénients de Google Traduction

Google Traduction (GT) est le logiciel de traduction numéro un dans le monde. Il permet de gérer 103 langues, 10 000 combinaisons, et traite environ 500 millions de requêtes de traduction chaque jour.

Les experts prédisent que le système neuronal de GT pourra bientôt prendre en charge des fichiers audio et vidéo, en plus du texte.

L’accélération du recours à la traduction automatique est donc au coin de la rue.

Plusieurs étapes ont déjà été franchies dans cette direction et divers algorithmes capables d’analyser des vidéos et des fichiers audios sont activement développés, à l’exemple du Système de Traduction Automatique Neuronal (GSTAN), développé en 2016 par Google.

Créé dans le but d’améliorer sensiblement la qualité de la traduction, celui-ci repose sur un réseau neuronal artificiel.

Grâce à cette technologie, les étudiants seront en mesure de trouver et d’acheter des services d’aide aux devoirs en ligne beaucoup plus simplement qu’avant.

Quatre ans se sont écoulés depuis le lancement de GSTAN : il est donc temps d’évaluer son efficacité. La qualité de la traduction a-t-elle vraiment évolué ? Que faudrait-il de plus pour la rendre encore meilleure ?

Comment fonctionne l’algorithme de Google Traduction ?

Le modèle neuronal de la traduction automatique repose sur des méthodes de traduction standards. Avant l’arrivée des réseaux neuronaux, la traduction était faite mot à mot.

Le système traduisait simplement des mots et des phrases séparés, en prenant en compte les règles de grammaire de base.

La qualité de la traduction laissait donc à désirer. Or les plus petits éléments pris en compte par les systèmes neuronaux ne sont pas des mots mais des fragments.

Grâce à cela, le système informatique de la machine ne se focalise pas sur la position des mots mais sur le contexte et le sens de la phrase.

Le logiciel traduit la phrase dans sa totalité en tenant compte de son contexte. Il ne stocke pas des centaines de possibilités de traduction dans sa mémoire, mais travaille sur la sémantique du texte et divise les phrases en segments de dictionnaire.

Pour le moment, GSTAN met à profit environ 32 000 fragments de ce type.

En utilisant des décodeurs spéciaux, il détermine l’importance de chaque segment du texte.

Il calcule ensuite le plus grand nombre de sens possibles et d’options de traduction, avant d’appliquer les règles de grammaire aux segments traduits.

Selon les développeurs, cette approche permet d’assurer une vitesse et une précision de traduction élevées sans consommer trop de puissance de calcul.

Caractéristiques sémantiques et grammaticales propres aux langues

Au vu des caractéristiques sémantiques et grammaticales propres aux langues, une bonne traduction nécessite un logiciel doté d’algorithmes complètement différents, implémentés comme modules et dictionnaires séparés dans divers programmes.

Un réseau neuronal peut fonctionner avec beaucoup de combinaisons de langues, y compris celles qui n’étaient pas comprises dans le processus d’apprentissage initial.

Imaginons un système entraîné à faire des traductions de l’anglais au japonais et de l’anglais au coréen.

Celui-ci pourra parfaitement traduire du japonais au coréen sans utiliser l’anglais comme langue intermédiaire. Au cours des dernières années, l’intelligence artificielle (IA) s’est tellement développée qu’elle peut désormais traduire depuis et vers des langues pour lesquelles elle n’était pas conçue à l’origine.

Cela est dû au fait que l’IA a commencé à utiliser sa propre langue artificielle, qui agit en tant que langue intermédiaire dans le procédé de traduction.

Cette langue de calcul universelle, appelée Interlingua, ne saurait être utilisée par les humains. La méthode de traduction appliquée par les développeurs de Google est quant à elle appelée traduction Zero-Shot.

Cette technologie est plus sophistiquée que la précédente et s’appuie sur une langue intermédiaire artificielle.

Ce type de recherche a le vent en poupe, et ces systèmes sont en passe de devenir la méthode numéro un de traduction automatique.

La fonction d’auto-apprentissage du système permet au réseau neuronal de traduire avec exactitude de l’argot, du jargon et des néologismes, qui n’existent pas dans les dictionnaires classiques.

Le réseau neuronal peut également exploiter les lettres avec lesquelles les mots sont construits. Cela s’avère très utile pour translittérer des noms propres.

Les combinaisons de langue

Le système GSTAN a considérablement amélioré la traduction des deux combinaisons de langue les plus utilisées : espagnol-anglais et français-anglais.

Par conséquent, le pourcentage d’exactitude des traductions a augmenté, passant à 85 %.

En 2017, Google a demandé aux utilisateurs réguliers de Google Traduction de répondre à une enquête d’opinion déployée à grande échelle. Il leur était demandé d’évaluer trois options de traduction : statistique, neuronale et humaine.

Les résultats sont impressionnants : la traduction basée sur des réseaux neuronaux se révèle en effet quasiment parfaite pour plusieurs combinaisons de langues.

Le tableau de résultats suivant met en avant un système d’évaluation en 6 points afin de noter la qualité de la traduction. Le score maximum est de 6, le minimum de 0.

	Modèle statistique	Réseau neuronal	Traduction faite par un humain
Combinaison espagnol-anglais	4,885	5,428	5,550
Combinaison anglais-français	4,932	5,295	5,496
Combinaison anglais-chinois	4,035	4,594	4,987
Combinaison espagnol-anglais	4,872	5,187	5,372
Combinaison français-anglais	5,046	5,343	5,404
Combinaison chinois-anglais	3,694	4,263	4,636

Comme vous pouvez l’observer, la qualité de la traduction dans les combinaisons anglais-espagnol et français-anglais ne se situe pas bien loin de celle d’une traduction humaine.

Cela n’est pas surprenant dans la mesure où ces combinaisons ont été utilisées pour l’apprentissage en profondeur (deep learning) des algorithmes de GT.

Pour les autres combinaisons de langues, les résultats ne sont pas aussi bons, mais des recherches à grande échelle sont en cours.

Cependant, si la traduction neuronale fonctionne bien pour les langues aux structures similaires, elle est visiblement moins bonne lorsqu’elles sont radicalement différentes, par exemple entre le japonais et le finnois.

Quels sont les désavantages de Google Traduction ?

S’il est difficile de nier l’utilité pratique de GT et des technologies qui lui sont apparentées, il manque toujours quelque chose à la machine.

Or cela se résume en un mot : la compréhension. La traduction automatique ne se concentre jamais sur cet aspect.

Les développeurs de logiciel essayent depuis toujours d’améliorer les méthodes de décryptage ou, en d’autres termes, de traiter les demandes de traduction en utilisant le pouvoir analytique de la machine.

Il est important de noter que l’objectif principal des développeurs de GSTAN n’était pas d’obtenir des traductions exactes à 100 %.

En prenant en considération le niveau actuel de développement technologique, tout logiciel de traduction automatique devra travailler avec des constructions linguistiques complexes dans un futur proche, réduisant fortement la vitesse de traduction.

C’est pourquoi les développeurs de GSTAN ont essayé de trouver un équilibre entre exactitude et vitesse de traduction.

Utilisons Google Traduction pour traduire la phrase suivante en français : In their house, every family member has personal things. There is his big car and her small car, his slippers and her slippers, and his books and hers.

Voici le résultat de Google Traduction : Dans leur maison, chaque membre de la famille a des objets personnels. Il y a sa grosse voiture et sa petite voiture, ses pantoufles et ses pantoufles, ses livres et les siens.

Si on utilise le traducteur français-anglais dans l’autre sens, on obtient cette phrase : In their home, each member of the family has personal belongings. There is his big car and his little car, his slippers and his slippers, his books and his own.

Le problème, c’est qu’en français et dans les autres langues latines, les noms ont des genres, et les pronoms comme « son » et « sa » font référence au genre des objets et non pas de leurs propriétaires. GT n’a pas compris le sens des phrases et a traduit en conséquence.

Il est clair pour tout le monde que la phrase parle d’une famille et des objets personnels de chaque membre.

Or GT a utilisé le pronom possessif « sa » pour les deux voitures et « ses » pour les deux paires de pantoufles. De ce fait, il est impossible de préciser quoi que ce soit sur la taille de la voiture de chacun des membres de la famille.

Conclusion : la traduction faite par GT n’a pas réussi à retranscrire le sens original. Le logiciel a tout simplement ignoré l’information la plus déterminante de la phrase.

Les êtres humains comprennent ce genre de subtilités, contrairement à Google Traduction, qui traite uniquement des lignes composées de mots et de lettres.

La machine traite des parties du texte rapidement sans comprendre leur sens. Il est donc possible qu’un système de traduction reposant sur une technologie d’IA avancée donne un résultat inexact voire faux.

L’effet Eliza

Pour chaque machine, dispositif de calcul ou logiciel, l’important, ce sont les mots. Néanmoins, les machines sont incapables de comprendre le sens de ces mots en profondeur.

Les années 60 ont vu l’apparition d’un dispositif mécanique appelé Eliza. Il répondait à des questions en manipulant une panoplie de réponses, et grâce à cela, créait des phrases d’apparence intelligente.

Depuis sa conception, le fait que les machines puissent penser ou non comme des humains est appelé l’effet Eliza.

Les développeurs de logiciel et les chercheurs en IA sont sous l’influence de l’effet Eliza depuis des années.

La plupart des utilisateurs de l’app Google Traduction partent du principe que ce logiciel est capable, au moins quelques fois, de comprendre le sens des mots.

Pourtant, cela n’est pas exact : GT contourne simplement le problème de la compréhension de la langue.

Évidemment, il arrive à Google Traduction de proposer des phrases qui sonnent vraiment bien.

Il arrive même qu’un paragraphe soit parfaitement traduit, créant l’illusion que GT comprend le sens du texte.

Il faut toutefois se souvenir que GT ne pense pas comme un humain, et peut seulement traiter des textes d’une certaine manière.

Un programme informatique n’a pas de mémoire comme les humains l’entendent, pas d’imagination, et ne comprend pas le sens implicite des mots, bien qu’il puisse les traiter rapidement.

Néanmoins, tout porte à croire que les dispositifs informatiques seront capables de penser comme des humains à l’avenir.

Ils pourront peut-être même effectuer d’excellentes traductions entre plusieurs langues, traduire des blagues, des jeux de mots, des romans, des poèmes et des essais.

Après tout, la technologie moderne évolue à vitesse grand V.