Actualité : la traduction automatique pour traduire… vite ! et bien ?

La traduction automatique séduit de plus en plus de sites Web d’actualité. Ces solutions semblent répondre à un problème difficile à résoudre avec les moyens traditionnels : comment diffuser en plusieurs langues un contenu rédigé dans une seule quand on publie des actualités plusieurs fois par jour ?

Un problème qui se pose pour les blogs les plus connus, mais qui apparaît encore plus crucial pour les journaux en ligne. C’est ainsi que le site du Ministère de la Culture (malgré l’indignation, justifiée, de la profession) et celui de La Tribune, dont les contenus ont peu de points communs, sont tous deux traduits dynamiquement par des logiciels, sans relecture humaine. Dans les deux cas, le contenu de la page Web active est envoyé au moteur de traduction lorsque l’internaute indique qu’il veut prendre connaissance de la version étrangère en cliquant sur un bouton. Quelques instants plus tard, la page traduite est affichée par le navigateur en lieu et place de la page d’origine.

Le résultat ? Catastrophique, pour le moment. Et pourtant, il y a de fortes chances qu’il s’améliore assez vite, au moins dans le cas de La Tribune. En effet, le quotidien économique a fait appel à Systran* pour assurer la traduction automatisée de son actualité. Systran, on le sait, exploite désormais un moteur de traduction hybride, qui complète l’analyse syntaxique traditionnelle du texte source par une analyse statistique, qui se fonde sur un corpus de textes similaires, et dont le fruit permet au logiciel de choisir la solution la plus fréquente entre deux propositions du moteur syntaxique. Le système de traduction de La Tribune fonctionne en ce moment à titre de test. On imagine sans peine qu’il s’agit en fait de constituer le corpus qui, une fois relu (espérons-le), alimentera le moteur après la période de test. Si c’est bien de cette façon que sont menées les opérations, il y a de grandes chances pour que la qualité de la traduction s’améliore subitement. D’autant que le champ lexical reste relativement restreint : tous les textes traitent de finances et d’entreprise.

Le Ministère de la Culture n’aura sans doute pas cette chance. En effet, le moteur de Reverso (qui a été développé à l’origine par promt) n’a pas connu de modification majeure ces dernières années. Quoique donnant d’excellents résultats, il fonctionne toujours sur la base d’une analyse syntaxique seule : la seule amélioration possible consiste à personnaliser les dictionnaires employés par le logiciel. Mais, pour cela, il faut savoir de quoi traiteront les textes à traduire. Il est probable que le degré de personnalisation apporté aux dictionnaires utilisés par le logiciel qui traduit le site du Ministère de la Culture est assez faible, puisque les textes ne sont pas connus à l’avance, et que les traductions ne sont pas modifiées par la suite. Comme, par ailleurs, le logiciel peut pas prendre en compte l’analyse statistique d’un corpus de documents, et qu’il traite des textes dont le spectre sémantique est très large, il a peu de chances d’améliorer ses performances dans ce cas précis**.

De toutes les façons, la traduction « à la volée » d’une page Web ne peut pas donner de résultats vraiment satisfaisants, quelles que soient les qualités des logiciels qui s’en chargent. Il faudrait confier la révision des textes traduits à des traducteurs professionnels, et intégrer les mémoires de traduction ainsi constituées au corpus de textes qui servent de base à l’analyse statistique réalisée par le logiciel. Et confier aux mêmes traducteurs le soin de mettre à jour, en cours de révision, les dictionnaires personnalisés employés par le logiciel. On obtiendrait alors un cercle vertueux, où pourraient se concilier rapidité et qualité. Le logiciel de Systran en a les capacités. Et c’est ce que souhaite réaliser Google avec son Google Translator’s Toolkit. Mais là où Google tente d’exploiter gratuitement le travail de traducteurs indépendants professionnels, il est possible de construire une véritable offre de service, payante, qui réponde aux besoins des donneurs d’ordre pour lesquels la rapidité est cruciale, sans pour autant sacrifier la qualité.

Ou bien les éditeurs de presse préfèrent-ils prendre le risque de diffuser des informations… fausses*** ?

———-
*Bien entendu, les produits de traduction automatique en question dans ce billet n’ont rien à voir avec ceux disponibles sur les sites Web de leurs éditeurs. Il s’agit des versions professionnelles, dont les résultats sont bien supérieurs.

** Sans compter que le site est desservi par une navigabilité particulièrement désastreuse depuis quelque temps. La traduction ne fonctionne pas sur toutes les pages, par exemple. Ou bien le nouveau Ministre aurait-il décidé de supprimer la traduction automatique de ces pages ? Affaire à suivre…

***Sur la question de la traduction automatique, ne pas manquer cet article du Monde.

Ce contenu a été publié dans Actualité de la traduction par Guillaume. Mettez-le en favori avec son permalien.
guillaume.debrebisson@anyword.fr'

A propos Guillaume

Je dirige l'agence de traduction Anyword, que j'ai créée fin 2004. Avant cette date, j'avais créé, développé et, malheureusement, fermé une autre agence de traduction, appelée encouv. Je travaille donc dans le secteur de la traduction et de la localisation depuis 1993. Auparavant, j'étais journaliste, spécialisé dans le domaine informatique. Ce blog est en quelque sorte un moyen de renouer, modestement, avec l'écriture, et de me contraindre à une veille du secteur dans lequel j'évolue depuis maintenant plus de 15 ans.

5 réflexions au sujet de « Actualité : la traduction automatique pour traduire… vite ! et bien ? »

  1. Ping : Actualité : la traduction automatique pour traduire… vite ! et bien ?

  2. Le moteur de Reverso français-anglais a été co-développé par Softissimo et Promt. Les dictionnaires de Reverso contiennent depuis plusieurs années des structures beaucoup plus riches que celles de Systran (même aujourd’hui) ce qui permet un codage plus fin.

    Softissimo fait évoluer régulièrement les outils et a également introduit des méthodes statistiques et hybrides pour l’enrichissement terminologique.

    A votre disposition pour plus de détails… Testez par vous-même sur http://www.reverso.net ou sur Nouvelobs.com ou sur culture.gouv.fr

  3. Bonjour Théo,

    j’ai utilisé en conditions réelles d’exploitation Reverso Pro 5 et il donnait d’excellents résultats, à condition de personnaliser le dictionnaire en fonction du document à traduire, ce qui me semble normal (j’ai brièvement relaté cette expérience dans un billet précédent).

    Mon billet comporte deux messages :
    1. les moteurs hybrides sont forcément meilleurs que les moteurs purement syntaxiques (et, d’ailleurs, les moteurs purement statistiques),
    2. la traduction « tout auto » ne donne pas un résultat suffisamment bon pour se passer d’une révision humaine lorsqu’il s’agit de publier de l’information ; mieux vaudrait un packager un service traduction auto + traduction humaine.

    Cela étant, j’ignorais que le moteur de Reverso était en partie hybride. Je serais ravi d’assister à une démonstration sur la question, et de vous rencontrer à nouveau à cette occasion.

    Quant au site culture.gouv.fr, franchement, j’y ai passé un long moment avant de rédiger mon billet, et la navigabilité liée à la fonction de traduction est catastrophique, alors que ce n’était pas le cas il y a quelques mois (en mai-juin).

    Bien à vous,
    Guillaume de Brébisson
    guillaume.debrebisson@anyword.fr
    Anyword

  4. Guillaume, merci pour ce retour.
    Le « moteur » de traduction de Reverso (fr-an) n’est pas hybride, mais on utilise des outils statistiques avancés pour enrichir les dictionnaires plus rapidement et plus efficacement. Donc le système global de traduction personnalisé est hybride. On pourra vous montrer cela avec plaisir. Le « tout auto » ne permet pas d’avoir une qualité « publication », nous sommes d’accord, mais sur des textes normalisés, il permet d’avoir une qualité suffisante, pour être acceptable sur le web (souvent les entrées directes des utilisateurs du web 2.0 sont largement moins lisibles).
    Enfin sur le site Culture, on va vérifier, mais c’est aussi la structure du site qui a évolué. Si vous avez des éléments concrets de problèmes de navigation, merci de nous les donner. Nous avons rajouté une fonction intéressante : voir le texte d’origine dans une bulle d’aide à côté de chaque paragraphe traduit.

  5. Si je comprends bien, le moteur de Systran a besoin de corpus bilingues « humains » : comment Systran va-t-il les obtenir pour le site LaTribune ?

    Quand vous dîtes « Le système de traduction de La Tribune fonctionne en ce moment à titre de test. On imagine sans peine qu’il s’agit en fait de constituer le corpus qui, une fois relu (espérons-le), alimentera le moteur après la période de test. Si c’est bien de cette façon que sont menées les opérations, il y a de grandes chances pour que la qualité de la traduction s’améliore subitement. », vous supposez que Systran ou LaTribune vont donner à relire le corpus bilingue traduit par un outil automatique à des traducteurs humains ? Mais cela représente à mon avis un coût de traduction/relecture énorme ! LaTribune sera-t-elle prête à le supporter ?

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *