Systran Enterprise Server 7, un tournant pour la traduction automatique

Comme nous l’avions annoncé voilà quelque temps, Systran organise des sessions de présentation de Systran Enterprise Server 7. Cette nouvelle version constitue à n’en pas douter un tournant majeur pour le moteur de traduction automatique, grâce auquel l’entreprise de San Diego prend clairement l’avantage sur ses concurrents.

La raison ? Le moteur de traduction hybride associe l’analyse sémantique à l’analyse statistique et intègre un processus d’amélioration continue. Jusqu’à présent, Systran, comme @promt ou Reverso, reposait sur un système d’analyse sémantique. Le moteur analysait chaque phrase source et créait l’arbre syntaxique permettant de représenter ses composantes et les relations qui les unissent. Puis, chaque expression était traduite en faisant appel à un dictionnaire, et, une fois l’arbre entièrement traduit, le logiciel restituait la phrase cible. Dans ce mode de traduction automatisée, le plus courant, le dictionnaire constitue un élément central : plus il est complet, meilleur est le résultat. Pourtant, même avec des dictionnaires très fournis, il est presque impossible de produire une phrase cible totalement correcte.

Car l’usage consacre des expressions qui constituent des exceptions innombrables à l’analyse grammaticale traditionnelle, et le moteur d’analyse syntaxique ne sait pas les reconnaître. Lorsque, par exemple, on parle dans un manuel informatique de « la boîte de dialogue Propriétés de Mes documents », le lecteur identifie « Propriétés de Mes documents » comme un nom propre, complément du nom « boîte de dialogue », et ne tente pas d’analyser plus en détail. Le moteur, lui, va tenter d’attribuer une fonction à chacun des termes pris isolément : comment relier « Propriétés » et « Mes documents » à « boîte de dialogue » ? Pour que le dictionnaire permette d’identifier la solution correcte, il faut qu’il la contienne : il faudrait avoir mis à jour le dictionnaire sur la base du document avant de le traduire.

Lorsqu’on utilise un logiciel de traduction de ce type, il faut soit se résigner à obtenir un résultat imparfait soit, si l’on est traducteur soi-même, associer Mémoire de traduction, Traduction automatique, Traduction humaine, et mise à jour interactive du dictionnaire de traduction automatique. Cette combinaison d’outils et de savoir-faire se révèle très puissante : on obtient un texte cible d’une excellente qualité, en produisant 2 000 mots de l’heure, contre les habituels 2 500 mots par jour. L’auteur de ces lignes en a l’expérience, pour avoir utilisé cette méthode il y a plusieurs années pour assurer la traduction de deux ouvrages d’informatique de 1 500 pages chacun en quatre mois.

Le moteur de Systran Enterprise Server 7 continue bien sûr d’utiliser la méthode sémantique d’analyse des textes source. Mais il la complète avec la méthode d’analyse statistique, qui a été popularisée par Google Translate.

L’analyse statistique repose sur l’exploitation de corpus de traduction, qui permettent de déterminer quelle est la traduction la plus fréquemment utilisée pour une expression donnée. Autant un corpus généraliste est presque inexploitable, car il devrait comporter des milliards de phrases pour être utile (c’est un des aspects de la difficulté qu’éprouve Google Translate à fournir des résultats pertinents), autant un corpus spécialisé se révèle d’une efficacité redoutable. Vous traduisez des brevets ? Imaginez un moteur capable d’apprendre les règles à appliquer pour traduire des brevets en se basant sur toute votre production passée. Il y a de fortes chances qu’il produirait de bons résultats… si votre corpus d’origine est lui-même de bonne qualité (voir à ce sujet l’article SMT: undersantding the human factor, de Kirti Vashee, paru dans Multilingual en décembre 2008).

Lors de l’apprentissage du corpus, Systran Enterprise Server 7 crée des « modèles de traduction » qui complètent les « modèles de langue ». Ces modèles, propres au domaine de spécialisation couvert par le corpus, ont pour fonction de lever les ambiguïtés de traduction issues du moteur sémantique et d’améliorer la fluidité du texte cible. Ils sont d’autant plus efficaces qu’ils gèrent des sous-segments (chunks, expressions) et non des phrases entières. Or ce sont bien les sous-segments qui posent le plus de problèmes en analyse sémantique.

Une fois le document source traduit grâce à l’association de ces deux méthodes, il est mis à disposition dans un éditeur de texte. L’utilisateur peut alors le modifier, corriger la formulation, personnaliser les dictionnaires utilisés, préciser qu’il aurait fallu employer tel usage plutôt que tel autre, etc. Si l’utilisateur apporte des modifications aux dictionnaires, il peut ensuite demander une nouvelle traduction, qui prendra ses changements en compte. Mais il peut aussi tout simplement changer la phrase elle-même. Il corrige ainsi la Mémoire de traduction issue de l’alignement automatique entre les phrases du document source et leurs contreparties du document cible. Ces modifications une fois validées, la Mémoire peut être ajoutée au corpus, et sera analysée par le moteur d’analyse statistique. En fait, comme l’analyse de corpus est un processus assez long et consommateur de ressources, les Mémoires de traduction issues des traductions révisées n’y sont pas ajoutées automatiquement. C’est à l’utilisateur de décider, à un moment donné, d’enrichir son corpus existant de tous les travaux réalisés sur une période donnée, voire de créer un corpus entièrement nouveau.

La solution logicielle complète fonctionne sur un modèle client-serveur : les corpus sont stockés sur le serveur avec le moteur, qui est interrogé par des outils clients. Par exemple, le Gestionnaire de projets, qui traduit un ou plusieurs fichiers à la fois, contient une interface de post-édition bilingue, qui permet de réviser les ambiguïtés, d’afficher toutes les occurrences d’un terme dans le document, d’ajouter des mots ou des sens inconnus aux dictionnaires, de procéder à des extractions terminologiques, de créer des clichés de traduction qui mémorisent l’état courant de la traduction et autorisent des comparaisons ultérieures entre clichés, etc. Les autres outils permettent par exemple de traduire un texte sans quitter Microsoft Word, ou d’afficher une barre d’outils de traduction disponible pour toutes les applications.

Systran Translation Server 7 gère pour le moment plus de 20 domaines de spécialisation prédéfinis et 52 paires de langues bidirectionnelles, auxquelles vont bientôt s’ajouter 16 autres paires monodirectionnelles. Il devrait être disponible à la vente en septembre 2009, les prix étant bien entendu élevés, puisqu’il s’agit d’une solution destinée à permettre aux entreprises de traduire d’importants volumes de textes.

En associant ainsi analyse sémantique, analyse statistique, mémoires de traduction et traduction humaine, Systran se donne les moyens de faire rimer traduction automatique et qualité, et de peser sur le marché. La solution semble vraiment très prometteuse pour la traduction de nombreux documents longs traitant d’une thématique donnée : brevets, ouvrages spécialisés, réglementations,… le champ est vaste !

Ce contenu a été publié dans Traduction automatique par Guillaume. Mettez-le en favori avec son permalien.
guillaume.debrebisson@anyword.fr'

A propos Guillaume

Je dirige l'agence de traduction Anyword, que j'ai créée fin 2004. Avant cette date, j'avais créé, développé et, malheureusement, fermé une autre agence de traduction, appelée encouv. Je travaille donc dans le secteur de la traduction et de la localisation depuis 1993. Auparavant, j'étais journaliste, spécialisé dans le domaine informatique. Ce blog est en quelque sorte un moyen de renouer, modestement, avec l'écriture, et de me contraindre à une veille du secteur dans lequel j'évolue depuis maintenant plus de 15 ans.