Google Translator, Bing ou Systran : les traducteurs automatiques sont très inférieurs aux humains

J’ai été récemment interrogé par le journal L’informaticien au sujet des différentes solutions de traduction qui s’offrent aux entreprises et, en particulier, des questions de traduction automatique (voir l’article). Au cours de nos entretiens, Emilien Ercolani, le journaliste, m’a demandé de faire évaluer la traduction d’une phrase tirée d’un de ses précédents articles, et qu’il avait soumise à plusieurs moteurs de traduction automatique (Google, Bing, Power Translator, Systran et Babylon). Dans un premier temps, nous avons demandé à une traductrice (Andrea) de traduire la phrase source sans mentionner quoi que ce soit d’autre : nous ne lui avons donc pas fourni les traductions automatiques. C’est la cible 1. Ensuite nous avons demandé à trois autres traducteurs (Angie, Mark et Marie) de commenter les traductions automatiques. Nous ne leur avons pas dit qu’il s’agissait de traductions automatiques, mais que nous voulions choisir entre plusieurs formulations. Mark a reconnu de la traduction automatique, les autres n’ont pas commenté (ils ont pu reconnaître de la traduction automatique sans nous en parler). Enfin, nous avons demandé à Mark, qui avait corrigé auparavant les traductions automatiques, de faire une proposition de traduction : c’est la cible 2 (voir les résultats complets de notre test).

Les résultats sont éloquents : il suffit de comparer l’une des deux phrases cibles rédigées par des traducteurs humains à n’importe laquelle des phrases cibles construites par un moteur. Mais, pour poursuivre l’analyse, je me suis amusé à compter les erreurs relevées par les traducteurs humains dans les formulations automatiques. Pour chaque erreur, je comptais deux points, et un point pour les remarques stylistiques (du type « l’utilisation de indeed est un peu démodée » : ce n’est pas une erreur à proprement parler, mais une remarque stylistique). Puis, j’ai divisé le nombre de mots de la phrase source par le nombre de points obtenus, ce qui m’a donné un pourcentage : par exemple, la formulation de Google comporte 5 erreurs et 1 faute de style, ce qui me donne un total de 11 points. Ce total, divisé par 45 (le nombre de mots de la phrase source), donne un pourcentage d’erreurs de 24%. Si je retire 24% de 100%, j’obtiens un score qualité de 76%.

Moteur

Erreurs

Fautes de style

Points

Score Qualité

Google

5

1

11

76%

Bing

5

1

11

76%

Systran

6

0

12

74%

Reverso

7

0

14

69%

Power Translator

8

0

16

65%

Babylon

8

1

17

63%

Ce score de 76%, que Google partage avec Bing, est très mauvais ! Pour donner une idée de ce que représente un tel pourcentage, cela revient à dire que dans un texte de 5 lignes (50 mots), un lecteur serait arrêté par une erreur 5 fois par ligne (25 erreurs) ! Personne n’accepterait ça dans un journal. A titre de comparaison, les scores qualités considérés comme acceptables dans le monde de la traduction professionnelle sont compris entre 95% et 100%. Microsoft, par exemple, refuse tout contrôle qualité dont le score est inférieur à 99%. Comme on peut le voir ici, sur une seule phrase, on est loin du compte avec la traduction automatique !

Il est d’ailleurs très probable que les résultats seraient différents si la phrase source avait été modifiée avant d’être soumise aux moteurs. C’est que soulignait déjà l’expérience dont je rendais compte dans Le site de traduction de Microsoft comparé à Google et PROMT.

Dans tous les cas, et même si elle est limitée à une seule phrase, cette petite expérience-ci confirme un point très important : la traduction automatique ne permet pas de délivrer des textes directement publiables. Et, les indéniables améliorations des moteurs renforcent encore le besoin de bien connaître la langue cible pour évaluer correctement le travail réalisé : peu de Français savent avec certitude quand on peut se passer de l’article « the » dans une phrase, pour reprendre une des erreurs qui revient souvent dans l’expérience. En fait, il s’agit d’un excellent outil de traduction… pour traducteurs ! Car il va beaucoup plus vite de relire (on dit « post-éditer » dans le jargon de la TA) que de traduire, et un traducteur professionnel peut multiplier par cinq à dix sa productivité quotidienne en utilisant des moteurs de traduction. Mais c’est une illusion de croire que l’on peut diffuser des textes traduits par un moteur sans post-édition.

Ces travaux de post-édition sont d’ailleurs proposés par plusieurs agences de traduction. Outre celles qui travaillent pour de très grandes entreprises du secteur informatique (ce n’est un secret pour personne que Microsoft ou Symantec exploitent énormément la traduction automatique pour localiser leurs produits), elles seraient de plus en plus nombreuses à proposer ce services aux clients moins naturellement portés sur la haute technologie. D’après un rapport de Common Sense Advisory, (The Market for MT Post-Editing, 22 novembre 2010, Donald DePalma et Vijayalaxmi Hegde), les agences qui proposent un service de post-édition sont encore peu nombreuses, et ce service ne représente pas une grosse part de leur chiffre d’affaires (moins de 10% du CA pour 73% des agences interrogées), mais c’est celui qui croît le plus vite pour une vingtaine d’agences.

Professionnels de la traduction : conférences d’automne aux Etats-Unis

L’association TAUS organise une conférence dédiée à l’usage des outils de traduction automatique dans le monde de la traduction professionnelle à l’hôtel Governor de Portland, dans l’Oregon, du 3 au 6 octobre 2010. Les nombreuses communications prévues présenteront diverses plates-formes de traduction, dont celles de Lionbridge (GeoWorkz), de Lingotek ou de WeLocalize, qui s’appuie sur GlobalSight, une solution Open Source. Une présentation fera le point sur l’état actuel de la recherche en matière de traduction automatique. Puis, la question de la relation entre les divers aspects de la traduction professionnelle et la traduction automatique sera abordée de façon approfondie au cours de nombreuses interventions menées par des représentants de Microsoft, Systran, Asia Online, ProMT, Intel, Applied Language Solutions, SDL ou encore Lexcelera. De nombreux témoignages présenteront des études de cas, et une série d’ateliers sont prévus avant de début de la conférence elle-même.

Pour finir en beauté, TAUS propose à ceux qui s’enregistrent de réserver leur place dans le bus qui les amènera à la conférence Localization World qui se tient à Seattle, dans l’état de Washington, du 6 au 8 octobre. Les communications seront là encore particulièrement nombreuses, puisque 5 parcours différents sont prévus, ce qui permet aux organisateurs de planifier près d’une quarantaine d’interventions en deux jours ! On y parlera de localisation de jeux vidéos, de la stratégie de globalisation du Web dans les années à venir, de Twitter, de qualité, de Google Translate… Impossible de s’y rendre sans consulter le programme détaillé avant de s’inscrire.

Les entreprises attendent la traduction automatique de qualité humaine

La traduction automatique n’en finit pas de faire la Une de l’actualité. C’est d’abord SDL qui publie pour la deuxième année consécutive son étude sur les tendances en matière de traduction au sein des grandes entreprises.

Les grandes entreprises adoptent la traduction automatique
Résumant 228 entretiens avec des représentants de Wolter Kluwer, Hewlett-Packard, Kellog’s, Garmin ou Nokia, principalement aux Etats-Unis et en Europe, l’étude mesure l’intérêt pour la traduction automatique au sein des grands groupes. On y découvre par exemple que 17% des entreprises interrogées utilisent déjà la traduction automatique tandis que 11% prévoient de le faire à brève échéance, tandis que 30% n’y font pas appel pour des raisons de qualité insuffisante. Les principaux utilisateurs se recrutent dans le secteur informatique, alors que les entreprises des médias sont les plus méfiantes en matière de qualité.

La question de la qualité est très intéressante, car lorsqu’on interroge les sondés sur leurs attentes en la matière, 60% d’entre eux répondent qu’ils souhaitent une qualité identique à celle délivrée par des humains. Et quand on leur demande s’ils ont envisagé post-éditer des traductions générées automatiquement, ils sont 35% à y avoir réfléchi pour finalement abandonner l’idée, alors que 30% exploitent ou mettent en place une solution de post-édition. Les langues majoritairement concernées par la traduction automatique sont les quatre langues majeures d’Europe (français, italien, allemand et espagnol). Il semble que les grandes entreprises envisagent de plus en plus sérieusement de mettre en place des solutions de traduction automatique post-éditée, en ayant pour moteur le gain de temps et d’argent, au moins dans les grandes langues.

Systran analyse le corpus de l’entreprise
Au même moment, Systran complète sa solution de traduction automatique avec Systran Traning Server, qui comporte Training Manager et Corpus Manager. Ces deux logiciels encadrent Systran Enterprise Server, et lui permettent de s’entraîner sur des corpus thématiques de textes (typiquement, des mémoires de traduciton). Le moteur de Systran est en mesure d’analyser les acquis linguistiques qu’il parcourt et d’en déduire les règles qui ont présidé à la construction des phrases cibles par comparaison entre les traductions automatiques et les traductions appartenant au corpus. Il crée alors un modèle ad-hoc qu’il appliquera lors de la traduction des prochains textes (pour plus détails, voir ici). Dans le même temps, son extracteur terminologique analyse les phrases pour en sortir les termes récurrents et construire automatiquement un dictionnaire (éditable à souhait).

Évidemment, la qualité de sortie du moteur de traduction est bien meilleure, puisque le système associe l’analyse syntaxique traditionnelle, personnalisée par les dictionnaires de l’entreprise cliente, avec l’analyse statistique, personnalisée par les modèles construits sur la base des corpus de l’entreprise. En fin de processus, le texte se présente sous la forme d’un tableau entièrement modifiable, et le produit de l’opération de post-édition est enregistré dans une mémoire de traduction qui peut être ajoutée au corpus à l’aide de Corpus Manager. On entre alors, théoriquement, dans une boucle d’amélioration continue. Et c’est sans doute la raison pour laquelles plusieurs agences de traduction ont déjà fait l’acquisition de la solution complète. Deux obstacles, toutefois, à une généralisation d’une solution aussi aboutie : le prix (qui se compte en dizaines de milliers d’euros), et la puissance nécessaire aux PC chargés d’exécuter les moteurs d’analyse (16 Go de mémoire vive conseillés…). Il ne serait d’ailleurs pas surprenant de voir apparaître d’ici quelques mois une version online de type SaaS, accessible par abonnement à un prix forfaitaire, ou… calculé au mot.

Des agences de traduction… automatique ?
Les agences de traduction constituent désormais une cible de choix pour la distribution des solutions automatisées de traduction. On ne s’étonnera donc pas que Promt, le grand rival de Systran, lance PROMT Language Service Provider 9.0, destiné aux agences. Intégrable aux outils à mémoire de traduction, PROMT LSP 9.0 partage en réseau les dictionnaires personnalisés et les mémoires de traduction, prend en charge les formats de fichiers standards de la profession (XLIFF, TBX, TMX…), comporte un système de contrôle qualité statistique de type QA, et dispose d’API qui permettent de faire appel à ses fonctionnalités à partir d’autres programmes développés sur mesure. Une telle solution permet d’envisager de systématiser une approche de la traduction qui associe les mémoires, la traduction automatisée, et la traduction humaine.

Les agences qui traduisent en interne ont de quoi s’intéresser à une telle approche, car elle permet d’associer qualité élevée et prix bas. Il y a même de quoi envisager de ré-internaliser la traduction pour certaines langues. Pourquoi ? Parce qu’on passe d’une productivité de 2000 mots relus par jour à une capacité de 1000 mots relus par heure ! Pour une qualité comparable, puisque c’est bien le traducteur humain, formé et expérimenté, qui contrôle et finalise le travail. Evidemment, la compétence mise en oeuvre par le traducteur n’est pas la même lorsqu’il traduit lui-même ou lorsqu’il prépare le texte source, personnalise le dictionnaire, contrôle la traduction automatique et l’édite. Dans le second cas, il concentre son apport sur la pertinence de sa compréhension du sens d’origine, le mécanisme linguistique et la valeur ajoutée de la formulation finale. C’est le coeur de métier du traducteur, ce que la machine ne peut pas modéliser.

Toujours plus de textes à traduire… pour les humains !
C’est bien pour cela que le blog Global Watchtower prédit que la généralisation des outils de traduction automatique, au premier rang desquels Google Translate, va accroître, et non réduire, la demande en matière de traducteurs humains. Et de rappeler quelques vérités essentielles de notre métier, à commencer par le fait qu’une entreprise prend un risque en responsabilité lorsqu’elle émet un document vers l’extérieur, et que ce risque est accru lorsque la diffusion est dirigée vers un pays/une langue étrangère au donneur d’ordre. Par conséquent, il ne saurait y avoir de compromis en matière de qualité, c’est-à-dire en matière d’exactitude du message délivré.

Si Google Translate fournit un résultat satisfaisant dans certains cas (comme dans cet extrait du Petit Prince*), il est catastrophique dans d’autres (comme dans cet exemple de texte français, traduit d’après l’anglais). Il est d’autant moins fiable qu’il n’est pas personnalisable par l’utilisateur. C’est d’ailleurs la raison pour laquelle les équipes de Google ne se contentent pas d’aligner une gigantesque masse de données générique, comme ils l’expliquent ici, , ou encore . Et bien sûr, il y a aussi Google Translator’s Toolkit, dont les textes alignés par des humains viennent améliorer gratuitement le moteur.

Lutter contre la pénurie de traducteurs
En fait, une double tendance se dessine : d’une part, un accroissement très important des volumes de textes à traduire, tiré par l’automatisation (voir l’étude de Language Weaver) et, dans le même temps, une exigence accrue en matière de qualité de traduction. Exigence nourrie par la méfiance des clients à l’égard des traducteurs humains qu’ils suspectent, parfois à raison, de refourguer, en la faisant payer, la production de Google. Car il est vrai que les « mauvaises pratiques » sont une des plaies de notre profession, et l’amateurisme** (ou la malhonnêteté) de quelques uns ruine l’image des vrais professionnels. N’est-ce pas, au fond, la raison pour laquelle les grandes institutions (Europe, ONU, Gouvernement Canadien) déplorent une pénurie de traducteurs et collaborent à des programmes de formation (voir aussi cet article), voire les financent ?

Sans doute n’est-on plus très loin d’une segmentation du marché de la traduction (en tous les cas pour les langues majeures) où la traduction automatique à la Google contraindra peu à peu les amateurs à se retirer du marché ou à s’améliorer, tandis que les traducteurs professionnels exigeants conserveront la confiance de leurs donneurs d’ordre (et même, augmenteront leurs tarifs) pour des textes de taille moyenne, et que d’autres traducteurs, professionnels de la mécanique linguistique, personnaliseront en amont comme en aval des systèmes de traduction automatique de type Systran pour concilier volume, rapidité et qualité. Si cette répartition des tâches se réalisait, j’y verrais au moins deux avantages : l’élimination des textes traduits à la va comme je te pousse, qu’ils soient issus de traducteurs humains ou pas, et, par voie de conséquence, l’amélioration des revenus des professionnels, qui se feront -enfin !- payer à l’heure à des tarifs comparables à ceux des consultants.

——–
*On ne saurait tirer une conclusion générale sur la qualité de traduction de Google en s’appuyant sur Le Petit Prince, et cela pour trois raisons majeures. Un, il s’agit d’un texte fluide, simple, extrêmement bien rédigé, donc facile à analyser pour un moteur. Deux, ce texte fait partie des mmonuments de la littérature mondiale et, à ce titre, il a toutes les chances d’avoir été intégré au corpus d’entraînement de Google, c’est-à-dire de faire partie des références que le moteur interroge avant de renvoyer une réponse. Trois, il n’est absolument pas représentatif de ce qui est envoyé en traduction par les entreprises clientes.
**Il faudra un jour enquêter sur les mauvais côtés du statut d’auto-entrepreneur.

Traduction automatique : toujours plus !

Les annonces pleuvent en matière de traduction automatique.

Tantôt, c’est SDL Trados qui intègre plus de moteurs à la nouvelle version de son logiciel à mémoire de traduction ; tantôt c’est Google qui lance une version de son navigateur Chrome capable de traduire une page Web sans passer par une extension ; quand ce n’est pas Microsoft qui présente son futur téléphone-traducteur(1), ou Google (encore !) qui traduit le texte d’une photo(2)…

Et puis, dans cette jungle d’applications toujours plus business-centric, orientées vers la productivité totale (à défaut de qualité totale), on a de temps en temps un moment de respiration.

Quand quelqu’un se souvient, par exemple, que traduire c’est communiquer, et décide de lancer un application gratuite destinée à faire se parler Arabes et Occidentaux.

C’est ce que propose Meedan, un site qui traduit automatiquement les textes qui lui sont soumis avant de les faire relire par des êtres humains puis de les publier (dans cet ordre). Le site fonctionne à la façon d’un Wiki et se consacre à améliorer la compréhension des uns par les autres, et vice-versa(3). Bref, fait oeuvre utile. Pour de bon. Si vous voulez en savoir plus à ce sujet, lisez l’article que lui consacre Francis Pisani sur son blog, et, pourquoi pas inscrivez-vous comme traducteur volontaire !

(1)

(2)

(3)

Le Monde s’intéresse à la traduction automatique

Le Monde publie aujourd’hui un article intéressant sur la question de la traduction automatique, où sont confrontés les points de vue de Google (qui annonce depuis peu de grandes ambitions dans ce domaine), de Systran, par la voix de son Directeur Marketing, Pierre Bernassau, et de Marie Candito, chercheuse spécialisée dans la question, enseignante à l’Université Paris Diderot (Paris 7).

Le sujet de l’analyse statistique et de l’analyse syntaxique, et de leurs limites (étendue du corpus pour l’une, structure linguistique du couple de langue pour l’autre) sont particulièrement bien mises en lumière.

Traduction automatique : Systran se présente en ligne

Le cycle des matinées découvertes de Systran Enterprise Server 7.0 a repris depuis le 27 janvier. Une nouveauté de taille : il est possible de s’inscrire à des présentations sur site (à La Défense) comme sur le Web (Webinaires). Les inscriptions se prennent directement auprès de Pierre Bernassau, le directeur Marketing (bernassau @ systransoft.com).

Google exploite la traduction automatique à bon escient

Nous l’avions déjà mentionné il y a plusieurs mois, Google innove sans cesse  en matière de recherche « globale », et mixe ses technologies les unes aux autres afin d’en décupler leur puissance.

Depuis deux jours, il est ainsi possible, et très facile, d’afficher des résultats de recherche en provenance de plusieurs langues.

  1. Après avoir tapé sa requête initiale, on clique sur le lien intitulé « Afficher les options » qui se trouve désormais juste en dessous de la zone de recherche.
  2. Une zone verticale s’ouvre alors sur la gauche de l’écran, qui propose de nombreuses options de recherche, toutes intéressantes à explorer.
  3. La toute dernière, « interlangues », ouvre un cadre au-dessus du premier résultat de recherche. Les résultats eux-mêmes sont mis à jour en fonction des options de langue sélectionnées dans ce cadre.
  4. Concrètement, on choisit une ou plusieurs langues dans lesquelles Google effectue la recherche équivalente à ce qui a été tapé initialement après traduction automatique de l’expression de recherche.
  5. Les résultats en provenance de ces langues sont traduits dans la langue de départ, classés en fonction des habituels critères Google de référencement naturel et affichés. Chaque résultat signale clairement la langue d’origine.
  6. Lorsque l’on clique sur l’un des résultats, la page qui s’affiche a déjà été automatiquement traduite dans la langue de la requête initiale. Ce qui permet d’ailleurs de contrôler que les sites commerciaux internationaux ne font pas appel aux outils de traduction automatique pour générer leurs versions locales.

Honnêtement, il faut avouer que tout ceci est assez impressionnant. Et, malgré tout ce qu’on est habituellement enclin à penser de la traduction automatique, il faut reconnaître qu’elle est, dans ce cadre, utilisée à bon escient.

Traduction de sous-titres : Google automatise à tout va

Google est en train d’ajouter une fonction automatisée de sous-titrage aux vidéos publiées sur Youtube. La fonction sous-titrage existe déjà, mais l’utilisateur qui souhaite sous-titrer sa vidéo doit en taper le texte lui-même. Il sera bientôt possible (ça l’est déjà pour certaines vidéos des chaînes éducatives) d’obtenir un sous-titrage automatique, grâce à la technologie Google Voice, qui transcrit un enregistrement audio.

Quel rapport avec la traduction ? Eh bien, il est d’ores et déjà prévu, d’après cet article intéressant de Numérama, de rendre possible la traduction automatique des sous-titres avec Google Translate. Autrement dit, bientôt, pour sous-titrer une vidéo et la traduire, il suffira de la poster sur un compte Youtube privé, et de faire appel à ces fonctions automatisées.

D’ailleurs, Google a même prévu une vidéo de démonstration : regardez.

Ouverture du douzième Machine Translation Summit

Le douzième Machine Translation Summit se tiendra cette année du 26 au 30 août au château Laurier, à Ottawa (Canada).

Réunissant scientifiques, éditeurs de logiciels de traduction automatique et utilisateurs de ces produits, cette conférence fait le point sur l’état de l’art. Tous les principaux acteurs sont présents : Promt, Systran, SDL, Terminotix, Language Weaver, Multicorpora, Common Sense Advisory, etc.

Une journée entière sera consacrée à des formations à l’utilisation de logiciels de traduction automatique, et une autre à l’évaluation des différents produits. En toure, de nopmbreux ateliers s’intéresseront à des sujets comme la post-édition de traductions automatiques, ou la collaboration entre mémoires de traduction, Traduction automatique et traducteurs. La liste des articles de recherche présentés est en elle-même très intéressante.

Systran Enterprise Server 7, un tournant pour la traduction automatique

Comme nous l’avions annoncé voilà quelque temps, Systran organise des sessions de présentation de Systran Enterprise Server 7. Cette nouvelle version constitue à n’en pas douter un tournant majeur pour le moteur de traduction automatique, grâce auquel l’entreprise de San Diego prend clairement l’avantage sur ses concurrents.

La raison ? Le moteur de traduction hybride associe l’analyse sémantique à l’analyse statistique et intègre un processus d’amélioration continue. Jusqu’à présent, Systran, comme @promt ou Reverso, reposait sur un système d’analyse sémantique. Le moteur analysait chaque phrase source et créait l’arbre syntaxique permettant de représenter ses composantes et les relations qui les unissent. Puis, chaque expression était traduite en faisant appel à un dictionnaire, et, une fois l’arbre entièrement traduit, le logiciel restituait la phrase cible. Dans ce mode de traduction automatisée, le plus courant, le dictionnaire constitue un élément central : plus il est complet, meilleur est le résultat. Pourtant, même avec des dictionnaires très fournis, il est presque impossible de produire une phrase cible totalement correcte.

Car l’usage consacre des expressions qui constituent des exceptions innombrables à l’analyse grammaticale traditionnelle, et le moteur d’analyse syntaxique ne sait pas les reconnaître. Lorsque, par exemple, on parle dans un manuel informatique de « la boîte de dialogue Propriétés de Mes documents », le lecteur identifie « Propriétés de Mes documents » comme un nom propre, complément du nom « boîte de dialogue », et ne tente pas d’analyser plus en détail. Le moteur, lui, va tenter d’attribuer une fonction à chacun des termes pris isolément : comment relier « Propriétés » et « Mes documents » à « boîte de dialogue » ? Pour que le dictionnaire permette d’identifier la solution correcte, il faut qu’il la contienne : il faudrait avoir mis à jour le dictionnaire sur la base du document avant de le traduire.

Lorsqu’on utilise un logiciel de traduction de ce type, il faut soit se résigner à obtenir un résultat imparfait soit, si l’on est traducteur soi-même, associer Mémoire de traduction, Traduction automatique, Traduction humaine, et mise à jour interactive du dictionnaire de traduction automatique. Cette combinaison d’outils et de savoir-faire se révèle très puissante : on obtient un texte cible d’une excellente qualité, en produisant 2 000 mots de l’heure, contre les habituels 2 500 mots par jour. L’auteur de ces lignes en a l’expérience, pour avoir utilisé cette méthode il y a plusieurs années pour assurer la traduction de deux ouvrages d’informatique de 1 500 pages chacun en quatre mois.

Le moteur de Systran Enterprise Server 7 continue bien sûr d’utiliser la méthode sémantique d’analyse des textes source. Mais il la complète avec la méthode d’analyse statistique, qui a été popularisée par Google Translate.

L’analyse statistique repose sur l’exploitation de corpus de traduction, qui permettent de déterminer quelle est la traduction la plus fréquemment utilisée pour une expression donnée. Autant un corpus généraliste est presque inexploitable, car il devrait comporter des milliards de phrases pour être utile (c’est un des aspects de la difficulté qu’éprouve Google Translate à fournir des résultats pertinents), autant un corpus spécialisé se révèle d’une efficacité redoutable. Vous traduisez des brevets ? Imaginez un moteur capable d’apprendre les règles à appliquer pour traduire des brevets en se basant sur toute votre production passée. Il y a de fortes chances qu’il produirait de bons résultats… si votre corpus d’origine est lui-même de bonne qualité (voir à ce sujet l’article SMT: undersantding the human factor, de Kirti Vashee, paru dans Multilingual en décembre 2008).

Lors de l’apprentissage du corpus, Systran Enterprise Server 7 crée des « modèles de traduction » qui complètent les « modèles de langue ». Ces modèles, propres au domaine de spécialisation couvert par le corpus, ont pour fonction de lever les ambiguïtés de traduction issues du moteur sémantique et d’améliorer la fluidité du texte cible. Ils sont d’autant plus efficaces qu’ils gèrent des sous-segments (chunks, expressions) et non des phrases entières. Or ce sont bien les sous-segments qui posent le plus de problèmes en analyse sémantique.

Une fois le document source traduit grâce à l’association de ces deux méthodes, il est mis à disposition dans un éditeur de texte. L’utilisateur peut alors le modifier, corriger la formulation, personnaliser les dictionnaires utilisés, préciser qu’il aurait fallu employer tel usage plutôt que tel autre, etc. Si l’utilisateur apporte des modifications aux dictionnaires, il peut ensuite demander une nouvelle traduction, qui prendra ses changements en compte. Mais il peut aussi tout simplement changer la phrase elle-même. Il corrige ainsi la Mémoire de traduction issue de l’alignement automatique entre les phrases du document source et leurs contreparties du document cible. Ces modifications une fois validées, la Mémoire peut être ajoutée au corpus, et sera analysée par le moteur d’analyse statistique. En fait, comme l’analyse de corpus est un processus assez long et consommateur de ressources, les Mémoires de traduction issues des traductions révisées n’y sont pas ajoutées automatiquement. C’est à l’utilisateur de décider, à un moment donné, d’enrichir son corpus existant de tous les travaux réalisés sur une période donnée, voire de créer un corpus entièrement nouveau.

La solution logicielle complète fonctionne sur un modèle client-serveur : les corpus sont stockés sur le serveur avec le moteur, qui est interrogé par des outils clients. Par exemple, le Gestionnaire de projets, qui traduit un ou plusieurs fichiers à la fois, contient une interface de post-édition bilingue, qui permet de réviser les ambiguïtés, d’afficher toutes les occurrences d’un terme dans le document, d’ajouter des mots ou des sens inconnus aux dictionnaires, de procéder à des extractions terminologiques, de créer des clichés de traduction qui mémorisent l’état courant de la traduction et autorisent des comparaisons ultérieures entre clichés, etc. Les autres outils permettent par exemple de traduire un texte sans quitter Microsoft Word, ou d’afficher une barre d’outils de traduction disponible pour toutes les applications.

Systran Translation Server 7 gère pour le moment plus de 20 domaines de spécialisation prédéfinis et 52 paires de langues bidirectionnelles, auxquelles vont bientôt s’ajouter 16 autres paires monodirectionnelles. Il devrait être disponible à la vente en septembre 2009, les prix étant bien entendu élevés, puisqu’il s’agit d’une solution destinée à permettre aux entreprises de traduire d’importants volumes de textes.

En associant ainsi analyse sémantique, analyse statistique, mémoires de traduction et traduction humaine, Systran se donne les moyens de faire rimer traduction automatique et qualité, et de peser sur le marché. La solution semble vraiment très prometteuse pour la traduction de nombreux documents longs traitant d’une thématique donnée : brevets, ouvrages spécialisés, réglementations,… le champ est vaste !