Thèse de doctorat en Traitement informatique multilingue

De l'incomplétude lexicale en traduction automatique: vers une approche morphosémantique multilingue


Thèse soutenue le 27 juin 2008, à l'Ecole de traduction et d'interprétation de l'Université de Genève, Suisse

Directrice: Margaret King (uni. de Genève)
Présidente: Pierrette Bouillon (uni. de Genève)
Jurés: Fiammetta Namer (uni. de Nancy), Anthony Hartley (uni. de Leeds)

Résumé

L'ambition de ce travail est d'évaluer la faisabilité d'une implémentation informatique de l'inférence entre les langues. Nous avons concentré notre attention sur les phénomènes d'inférence dans la construction des mots, que nous avons regroupés sous le terme de liens morphosémantiques multilingues, et sur la faisabilité de leur implémentation en traduction automatique. Ce travail se veut à la fois théorique et pratique. D'un point de vue théorique, il questionne les fondements de cette inférence et propose une première ébauche de modélisation. D'un point de vue pratique, il montre comment cette inférence pourrait être exploitée pour résoudre en partie un problème important : l'incomplétude lexicale en traduction automatique

Toutes les applications de traitement de la langue basées sur les lexiques dépendent de la richesse de cette ressource. Un mot absent du lexique ne peut en effet pas être traité par le système, ce qui a des conséquences plus ou moins dommageables sur la qualité de la sortie. Suivant les applications, de nombreuses solutions ont été envisagées pour pallier cette incomplétude lexicale et deviner l'inconnu. Dans un système de traduction automatique, o&ugrav; l'on passe d'une langue à l'autre, deviner l'inconnu est une tâche très complexe, qui recouvre une étape d'analyse du mot inconnu et une étape de génération de la traduction de ce mot.

Les mots inconnus des systèmes de traduction automatique sont de différentes sortes (noms propres, mots issus de la créativité lexicale, mots erronés), mais ce sont les mots issus de la créativité lexicale qui nous intéressent dans ce travail. Ces mots constituent un ensemble dynamique : certains vont un jour entrer dans le lexique, d'autres n'existeront que dans le temps de leur production. L'exploitation des liens morphosémantiques multilingues en traduction automatique a donc pour but, in fine, de proposer une traduction pour les mots construits néologiques, sans devoir forcément les enregistrer dans le lexique. D'un point de vue pratique, nous nous sommes volontairement concentré sur un procédé de construction (la préfixation) et sur deux langues (l'italien et le français). Il n'en reste pas moins que les méthodes et les solutions proposées sont applicables à d'autres procédés de formation néologique et d'autres paires de langues.

Dans un premier temps, cette recherche présente différentes études sur l'incomplétude lexicale dans différents systèmes de traduction automatique et dans d'autres lexiques d'applications informatiques de traitement de la langue. Ces études ont montré que ce phénomène était constant et que la solution à l'incomplétude lexicale ne pouvait résider dans une simple alimentation du lexique. Par ailleurs, l'analyse qualitative de ce phénomène a souligné la présence d'un nombre important de néologismes formés selon des procédés réguliers. Ces néologismes construits sont en outre influencés par le contact entre les langues, ce qui permet d'envisager un certain parallélisme entre les constructions néologiques et donc d'imaginer une traduction automatique des néologismes.

Dans un deuxième temps, nous définissons plus précisément la notion de lien morphosémantique multilingue, qui permet de rendre compte des similitudes de construction entre deux langues. Ce lien est défini selon une double reproductibilité, à la fois au sein d'une même langue et entre les langues. Pour être exploités dans la traduction automatique des néologismes construits, ces liens sont formalisés par l'intermédiaire de règles de construction des lexèmes (RCL) bilingues, en adoptant l'approche lexématique de la morphologie, qui dispose d'outils descriptifs idéaux pour le traitement de la néologie. L'élaboration de ces RCL passe nécessairement par une étude approfondie des systèmes morphologiques des deux langues et une étude contrastive des procédés de construction. Cette démarche contrastive se fonde sur l'utilisation d'un tertium comparationis, qui joue le rôle d'un point de comparaison sur lequel nous pouvons projeter les éléments des deux langues. Cette projection nous a fourni le matériel traductionnel permettant d'implémenter les règles de construction des lexèmes bilingues. Elle a également permis, dans les étapes d'affinage, de rendre compte des divergences structurelles présentes dans les règles de préfixation des différentes langues.

La troisième partie de ce travail porte sur l'implémentation informatique de ces RCL bilingues dans le contexte de la traduction automatique des mots construits. Pour ce faire, nous avons mis au point un prototype de traducteur automatique, permettant de traduire des néologismes préfixés. Ce prototype nous a permis d'expérimenter pas à pas les étapes de la traduction automatique, en évaluant chaque principe et chaque contrainte implémentés. Nous montrons que le défi principal résidait dans la partie « analyse » des mots inconnus, étape sur laquelle nous avons concentré nos efforts pour implémenter de mécanismes de contrainte permettant d'assurer une correction optimale de cette analyse. La partie génération, pour sa part, requiert avant tout un lexique bilingue approprié pour la traduction automatique des néologismes construits. Mais la génération morphologique est également confrontée à un certain nombre de problématiques inhérentes à la préfixation, à savoir l'alternance entre préfixes (multidimensionnel ou pluridimensionnel) et l'alternance entre bases (anticancer ou anticancéreux).

Enfin, dans la quatrième partie, nous avons évalué notre démarche, d'une part, sous l'angle de la qualité de la traduction des néologismes construits et de l'influence de leur résolution sur la qualité de la phrase et, d'autre part d'un point de vue plus global, en posant des questions de faisabilité et de portabilité de notre approche. Nous avons ainsi pu dresser la liste des conditions essentielles à la construction d'un tel système : des fondements théoriques forts permettant l'implémentation de principes linguistiques confirmés ; des contraintes adéquates et des ressources appropriées.

retour en haut de la page

Abstract

The objective of this research is to evaluate the feasibility of exploiting inference between languages in NLP. We focus on inference phenomena within word formation, which we have named multilingual morphosemantic links, and on the feasibility of their exploitation in machine translation. This work aims to be both practical and theoretical. On the theoretical side, we question the grounds for this type of inference and propose a first attempt at formalising it. On the practical side, we show how this inference can be exploited to solve an important issue in machine translation: lexical incompleteness.

Any NLP applications based on lexica highly depend on the completeness of the resource. A word that is not in the lexicon cannot be processed by the system, which can have consequences - more or less important - on the quality of the output of the system. Depending on the application, many different solutions have been investigated for how to compensate for lexical incompleteness and to guess the unknown. In a machine translation system, where a transfer between two languages is implied, guessing the unknown is very complex because it involves dealing with the unknown at both the analysis and the generation steps of the translation process.

Unknown words in machine translation systems can be of different kinds (proper name, erroneous words, words coming from lexical creativity), but in this research we concentrate on the latter ones. These words constitute a dynamic class of items: some will eventually be added to the lexicon; others will exist only at the time at which they are produced and perceived. Exploiting and formalising multilingual morphosemantic links in machine translation aims to propose a translation for an unknown word, without having to add it to the lexicon.

For practical reasons, we concentrate on only one construction process (prefixation) and on two languages (Italian and French, voluntarily chosen because they are »related«, and have consequently less divergences). Nonetheless, the proposed methods and solutions are applicable to other neological formation processes and to other language pairs.

The first part of this work presents various studies of lexical incompleteness in different machine translation systems and other NLP tools. These studies showed that the phenomenon of lexical incompleteness is constant whatever the system evaluated, and that the solution to this problem cannot simply be to «feed the lexicon» with unknown words. Moreover, a qualitative analysis of the unknown words highlights that a large number of them are neologisms that are constructed from regular processes. These constructed neologisms are also strongly influenced by the contact between languages, which brings us to imagine a parallelism in creating neologisms between languages, and possible exploitation in machine translation.

The second part precisely defines the notion of a multilingual morphosemantic link, which helps us represent construction similarities between languages. This link is defined according to a double reproducibility: within one language and between two languages. To be exploited in machine translation, these links are formalised through bilingual Lexeme Formation Rules (LFR), adopting a lexematic approach of morphology that provides ideal descriptive means to deal with neologisms. Building up these LFR necessarily requires a deep study of the morphological systems of the two languages, and a contrastive study of the construction processes. This contrastive approach is based on the use of a tertium comparationis, which is a theoretical platform onto which we can «project» the elements to be compared. The «projection» gives the translational material to implement bilingual LFR, and shows, in a refinement step, structural divergences that have to be taken into account.

The third part of this work deals with implementing the LFR in a machine translation context. To do so, we build a prototype system to translate automatically prefixed neologisms. This system allows us to experiment with every step of the automated translation process. We show that the main challenge is in the stage dealing with the analysis of the unknown words. This is where most of the work with special constraints has to be done to ensure optimal performance of the output. The generation stage mainly requires an adequate bilingual lexicon, but some specific issues have also been found related to prefixation, i.e. alternating prefixes (like in multidimensionel or pluridimentionel), and alternating bases (anticancer or anticancéreux).

In the fourth and final part we evaluate the entire approach. The first step consists in evaluating the quality of the translated neologisms, and the influence on the quality of the entire sentence once the neologism is translated. The second is to raise the question of the feasibility and portability of this approach in order to highlight the main conditions necessary to make such a system work. We show that strong theoretical grounds with linguistic principles and appropriate constraints and resources are the main prerequisite to take advantage of multilingual morphosemantic links to deal with unknown words in machine translation system.

retour en haut de la page


Accès au texte entier