Amélioration de recherches Full-Text
sur base de connaissances morphologiques




Gilbert ROBERT


Mémoire du Cours PostGrade en Informatique
" Gestion moderne des documents éléctroniques" EPFL 1994



Ajouter un champ morphologique non ambigu aux mots qui composent un texte ou une requête, afin de rendre plus précise la recherche Full Text.

De nombreux travaux sont en cours dans le domaine de la recherche documentaire pour trouver une méthode satisfaisante d'accès aux informations. Pour retrouver les documents répondant aux souhaits de l'usager, l'ordinateur devrait pouvoir idéalement saisir le sens de chaque texte et de chaque requête. Il serait donc possible d'améliorer la précision des recherches en extrayant plus d'informations linguistiques des textes (morphologique,syntaxique, sémantique etc...).

En effet, dans les systèmes classiques d'indexation et de recherche documentaire, les mots-outils comme les prépositions, conjonctions, déterminants, adverbes etc.. sont éliminés, pour ne retenir que les mots porteurs de sens, les adjectifs, les noms et les verbes. Mais si l'on considére le mot car [ car(conjonction), car(nom)] qui apparaît dans la phrase ils ont pris le car de cinq heure, il n'est pas évident de trouver sa catégorie syntaxique. Pour déterminer si le mot appartient à la catégorie, mot-outils ou porteur de sens, il est donc nécessaire de faire une étude morphologique précise de la phrase ou de la requête.

Dans cette optique je propose d'écrire un programme qui permette d'augmenter la connaissance au niveau morphologique, en introduisant pour chaque mot sa forme canonique (lemme) et sa catégorie morpho-syntaxique. La difficulté de cette approche réside dans la désambiguisation des catégories morpho-syntaxiques.



Introduction

De nos jours, une masse considérable d'informations textuelles est saisie et mémorisée sur support électronique par les entreprises ou les administrations. Si le stockage de ces données n'est plus un problème majeur, il n'en va pas de même pour l'accès et la consultation. Ces dernières années, de gros efforts ont été déployés dans le domaine de la recherche documentaire pour tenter d'améliorer les techniques d'indexation et d'accès, les interfaces utilisateurs, les standards de représentation des données, les architectures client-serveur, et de tenter de s'adapter au courant du multimédia.

Ce cours postgrade sur la gestion moderne des documents électroniques, nous a permis de connaître l'état de l'art, de faire un tour d'horizon des différents travaux de pointe entrepris dans les universités et les grands centres de recherche, mais aussi de constater le réel décalage qui existe dans ce domaine entre le monde de la recherche et celui du secteur privé (banques, instituts publics, entreprises, ...).

Il apparaît en effet que les méthodes classiques de recherche documentaire basent la représentation d'un document et de la requête sur la notion de mot-clé et accomplissent la recherche par une comparaison directe entre les représentations du document et de la requête (`pattern matching'). Ces méthodes, qui ont fait largement leurs preuves depuis des décennies, commencent à montrer leurs limites avec l'explosion des ressources. Ainsi les méthodes linguistiques qui n'avaient pas montré d'améliorations notables des performances, commencent à se developper.

<<Système d'information dont le but est d'organiser un processus de communication d'informations, qui doit permettre aux utilisateurs de demander et de retrouver les informations pertinentes dans la masse d'information accumulé>> [Van Slype]

Nous voyons que la notion de pertinence est au coeur du problème de la recherche d'informations. La pertinence du système doit se rapprocher au mieux de celle de l'utilisateur. Toute évolution de la pertinence du système nécessite une amélioration de la correspondance sémantique entre document et requête. Et pour augmenter la connaissance sémantique d'un texte, il faut commencer par augmenter les informations morpho-syntactiques de ses composants.

<<Finalement on doit bien reconnaître que la performance des approches classiques se heurte à une frontière. Pour franchir cette barrière, il conviendra de doter les systèmes de recherche d'informations de plus d'intelligence>> [Savoy Neuch94]

Doter les systèmes de recherche d'informations de plus d'intelligence implique un traitement préalable des données textuelles. Ce traitement peut être découpé en trois phases:

- la segmentation qui découpe les entités du texte (mots, symboles, ponctuations,phrases,paragraphes ...).

- la morphologie qui lemmatise les mots et ajoute les catégories syntaxiques

- la désambiguisation (tagging) qui choisit parmi les catégories syntaxiques proposées pour un mot celle qui est la plus probable.

Ce travail de Postgrade consiste à faire un tour d'horizon des méthodes linguistiques, à appliquer les trois phases précédemment décrites à un large corpus (La Monde ~ 15Mb) et à écrire un programme de recherche qui permette de mettre en évidence l'influence de ce traitement sur les critères de précision et de rappel.

La Précision = Documents pertinents/Documents retrouvés
Le Rappel = Documents pertinents retrouvés/ Documents pertinents dans le corpus

Il est à noter que l'intérêt grandissant de la communauté européenne pour les traitement linguistiques à permis de financer le projet MULTEXT (Multilingual Text Tool and Corpora), le plus important de la commission européenne dans le domaine de la recherche linguistique et des programmes d'ingénieries (projet LRE[1]). Ce projet contribuera au développement d'outils généraux de manipulation et d'analyse des textes et créera des textes multilingues avec des marquages structurels et linguistiques. A la fin 1995, si le cahier des charges est respecté, nous serons en possession d'outils d'exploitation puissants, cohérents, indépendants de la langue et standardisés qui seront mis en libre circulation.

En attendant l'apparition de ces outils, il m'a été possible d'appliquer un traitement linguistique sur les données à l'aide de différents outils:

un segmenteur: BCP (Bilingual Concordancy Program) développé à l' ISSCO[2]

un analyseur morphologique: Un programme que j'ai écrit, (Lookup) utilisant un lexique basé sur un dictionnaire du Français à partir duquel toutes les formes fléchies ont été dérivées.

un désambiguiseur: Cette partie était le centre de mon travail. Elle concerne la désambiguisation des catégories syntaxiques de chaque mot contenu dans une phrase. La question à laquelle on doit répondre est la suivante:
"Comment trouver les catégories syntaxiques correctes sans utiliser des règles syntaxiques et morphologiques propres à chaque langue?"
La réponse réside dans les théories statistiques des Modèles Cachés de Markov (Hidden Markov Model, HMM). [Rabiner 1988].Ces théories permettent avec un minimum d'effort de prendre un large texte dans une langue inconnue dont les mots contiennent les informations morphologiques, et la liste des catégories, et d'entraîner le modèle pour affiner les matrices de transitions. Ainsi sans aucune étude syntaxique, on est capable de trouver les bonnes catégories, avec un degré de précision élevé (~94%). Les modèles de Markov ont été appliqués dans de nombreux domaines d'activités, tels que la reconnaissance de la parole (Rabiner 84), l'écriture (Farag 79) (Kordi 87), la reconnaissance de caractères optiques etc...

Je présenterai dans ce rapport, après un survol général des techniques liées à la recherche documentaire, les différentes étapes de la préparation d'un texte qui consistent à le structurer et lui ajouter des informations morpho-syntactiques non ambiguës.

Les ambiguïtés sont les bêtes noires de la linguistique et de la recherche documentaire, aussi je m'attarderai principalement sur les techniques stochastiques de désambiguisation, et principalement sur celle que j'ai utilisé pour écrire ce que l'on appele communément le tagger

Pour terminer je montrerai, à l'aide d'un exemple, que la précision de la recherche full text peut être améliorée en ajoutant des informations linguistiques.


Table des matières

Chapitre I. Généralités