Ce cours postgrade sur la gestion moderne des documents électroniques, nous a permis de connaître l'état de l'art, de faire un tour d'horizon des différents travaux de pointe entrepris dans les universités et les grands centres de recherche, mais aussi de constater le réel décalage qui existe dans ce domaine entre le monde de la recherche et celui du secteur privé (banques, instituts publics, entreprises, ...).
Il apparaît en effet que les méthodes classiques de recherche documentaire basent la représentation d'un document et de la requête sur la notion de mot-clé et accomplissent la recherche par une comparaison directe entre les représentations du document et de la requête (`pattern matching'). Ces méthodes, qui ont fait largement leurs preuves depuis des décennies, commencent à montrer leurs limites avec l'explosion des ressources. Ainsi les méthodes linguistiques qui n'avaient pas montré d'améliorations notables des performances, commencent à se developper.
<<Système d'information dont le but est d'organiser un
processus de communication d'informations,
qui doit permettre aux utilisateurs
de demander et de retrouver les informations pertinentes dans la masse
d'information accumulé>> [Van Slype]
|
Nous voyons que la notion de pertinence est au coeur du problème de la recherche d'informations. La pertinence du système doit se rapprocher au mieux de celle de l'utilisateur. Toute évolution de la pertinence du système nécessite une amélioration de la correspondance sémantique entre document et requête. Et pour augmenter la connaissance sémantique d'un texte, il faut commencer par augmenter les informations morpho-syntactiques de ses composants.
<<Finalement on doit bien reconnaître que la performance des
approches classiques se heurte à une frontière. Pour franchir
cette barrière, il conviendra de doter les systèmes de recherche
d'informations de plus d'intelligence>> [Savoy Neuch94]
|
Doter les systèmes de recherche d'informations de plus d'intelligence implique un traitement préalable des données textuelles. Ce traitement peut être découpé en trois phases:
- la segmentation qui découpe les entités du texte (mots, symboles, ponctuations,phrases,paragraphes ...).
- la morphologie qui lemmatise les mots et ajoute les catégories syntaxiques
- la désambiguisation (tagging) qui choisit parmi les catégories syntaxiques proposées pour un mot celle qui est la plus probable.
Ce travail de Postgrade consiste à faire un tour d'horizon des méthodes linguistiques, à appliquer les trois phases précédemment décrites à un large corpus (La Monde ~ 15Mb) et à écrire un programme de recherche qui permette de mettre en évidence l'influence de ce traitement sur les critères de précision et de rappel.
La Précision = | Documents pertinents/Documents retrouvés |
Le Rappel = | Documents pertinents retrouvés/ Documents pertinents dans le corpus |
Il est à noter que l'intérêt grandissant de la communauté européenne pour les traitement linguistiques à permis de financer le projet MULTEXT (Multilingual Text Tool and Corpora), le plus important de la commission européenne dans le domaine de la recherche linguistique et des programmes d'ingénieries (projet LRE[1]). Ce projet contribuera au développement d'outils généraux de manipulation et d'analyse des textes et créera des textes multilingues avec des marquages structurels et linguistiques. A la fin 1995, si le cahier des charges est respecté, nous serons en possession d'outils d'exploitation puissants, cohérents, indépendants de la langue et standardisés qui seront mis en libre circulation.
En attendant l'apparition de ces outils, il m'a été possible d'appliquer un traitement linguistique sur les données à l'aide de différents outils:
un segmenteur: BCP (Bilingual Concordancy Program) développé à l' ISSCO[2]
un analyseur morphologique: Un programme que j'ai écrit, (Lookup) utilisant un lexique basé sur un dictionnaire du Français à partir duquel toutes les formes fléchies ont été dérivées.
un désambiguiseur: Cette partie était le centre de mon
travail. Elle concerne la désambiguisation des catégories
syntaxiques de chaque mot contenu dans une phrase. La question à
laquelle on doit répondre est la suivante:
"Comment trouver
les catégories syntaxiques correctes sans utiliser des règles
syntaxiques et morphologiques propres à chaque langue?"
La réponse réside dans les théories statistiques des
Modèles Cachés de Markov (Hidden Markov Model, HMM). [Rabiner
1988].Ces théories permettent avec un minimum d'effort de prendre un
large texte dans une langue inconnue dont les mots contiennent les
informations morphologiques, et la liste des catégories, et
d'entraîner le modèle pour affiner les matrices de transitions.
Ainsi sans aucune étude syntaxique, on est capable de trouver les
bonnes catégories, avec un degré de précision
élevé (~94%). Les modèles de Markov ont été
appliqués dans de nombreux domaines d'activités, tels que la
reconnaissance de la parole (Rabiner 84), l'écriture (Farag 79) (Kordi
87), la reconnaissance de caractères optiques etc...
Je présenterai dans ce rapport, après un survol général des techniques liées à la recherche documentaire, les différentes étapes de la préparation d'un texte qui consistent à le structurer et lui ajouter des informations morpho-syntactiques non ambiguës.
Les ambiguïtés sont les bêtes noires de la linguistique et de la recherche documentaire, aussi je m'attarderai principalement sur les techniques stochastiques de désambiguisation, et principalement sur celle que j'ai utilisé pour écrire ce que l'on appele communément le tagger
Pour terminer je montrerai, à l'aide d'un exemple, que la précision de la recherche full text peut être améliorée en ajoutant des informations linguistiques.