|
EAGLES -- Groupe de travail sur l'évaluation
Avril 1999
Introduction
L'ensemble du processus d'évaluation reste le
même, que l'on se propose d'évaluer différents
systèmes ou un seul. La question essentielle est de savoir si
l'évaluation correspond aux besoins de l'utilisateur. Dans la
pratique, cette exigence peut ne pas être écrite noir sur
blanc avant le début de l'évaluation; il faudra alors dans
certains cas repenser l'évaluation en cours de route (notamment
dans le cas ou aucun système sur le marché ne remplit tous
les critères recherchés ou si le système propose
des fonctionnalités dont la personne chargée de
l'évaluation n'avait pas conscience). Toutefois, il faudra
toujours avoir une idée des critères recherchés
pour un système donné avant le début de
l'évaluation, et partant, il faudra trouver des moyens de
déterminer si un système candidat les remplit. Les
critères généraux appliqués au
système sont décomposés en critères
secondaires portant sur chacune des caractéristiques de celui-ci.
Pour chacune d'elles, on définit une mesure ainsi qu'une méthode
pour obtenir cette mesure. Chaque critère est alors mesuré
et les résultats sont comparés aux critères
généraux pour voir comment le système les
remplit.
Dans ce document, nous présentons un bref tour
d'horizon des 7 étapes nécessaires à la mise en
oeuvre d'une bonne évaluation des sytèmes ou des modules
de systèmes basés sur des technologies linguistiques. Pour
une discussion plus détaillée et pour plus d'exemples,
nous vous invitons à vous reporter au rapport EAGLES.
L'évaluation en 7 étapes:
1. Pourquoi faire une évaluation?
- Quel est le but de l'évaluation? Toutes
les personnes impliquées ont-elles la même
compréhension du but de l'évaluation?
- Que va-t-on évaluer exactement? Un
système dans son entier ou un module de celui-ci? Un
système pris isolément ou un système pris dans un
contexte spécifique? Quelles sont les limites du
système?
2. Elaborer un modèle des tâches
- Identifier les rôles et
les agents pertinents.
- Comment le système va t-il être
utilisé?
- Par qui? Pour quelle utilisation? Qui sont les
utilisateurs?
3. Définir des caractéristiques de haute qualité
- Quelles caractéristiques du système
doivent être évaluées? Ont-elles toutes la
même importance?
4. Spécifier des critères détaillés pour le système évalué sur
la base des étapes 2 et 3
- Pour chaque critère identifié,
peut-on trouver un moyen valable et cohérent de mesurer les
performances du système en fonction de ces critères? Dans
le cas contraire, ces derniers devront être
décomposés en critères secondaires mesurables de
manière à les rendre valides. Ce processus doit être
répété jusqu'à ce que ce que les
critères soient mesurables.
5. Définir les mesures à appliquer au système pour les
critères déterminés sous le point 4.
- Tant la mesure que la méthode pour obtenir
cette mesure doivent être définies pour chaque
critère.
- Pour chaque critère mesurable, que va t-on
considérer comme un bon résultat, comme un
résultat satisfaisant, comme un résultat insatisfaisant, en
fonction du modèle des tâches (2)? Où se situe le
seuil d'acceptabilité?
- Habituellement, un critère est
décomposé en plusieurs critères secondaires.
Comment les valeurs des différents critères secondaires se
combinent-elles à la valeur définie pour le critère
de référence afin de refléter leur importance
relative (là encore en fonction du modèle des
tâches)?
6. Préparer l'éxécution de l'évaluation
- Développer le matériel de test
qui permettra d'évaluer le système.
- Qui sera effectivement chargé de
procéder aux différentes mesures? Quand? Dans quelles
circonstances? Sous quelle forme le résultat final sera t-il
présenté?
7. Exécuter l'évaluation:
- Procéder aux mesures.
- Comparer les résultats à
l'échelle des degrés de satisfaction préalablement
déterminée.
- Résumer les résultats dans un
rapport d'évaluation, cf. point 1.
Un exemple concret
Nous présentons ici un exemple
simplifié portant sur une évaluation fictive basée
sur le cas d'une agence de traduction désirant acquérir un
outil de gestion de terminologie pour assurer une traduction
terminologique plus efficace et plus cohérente. Si l'on suit les
5 premières étapes mentionnées plus haut, les types de
réponses suivants sont possibles. Certes, dans la pratique, la
situation sera plus complexe et les critères qui en
découlent bien plus détaillés.
1. Pourquoi faire l'évaluation?
- Quel est le but de l'évaluation?
Choisir l'outil de gestion de terminologie
adapté à la fois aux besoins des traducteurs et des
terminologues. Alors que le manager recherche avant tout
l'efficacité et le moindre coût, les traducteur individuels
et les terminologues cherchent un moyen de rendre leur travail plus
satisfaisant.
- Qu'est-ce qui est précisément évalué?
Des outils de gestion de terminologie
accessibles par le réseau.
2. Elaborer un modèle des tâches
- Comment le système va-t-il être utilisé?
Pour consulter des termes lors du processus
de traduction, pour stocker des termes nouvellement traduits et assurer
une certaine cohérence terminologique à l'intérieur
des traductions et entre elles.
- Qui va l'utiliser? Comment
va-t-il être utilisé? Qui sont les utilisateurs?
Des traducteurs techniques qui ont, en moyenne, une
expérience de 7 ans dans le domaine de la traduction de textes
techniques de l'anglais vers le français, l'espagnol et le
japonais vont l'utiliser lors du processus de traduction pour consulter
des termes et des traductions précédentes. Le terminologue
l'utilise pour construire et organiser la terminologie et pour assurer
la précision et la cohérence de la terminologie disponible
pour le traducteur.
3. Définir des caractéristiques de haute qualité
- Quelles caractéristiques du
système doivent-elles être évaluées?
Ont-elles toutes la même importance?
- Langues: l'outil doit être capable
de supporter toutes les langues traitées par l'agence, dans le
cas contraire, il n'aurait aucune utilité.
- Accès: Combien de personnes peuvent
utiliser l'outil simultanément? Que peuvent-ils faire avec?
- Taille: Combien de termes (avec leurs
traductions) peuvent-ils être stockés?
- Cohérence: L'outil permet-il
d'assurer que pour chaque terme, une seule traduction par langue cible a
été entrée?
- Vitesse: Avec quelle rapidité se
font la consultation et la mise à jour de la terminologie? S'il
est admis que la consultation et la mise à jour ne doivent pas
prendre un temps déraisonnable, cette caractéristique
n'est toutefois pas aussi importante que les précédentes.
4. Définir des critères détaillés
- Langues: l'outil doit être capable de
supporter les jeux de caractères anglais, français,
espagnols et japonais.
- Accès: l'outil doit permettre au moins
à 3 traducteurs de consulter des termes simultanément. Il
ne doit pas permettre aux traducteurs de mettre à jour
automatiquement la base et ainsi de modifier la traduction de termes
existants sans l'approbation du terminologue. L'outil doit permettre
différents types d'accès pour différents
utilisateurs.
- Taille: l'agence veut avoir la possibilité
de stocker et de consulter un million de termes d'ici à cinq ans.
- Cohérence: l'outil doit comprendre des
fonctionnalités permettant d'assurer qu'à chaque terme correspond
une seule traduction par langue cible. L'outil doit permettre d'ajouter
des termes complètement nouveaux lors du processus de traduction
et de les marquer comme tel de manière à permettre au
terminologue de les approuver.
- Vitesse: La consultation et la mise à jour
de la terminologie doit être plus rapide que la procédure
courante de fiches indexées. Toutefois, on peut
parvenir à un compromis. Si l'amélioration en
matière de cohérence est très importante
(réduisant ainsi le temps moyen de post-édition) alors la
vitesse de consultation et de mise à jour peut être moins
importante. C'est l'un des critères qui doit être
décomposé en critères secondaires mesurables pour
les deux procédures. (voir ci-dessous)
5. Définir les mesures à appliquer au système
Certaines métriques (mesures et
méthodes) impliqueront une simple consultation de la
documentation accompagnant l'outil, par exemple, les jeux de
caractères qui sont supportés ou la taille maximum d'une
base de données terminologique. Les valeurs acceptables pour la
langue et la mesure de la taille auront été
préalablement déterminées dans les critères
détaillés.
Dans d'autres cas, il ne faut pas s'en tenir aux
descriptifs fournis par les fabricants. Ainsi, par exemple, pour
vérifier le nombre de personnes qui peuvent accéder
à l'outil de manière simultanée et ce qu'ils sont
autorisés à faire, il est nécessaire
d'expérimenter l'outil lui-même. On pourrait
considérer que 8 est un bon résultat s'agissant du nombre
de personnes pouvant travailler simultanément et efficacement sur
la base de données (sachant que c'est le nombre total de
traducteurs employés). Un résultat inférieur
à 3 serait inacceptable.
D'autres critères tels que la vitesse doivent
être décomposés en critères secondaires pour
pouvoir être mesurés. Ils impliquent également un certain nombre de
facteurs différents qui doivent être pris en
considération. En effet, le temps nécessaire pour
récupérer un terme peut dépendre de la taille de la
base de données, et/ou du nombre d'autres utilisateurs
travaillant sur le système en même temps. Nous voulons
également mesurer ces effets. Nous obtenons ainsi
différentes mesures telles que:
a. Temps moyen pour récupérer un terme
dans une base de données de 100,000 termes (un utilisateur)
b. Temps moyen pour récupérer un terme
dans une base de données de 100,000 termes (3 utilisateurs)
c. Temps moyen pour récupérer un terme
dans une base de données de 100,000 termes (5 utilisateurs)
a. Temps moyen pour sauvegarder un terme dans une
base de données de 100,000 termes (un utilisateur)
b. Temps moyen pour sauvegarder un terme dans une base de
données de 100,000 termes (3 utilisateurs)
c. Temps moyen pour sauvegarder un terme dans une base de
données de 100,000 termes (5 utilisateurs)
Traduit par
Véronique Sauron
(août 2000)
|