Les clefs de l'évaluation en 7 étapes
EAGLES -- Groupe de travail sur l'évaluation ancre

Avril 1999

Introduction

L'ensemble du processus d'évaluation reste le même, que l'on se propose d'évaluer différents systèmes ou un seul. La question essentielle est de savoir si l'évaluation correspond aux besoins de l'utilisateur. Dans la pratique, cette exigence peut ne pas être écrite noir sur blanc avant le début de l'évaluation; il faudra alors dans certains cas repenser l'évaluation en cours de route (notamment dans le cas ou aucun système sur le marché ne remplit tous les critères recherchés ou si le système propose des fonctionnalités dont la personne chargée de l'évaluation n'avait pas conscience). Toutefois, il faudra toujours avoir une idée des critères recherchés pour un système donné avant le début de l'évaluation, et partant, il faudra trouver des moyens de déterminer si un système candidat les remplit. Les critères généraux appliqués au système sont décomposés en critères secondaires portant sur chacune des caractéristiques de celui-ci. Pour chacune d'elles, on définit une mesure ainsi qu'une méthode pour obtenir cette mesure. Chaque critère est alors mesuré et les résultats sont comparés aux critères généraux pour voir comment le système les remplit.

Dans ce document, nous présentons un bref tour d'horizon des 7 étapes nécessaires à la mise en oeuvre d'une bonne évaluation des sytèmes ou des modules de systèmes basés sur des technologies linguistiques. Pour une discussion plus détaillée et pour plus d'exemples, nous vous invitons à vous reporter au rapport EAGLES.

L'évaluation en 7 étapes:

1. Pourquoi faire une évaluation?

  • Quel est le but de l'évaluation? Toutes les personnes impliquées ont-elles la même compréhension du but de l'évaluation?
  • Que va-t-on évaluer exactement? Un système dans son entier ou un module de celui-ci? Un système pris isolément ou un système pris dans un contexte spécifique? Quelles sont les limites du système?

2. Elaborer un modèle des tâches

  • Identifier les rôles et les agents pertinents.
  • Comment le système va t-il être utilisé?
  • Par qui? Pour quelle utilisation? Qui sont les utilisateurs?

3. Définir des caractéristiques de haute qualité

  • Quelles caractéristiques du système doivent être évaluées? Ont-elles toutes la même importance?

4. Spécifier des critères détaillés pour le système évalué sur la base des étapes 2 et 3

  • Pour chaque critère identifié, peut-on trouver un moyen valable et cohérent de mesurer les performances du système en fonction de ces critères? Dans le cas contraire, ces derniers devront être décomposés en critères secondaires mesurables de manière à les rendre valides. Ce processus doit être répété jusqu'à ce que ce que les critères soient mesurables.

5. Définir les mesures à appliquer au système pour les critères déterminés sous le point 4.

  • Tant la mesure que la méthode pour obtenir cette mesure doivent être définies pour chaque critère.
  • Pour chaque critère mesurable, que va t-on considérer comme un bon résultat, comme un résultat satisfaisant, comme un résultat insatisfaisant, en fonction du modèle des tâches (2)? Où se situe le seuil d'acceptabilité?
  • Habituellement, un critère est décomposé en plusieurs critères secondaires. Comment les valeurs des différents critères secondaires se combinent-elles à la valeur définie pour le critère de référence afin de refléter leur importance relative (là encore en fonction du modèle des tâches)?

6. Préparer l'éxécution de l'évaluation

  • Développer le matériel de test qui permettra d'évaluer le système.
  • Qui sera effectivement chargé de procéder aux différentes mesures? Quand? Dans quelles circonstances? Sous quelle forme le résultat final sera t-il présenté?

7. Exécuter l'évaluation:

  • Procéder aux mesures.
  • Comparer les résultats à l'échelle des degrés de satisfaction préalablement déterminée.
  • Résumer les résultats dans un rapport d'évaluation, cf. point 1.

Un exemple concret

Nous présentons ici un exemple simplifié portant sur une évaluation fictive basée sur le cas d'une agence de traduction désirant acquérir un outil de gestion de terminologie pour assurer une traduction terminologique plus efficace et plus cohérente. Si l'on suit les 5 premières étapes mentionnées plus haut, les types de réponses suivants sont possibles. Certes, dans la pratique, la situation sera plus complexe et les critères qui en découlent bien plus détaillés.

1. Pourquoi faire l'évaluation?

  • Quel est le but de l'évaluation? Choisir l'outil de gestion de terminologie adapté à la fois aux besoins des traducteurs et des terminologues. Alors que le manager recherche avant tout l'efficacité et le moindre coût, les traducteur individuels et les terminologues cherchent un moyen de rendre leur travail plus satisfaisant.
  • Qu'est-ce qui est précisément évalué? Des outils de gestion de terminologie accessibles par le réseau.

2. Elaborer un modèle des tâches

  • Comment le système va-t-il être utilisé?
    Pour consulter des termes lors du processus de traduction, pour stocker des termes nouvellement traduits et assurer une certaine cohérence terminologique à l'intérieur des traductions et entre elles.
  • Qui va l'utiliser? Comment va-t-il être utilisé? Qui sont les utilisateurs?
    Des traducteurs techniques qui ont, en moyenne, une expérience de 7 ans dans le domaine de la traduction de textes techniques de l'anglais vers le français, l'espagnol et le japonais vont l'utiliser lors du processus de traduction pour consulter des termes et des traductions précédentes. Le terminologue l'utilise pour construire et organiser la terminologie et pour assurer la précision et la cohérence de la terminologie disponible pour le traducteur.

3. Définir des caractéristiques de haute qualité

  • Quelles caractéristiques du système doivent-elles être évaluées? Ont-elles toutes la même importance?
    • Langues: l'outil doit être capable de supporter toutes les langues traitées par l'agence, dans le cas contraire, il n'aurait aucune utilité.
    • Accès: Combien de personnes peuvent utiliser l'outil simultanément? Que peuvent-ils faire avec?
    • Taille: Combien de termes (avec leurs traductions) peuvent-ils être stockés?
    • Cohérence: L'outil permet-il d'assurer que pour chaque terme, une seule traduction par langue cible a été entrée?
    • Vitesse: Avec quelle rapidité se font la consultation et la mise à jour de la terminologie? S'il est admis que la consultation et la mise à jour ne doivent pas prendre un temps déraisonnable, cette caractéristique n'est toutefois pas aussi importante que les précédentes.

4. Définir des critères détaillés

  • Langues: l'outil doit être capable de supporter les jeux de caractères anglais, français, espagnols et japonais.
  • Accès: l'outil doit permettre au moins à 3 traducteurs de consulter des termes simultanément. Il ne doit pas permettre aux traducteurs de mettre à jour automatiquement la base et ainsi de modifier la traduction de termes existants sans l'approbation du terminologue. L'outil doit permettre différents types d'accès pour différents utilisateurs.
  • Taille: l'agence veut avoir la possibilité de stocker et de consulter un million de termes d'ici à cinq ans.
  • Cohérence: l'outil doit comprendre des fonctionnalités permettant d'assurer qu'à chaque terme correspond une seule traduction par langue cible. L'outil doit permettre d'ajouter des termes complètement nouveaux lors du processus de traduction et de les marquer comme tel de manière à permettre au terminologue de les approuver.
  • Vitesse: La consultation et la mise à jour de la terminologie doit être plus rapide que la procédure courante de fiches indexées. Toutefois, on peut parvenir à un compromis. Si l'amélioration en matière de cohérence est très importante (réduisant ainsi le temps moyen de post-édition) alors la vitesse de consultation et de mise à jour peut être moins importante. C'est l'un des critères qui doit être décomposé en critères secondaires mesurables pour les deux procédures. (voir ci-dessous)

5. Définir les mesures à appliquer au système

Certaines métriques (mesures et méthodes) impliqueront une simple consultation de la documentation accompagnant l'outil, par exemple, les jeux de caractères qui sont supportés ou la taille maximum d'une base de données terminologique. Les valeurs acceptables pour la langue et la mesure de la taille auront été préalablement déterminées dans les critères détaillés.

Dans d'autres cas, il ne faut pas s'en tenir aux descriptifs fournis par les fabricants. Ainsi, par exemple, pour vérifier le nombre de personnes qui peuvent accéder à l'outil de manière simultanée et ce qu'ils sont autorisés à faire, il est nécessaire d'expérimenter l'outil lui-même. On pourrait considérer que 8 est un bon résultat s'agissant du nombre de personnes pouvant travailler simultanément et efficacement sur la base de données (sachant que c'est le nombre total de traducteurs employés). Un résultat inférieur à 3 serait inacceptable.

D'autres critères tels que la vitesse doivent être décomposés en critères secondaires pour pouvoir être mesurés. Ils impliquent également un certain nombre de facteurs différents qui doivent être pris en considération. En effet, le temps nécessaire pour récupérer un terme peut dépendre de la taille de la base de données, et/ou du nombre d'autres utilisateurs travaillant sur le système en même temps. Nous voulons également mesurer ces effets. Nous obtenons ainsi différentes mesures telles que:

a. Temps moyen pour récupérer un terme dans une base de données de 100,000 termes (un utilisateur)

b. Temps moyen pour récupérer un terme dans une base de données de 100,000 termes (3 utilisateurs)

c. Temps moyen pour récupérer un terme dans une base de données de 100,000 termes (5 utilisateurs)

a. Temps moyen pour sauvegarder un terme dans une base de données de 100,000 termes (un utilisateur)

b. Temps moyen pour sauvegarder un terme dans une base de données de 100,000 termes (3 utilisateurs)

c. Temps moyen pour sauvegarder un terme dans une base de données de 100,000 termes (5 utilisateurs)


Traduit par Véronique Sauron (août 2000)

Retour à la page de garde
 
Last modified: Wed Oct 10 16:59:18 MET DST 2001
Sandra Manzi