Voici une liste des principaux corpus qui ont été compilés dans le but de faire des tests à partir de listes de mots choisies. (Liste ni exhaustive, ni finale.)
| Listes de mots compilés à partir de corpus | |||
| Fichiers | Domaine | Remarques | Taille |
| Union de Banques Suisses (corpus de 211000 mots) | |||
| UBS | économique | vocabulaire économique | |
| obtenu a partir des publications | |||
| de l'UBS de 1989 à 1991 | |||
| Total: 12900 mots distincts | |||
| Journal Le Monde (corpus de 4330000 mots) | |||
| Lemonde | journalisme/ | collection d'articles du journal | |
| communication | Le Monde recouvrant une variété | ||
| de sujets d'actualité | |||
| Total: 121000 mots distincts | |||
| Organisation mondiale de la santé (corpus de 782000 mots) | |||
| OMS | médical | vocabulaire médical | |
| obtenu a partir des publications | |||
| de l'OMS | |||
| Total: 39000 mots distincts | |||
| Hansard (corpus de 108000 mots) | |||
| Hansard | général/ | transcription des débats | |
| parlementaire | parlementaires canadiens | ||
| Total: 20000 mots distincts | |||
| Série de noms propres (sous-langages fermés) | |||
| Pays | général/ | liste élaborée à partir de | |
| liste complète/ | données sur les pays | ||
| substantifs | membres des Nations unies | 347 noms | |
| Habitants | général/ | liste élaborée à partir de | |
| liste complète/ | données sur les pays | ||
| substantifs | membres des Nations unies | 356 noms | |
| Capitales | général | liste élaborée à partir de | |
| nationales | liste complète/ | données sur les pays | |
| substantifs | membres des Nations unies | 194 noms | |
| Habitants des | général | liste élaborée à partir de | |
| capitales | liste complète/ | données sur les pays | |
| substantifs | membres des Nations unies | 220 noms | |
| Total: 1117 mots distincts | |||