Les langages documentaires servent à décrire les documents. Lors d'une recherche documentaire, on est confronté à deux types de langages : le langage libre et les langages contrôlés.
On parle de langage libre si aucun langage spécifique n'est utilisé. On utilise alors des mots-clés. Ces termes sont extraits d'un titre, d'un résumé ou d'un texte. Ils font partie du langage naturel, libre, de tous les jours.
Avec un moteur de recherche sur Internet, on utilise des mots-clés. Lors d'une recherche avec des mots-clés, il faut envisager les différents synonymes pour un même sujet. Il faut aussi prévoir les différentes formes (singulier et pluriel par exemple) pour un même mot.
Lorsqu'un documentaliste identifie les concepts présents dans un document, il les transcrit dans un langage spécifique[49].
L'utilisateur qui identifiera les concepts relatifs à sa propre recherche, les traduira aussi dans un langage spécifique et les utilisera lors de sa recherche documentaire. Si l'indexeur et l'utilisateur utilisent les mêmes termes, ils identifieront le(s) même(s) document(s). Ils utilisent dès lors un langage commun, un langage documentaire contrôlé.
Il y a deux grandes classes de langages contrôlés : les langages d'indexation systématique ou de classification systématique (les plans de classement "matières")[50] et les langages d'indexation alphabétique (au moyen de descripteurs) utilisés pour la description. Pour la recherche documentaire, on utilise des descripteurs.
Un descripteur (uni-terme ou multi-termes) est choisi pour éviter toute ambiguïté de sens.
Sont dès lors évacués :
les synonymes (par exemple : MALARIA et PALUDISME) ;
les homographes (par exemple : PECHE (fruit) et PECHE (action de pêcher)).
Un descripteur est indépendant des autres descripteurs. Ce sera en général un substantif (INDEMNISATION plutôt que INDEMNISER) et sera, sauf exception, au singulier[51].
Un descripteur est toujours extrait d'une liste d'autorité établie à l'avance, de la simple liste alphabétique aux thésaurus avec relations hiérarchiques (termes généraux et termes spécifiques) et sémantiques (renvois réciproques entre un descripteur et un non-descripteur et renvois vers des termes associés, proches, dans une autre langue).
Suivant la base de données qui sera utilisée, il faudra utiliser des descripteurs ou des mots-clés pour la recherche documentaire.
Pour retrouver les différents termes (descripteurs ou mots-clés) associés à chacun des concepts de la question initiale, il faut utiliser un maximum d'outils.
Les outils les plus courants sont les dictionnaires et les encyclopédies (générales ou thématiques).
Les outils plus spécialisés sont les thésaurus, les lexiques, les manuels et les articles de synthèse sur le même sujet.
L'utilisation du portail Termsciences (portail terminologique multilingue) est une première démarche intéressante.
Un maximum de termes ou de combinaisons de termes représentatifs est nécessaire. Il ne faut pas nécessairement retenir des termes peu fréquents qui seront dès lors peu utilisés dans les bases de données.
Quelques thésaurus, en accès libre ou gratuit, à utiliser : l'Agrovoc (AGRIS) ou le thésaurus de l'Unesco, qui sont des thésaurus multilingues et le NAL Agricultural Thesaurus (USDA), CAB Thesaurus ou le MESH (le Medical Subject Headings de la NLM) qui sont uniquement en anglais.
Dans l'exemple, un dictionnaire en anglais, un dictionnaire en français et le thésaurus AGROVOC de la FAO ont été utilisés.
Tableau 8.3. Le vocabulaire pour le premier concept
Mots-clés EN |
solanaceae, potato, solanum tuberosum, tuber |
Mots-clés FR |
solanaceae, solanacée(s), pomme de terre, solanum, solanum tuberosum, tubercule |
Descripteurs AGROVOC |
Solanaceae, Potatoes, Solanum tuberosum, Pomme de terre, Tubers |
On obtient des termes qui sont des descripteurs et des termes qui sont des
mots-clés. Seuls les principaux termes sont conservés.
[49] De plus en plus de systèmes "intelligents" automatisent, avec plus ou moins de bonheur, le travail des documentalistes. De leur côté, les moteurs de recherche intègrent progressivement ces outils pour interpréter les requêtes des internautes.
[50] En bibliothèque, les classifications sont utilisées pour regrouper physiquement (dans les rayonnages) tous les documents relatifs à un sujet déterminé. Elles permettent de créer la cote de classement des documents. Ce type d'indexation était indispensable avec les fichiers imprimés, il l'est moins avec les outils informatisés. Quelques classifications encyclopédiques :
la classification numérique de DEWEY ;
la classification CDU (Classification Décimale Universelle de Otlet et Lafontaine) avec 9 classes numériques ;
la classification Library of Congress Subject Headings (LCSH) avec 21 classes alphanumériques ;
la classification numérique de la National Agriculture Library (NAL Classification Numbers) utilisée dans AGRICOLA.
[51] Le pluriel est employé si le sens est différent (DROIT et DROITS) ou si le terme n'existe pas au singulier (CONDITIONS ATMOSPHERIQUES).