Frantext 2, recherches par listes de mots

Charles Bernet, Gisèle Kahn (ENS de Lyon)

Ce type de recherche peut se faire aussi bien sur la base non catégorisée que sur la base catégorisée. Accès : http://www.frantext.fr/ (puis lien Frantext intégral ou Frantext catégorisé).

Dans le menu « Listes de mots », trois types de création de liste sont proposés.

1. Création manuelle d'une liste

2. Création d'une liste par flexion d'un lemme

3. Création d'une liste à partir des mots d'un corpus de travail

 

Dans les exemples présentés, le corpus de travail correspond à l'ensemble de la base (option Sélectionner tous les textes).

1. Création manuelle d'une liste

Commande Listes de mots/Création manuelle d'une liste.

1. 1. Recherche à caractère grammatical

Soit la création de la liste de tous les pronoms sujets (je, tu, il, elle, on, nous, vous, ils, elles), que l'on pourra ensuite associer à tous les verbes possibles. La liste faite, il faut la nommer et la sauvegarder (par exemple, pronoms) ; après quoi on peut l'utiliser pour une requête particulière, qui se formule sur le modèle suivant : &lpronoms &cgésir [1].

1. 2. Recherche à caractère thématique

Sur le même principe, on peut créer une liste de formes sur un thème donné.

Prenons, à titre d'exemple, le thème du sommeil. On crée une liste avec les 7 mots suivants : sommeil, bruit, silence, nuit, dormir, sommeiller, coucher. Dans une liste de ce type, on ne peut pas utiliser d'éléments lemmatisés, ni de jokers. Il faut donc entrer une par une toutes les formes recherchées. On sauvegarde la liste sous le nom de sommeil. On peut la relire, la modifier, la renommer. Et on peut l'appliquer à Du côté de chez Swann, par exemple.

La requête se rédige comme suit : &lsommeil. On obtient en l'occurrence une liste de 174 résultats, présentés dans l'ordre chronologique du texte. Certains ne sont en fait pas directement liés au thème du sommeil, d'autres le sont :

On pourra affiner sa recherche à partir des premières occurrences trouvées, en ajoutant des mots à sa liste ou en en retranchant. On peut également appliquer la liste à un autre texte, ou à un autre auteur.

On peut également obtenir la fréquence des mots pour les 174 occurrences de la liste sommeil dans Swann à l'aide de la commande Calculs de fréquences/Fréquence des mots d'une liste (ou onglet Fréquence liste) :

bruit 24, coucher 36, dormir 11, nuit 57, silence 29, sommeil 17, sommeiller 0.

2. Création d'une liste par flexion d'un lemme

Commande Listes de mots/Création d'une liste par flexion d'un lemme.

Cette opération consiste à faire produire par le logiciel de Frantext la liste des formes correspondant à un verbe, ou un substantif, ou un adjectif. Si on entre beau, le logiciel produira : beau, beaux, bel, belle, belles. Les listes établies par le logiciel pour les formes verbales comportent des graphies anciennes, ce qui n'est pas le cas des substantifs et des adjectifs. A titre d'exemple, voici un extrait de la liste des formes pour le verbe connaître (qui comporte 182 graphies) : connaissoi, connaissoie, connaissoient, connaissois, connaissoit, connaissoy, connaissoye, connaissoyent, connaissoï, connaissoïe, connaistre. Ces listes sont constituées à partir de données tirées de grammaires ; on peut donc y trouver des formes qui ne sont pas nécessairement attestées dans les textes. On peut ensuite utiliser ces listes pour des recherches particulières.

Pour visualiser une liste, en modifier le contenu, la renommer ou la sauvegarder sur son ordinateur, utiliser la commande Listes de mots/Édition des listes existantes.

Quelques sondages dans des textes du XVIe siècle donnent un aperçu de la diversité des graphies du verbe connaître, entre autres :

3. Création d'une liste à partir des mots d'un corpus de travail

Commande Listes de mots/Création d'une liste à partir des mots du corpus de travail.

On peut chercher par ce moyen dans un corpus particulier toutes les formes comportant une séquence de caractères donnés, par exemple, tous les mots qui se terminent en -isme, ou les mots qui commencent par révolut-. Syntaxe : .*isme ou bien révolut.* (le point est un joker qui remplace un caractère, l'astérisque est un opérateur qui indique que ce qui précède est répété de zéro à n fois). On peut combiner les recherches sur les préfixes et les suffixes. Ainsi, si on veut obtenir une série avec coexistence, préexistence…, on écrit : .*exist.*

En la matière, la syntaxe est celle des expressions régulières dans les langages formels.

On peut, par exemple, créer la liste des mots qui se terminent par -isme dans les textes de 1750 à 1810. On crée le corpus à l'intérieur de ces bornes chronologiques et on crée la liste selon les troncatures indiquées ci-dessus. On la nomme (un seul mot, par exemple mots-en-isme). On obtient une liste de 215 graphies, et on peut appeler les occurrences de tous les éléments de la liste ainsi créée, sur le corpus lui-même, ou sur un autre avec la formule &lmots-en-isme :

Il faut retenir que dans les recherches de ce type, le "ou" exclusif, lorsqu'il ne porte que sur un seul caractère, peut être marqué par des crochets carrés. Par exemple : f[ao]ible.* dans une requête sur des textes du XVIIe ou du XVIIIe siècle permet d'obtenir la série foible, faible, faiblement, foiblement, foiblesse, faiblesse… On peut aussi essayer avec : conn[ao].*

En revanche, lorsque l'alternance porte sur une séquence de caractères, le "ou" exclusif est marqué par la barre verticale : inéga(l|le|les|ux).

Si on veut exclure certaines formes au sein d'une requête de ce type, on utilise la syntaxe suivante : .*f[ao]ibl[^e].*. Cette requête permet d'avoir une liste comportant des termes tels que affoibli, affaiblir, faiblir, affaiblissement, affoiblissement, etc., à l'exclusion de faible ou foible, faiblement, foiblement, etc.

D'autres formulations syntaxiques existent. La possibilité du redoublement d'un caractère est marqué par le signe + placé après le caractère en question. Un caractère peut être désigné comme facultatif par le point d'interrogation placé après lui. Ainsi l'exemple : ac+ous?tum.* se lit de la façon suivante : je cherche toutes les formes du verbe accoutumer et les mots de la même famille, comportant un ou deux c, et éventuellement un s avant le t. Exemples : accoustumé, acoustumance, accoustumance, acoutumer, accoutumer, etc. Dans ce cas de figure particulier, on rencontre certaines formes qui ne sont pas proposées par la liste des mots obtenus par la fonction "flexion d'un mot donné" (cf. supra) : accoustumme, accoutumérent, accoutumerent, acoutumee… Cet exemple met en évidence la différence entre listes de formes théoriques, dans lesquelles les graphies sont peu ou prou normalisées, et listes de formes réellement attestées.

Rappelons que les listes créées pour la session en cours ne sont pas conservées sur le site. Mais l'utilisateur peut les rapatrier comme évoqué ci-dessus ou les copier-coller dans le bloc-notes de Windows par exemple.

 

N.B. Tous les exemples présentés dans ce document correspondent à l'état de la base en avril 2013.


[1] Pour tous les exemples traités dans ce document : commande Recherche dans les textes/Recherche simple, option texte exact ou expression de séquence.