Frantext 2, recherches par listes de mots

Charles Bernet, Gisèle Kahn (ENS de Lyon)

Ce type de recherche peut se faire aussi bien sur la base non catégorisée que sur la base catégorisée. Accès <http://www.frantext.fr> puis lien Frantext intégral ou Frantext catégorisé.

Dans le menu Listes de mots, trois modes de création de liste sont proposés :

1. Création manuelle d'une liste

2. Création d'une liste par flexion d'un lemme

3. Création d'une liste à partir des mots du corpus de travail

Dans les exemples présentés, le corpus de travail par défaut correspond à l'ensemble de la base. Les recherches sont effectuées à l'aide du formulaire Recherche dans les textes/Recherche par mots ou séquence, option expression de séquence activée.

1. Création manuelle d'une liste

Commande Listes de mots/Création manuelle.

1. 1. Recherche à caractère grammatical

Soit la création de la liste de tous les pronoms sujets (je, j', tu, il, elle, on, nous, vous, ils, elles), que l'on pourra ensuite associer à tous les verbes possibles. La liste faite, il faut la nommer et la sauvegarder (par exemple, pronoms) ; après quoi on peut l'utiliser pour une requête particulière, qui se formule sur le modèle suivant : &lpronoms &cgésir

1. 2. Recherche à caractère thématique

Sur le même principe, on peut créer une liste de formes sur un thème donné.

Prenons, à titre d'exemple, le thème du sommeil. On crée une liste avec les 7 mots suivants : sommeil, bruit, silence, nuit, dormir, sommeiller, coucher. On sauvegarde la liste sous le nom de sommeil. On peut la relire, la modifier, la renommer. Et on peut l'appliquer à Du côté de chez Swann, par exemple.

La requête se rédige comme suit : &lsommeil. On obtient en l'occurrence une liste de 174 résultats, présentés dans l'ordre chronologique du texte. Certains ne sont en fait pas directement liés au thème du sommeil, d'autres le sont :

On pourra affiner sa recherche à partir des premières occurrences trouvées, en ajoutant des mots à sa liste ou en en retranchant. On peut appliquer la liste à un autre texte, ou à un autre auteur. On peut également obtenir la fréquence des mots de la liste sommeil dans Swann à l'aide de la commande Calculs de fréquences/Fréquence des mots d'une liste :

bruit 24, coucher 36, dormir 11, nuit 57, silence 29, sommeil 17, sommeiller 0

Noter que, dans une liste de ce type, on peut saisir des éléments lemmatisés. Par exemple, &mbruit vaudra pour bruit et bruits, &cdormir pour toutes les formes du verbe dormir.

2. Création d'une liste par flexion d'un lemme

Commande Listes de mots/Création par flexion d'un lemme.

Cette opération consiste à faire produire par le logiciel de Frantext la liste des formes correspondant à un verbe, ou un substantif, ou un adjectif. Si on entre beau, le logiciel produira : beau, beaux, bel, belle, belles. Les listes établies par le logiciel pour les formes verbales comportent des graphies anciennes, ce qui n'est pas le cas des substantifs et des adjectifs. A titre d'exemple, voici un extrait de la liste des formes pour le verbe connaître (qui comporte 182 graphies) : connaissoi, connaissoie, connaissoient, connaissoy, connaissoye, connaissoyent, connaissoï, connaissoïe, connaissoïent, connaistre… Ces listes sont constituées à partir de données tirées de grammaires ; on peut donc y trouver des formes qui ne sont pas nécessairement attestées dans les textes.

Quelques sondages dans des textes du XVIe siècle donnent un aperçu de la diversité des graphies du verbe connaître, entre autres :

Pour visualiser une liste, en modifier le contenu, la renommer ou la sauvegarder sur son ordinateur, utiliser la commande Listes de mots/Gestion des listes.

3. Création d'une liste à partir des mots du corpus de travail

Commande Listes de mots/Création à partir du corpus de travail.

On peut chercher par ce moyen, dans un corpus particulier, toutes les formes comportant une séquence de caractères donnés, par exemple, tous les mots qui se terminent en -isme, ou ceux qui commencent par révolut-. Syntaxe : .*isme ou révolut.* (le point est un joker qui remplace un caractère quelconque, l'astérisque est un opérateur qui indique que ce qui précède est répété de zéro à n fois). On peut combiner les recherches sur les préfixes et les suffixes. Ainsi, si on veut obtenir une série avec coexistence, préexistence…, on écrit : .*exist.*

En la matière, la syntaxe est celle des expressions régulières dans les langages formels.

On peut, par exemple, créer la liste des mots qui se terminent par -isme dans les textes de 1750 à 1810. On crée le corpus à l'intérieur de ces bornes chronologiques et on crée la liste selon la troncature indiquée ci-dessus. On la nomme (un seul mot, par exemple isme). On obtient une liste de 215 graphies, et on peut appeler les occurrences de tous les éléments de la liste ainsi créée, sur le corpus lui-même, ou sur un autre, avec la formule &lisme :

Il faut retenir que dans les recherches de ce type, le "ou" exclusif, lorsqu'il ne porte que sur un seul caractère, peut être marqué par des crochets. Par exemple : f[ao]ible.* dans une requête sur des textes du XVIIe ou du XVIIIe siècle permet d'obtenir la série foible, faible, faiblement, foiblement, foiblesse, faiblesse… On peut aussi essayer avec : conn[ao].*

En revanche, lorsque l'alternance porte sur une séquence de caractères, le "ou" exclusif est marqué par la barre verticale : inéga(l|le|les|ux).

Si on veut exclure certaines formes au sein d'une requête de ce type, on utilise la syntaxe suivante : .*f[ao]ibl[^e].*. Cette requête permet d'avoir une liste comportant des termes tels que affoibli, affaiblir, faiblir, affaiblissement, affoiblissement, etc., à l'exclusion de faible, foible, faiblement, foiblement, etc.

D'autres formulations syntaxiques existent. La possibilité du redoublement d'un caractère est marqué par le signe + placé après le caractère en question. Un caractère peut être désigné comme facultatif par le point d'interrogation placé après lui. Ainsi l'exemple : ac+ous?tum.* se lit de la façon suivante : je cherche toutes les formes du verbe accoutumer et les mots de la même famille, comportant un ou deux "c", et éventuellement un "s" avant le "t". Exemples : accoustumé, acoustumance, accoustumance, acoutumer, accoutumer, etc. Dans ce cas de figure particulier, on rencontre certaines formes qui ne sont pas proposées par la liste des mots obtenus par la fonction "flexion d'un lemme" (cf. supra) : accoustumme, accoutumérent, accoutumerent, acoutumee… Cet exemple met en évidence la différence entre listes de formes théoriques, dans lesquelles les graphies sont peu ou prou normalisées, et listes de formes réellement attestées.

Rappelons que les listes créées pour la session en cours ne sont pas conservées sur le site. Mais l'utilisateur peut les rapatrier comme évoqué ci-dessus ou les copier-coller dans le bloc-notes de Windows par exemple.

 

[Article mis à jour par Frédéric Weiss. Les données quantitatives correspondent à l'état de la base en octobre 2015.]