Frantext 2, recherches par listes de mots
Charles Bernet, Gisèle Kahn (ENS de Lyon)
Ce type de recherche peut se faire aussi bien sur la base non catégorisée que sur la base catégorisée. Accès : http://www.frantext.fr/ (puis lien Frantext intégral ou Frantext catégorisé).
Dans le menu « Listes de mots », trois types de création de liste sont proposés.
1. Création manuelle d'une liste
2. Création d'une liste par flexion d'un lemme
3. Création d'une liste à partir des mots d'un corpus de travail
Dans les exemples présentés, le corpus de travail correspond à l'ensemble de la base (option Sélectionner tous les textes).
1. Création manuelle d'une liste
Commande Listes de mots/Création manuelle d'une liste.
1. 1. Recherche à caractère grammatical
Soit la création de la liste de tous les pronoms sujets (je, tu, il, elle, on, nous, vous, ils, elles), que l'on pourra ensuite associer à tous les verbes possibles. La liste faite, il faut la nommer et la sauvegarder (par exemple, pronoms) ; après quoi on peut l'utiliser pour une requête particulière, qui se formule sur le modèle suivant : &lpronoms &cgésir [1].
- Et dans le lit où il gisoit, les genoux de l'homme blême se choquèrent […] (Lamennais)
- […] elle gisait palpitante au fond de son boudoir. (Balzac)
- […] et je gisais, confondu avec une foule de choses inexprimables et visqueuses […] (Baudelaire)
1. 2. Recherche à caractère thématique
Sur le même principe, on peut créer une liste de formes sur un thème donné.
Prenons, à titre d'exemple, le thème du sommeil. On crée une liste avec les 7 mots suivants : sommeil, bruit, silence, nuit, dormir, sommeiller, coucher. Dans une liste de ce type, on ne peut pas utiliser d'éléments lemmatisés, ni de jokers. Il faut donc entrer une par une toutes les formes recherchées. On sauvegarde la liste sous le nom de sommeil. On peut la relire, la modifier, la renommer. Et on peut l'appliquer à Du côté de chez Swann, par exemple.
La requête se rédige comme suit : &lsommeil. On obtient en l'occurrence une liste de 174 résultats, présentés dans l'ordre chronologique du texte. Certains ne sont en fait pas directement liés au thème du sommeil, d'autres le sont :
- A Combray, tous les jours dès la fin de l'après-midi, longtemps avant le moment où il faudrait me mettre au lit et rester, sans dormir, loin de ma mère et de ma grand'mère, ma chambre à coucher redevenait le point fixe et douloureux de mes préoccupations. (p. 9)
- Voyons, puisque tu n'as pas sommeil ni ta maman non plus, ne restons pas à nous énerver, faisons quelque chose, prenons un de tes livres. (p. 39)
- […] ce sont ces prairies où, quand le soleil les rend réfléchissantes comme une mare, se dessinent les feuilles des pommiers, c'est ce paysage dont parfois, la nuit dans mes rêves, l'individualité m'étreint avec une puissance presque fantastique et que je ne peux plus retrouver au réveil. (p. 185)
- De l'escalier j'entendis un rire et une voix de femme, et dès que j'eus sonné, un silence, puis le bruit de portes qu'on fermait. (p. 75)
On pourra affiner sa recherche à partir des premières occurrences trouvées, en ajoutant des mots à sa liste ou en en retranchant. On peut également appliquer la liste à un autre texte, ou à un autre auteur.
On peut également obtenir la fréquence des mots pour les 174 occurrences de la liste sommeil dans Swann à l'aide de la commande Calculs de fréquences/Fréquence des mots d'une liste (ou onglet Fréquence liste) :
bruit 24, coucher 36, dormir 11, nuit 57, silence 29, sommeil 17, sommeiller 0.
2. Création d'une liste par flexion d'un lemme
Commande Listes de mots/Création d'une liste par flexion d'un lemme.
Cette opération consiste à faire produire par le logiciel de Frantext la liste des formes correspondant à un verbe, ou un substantif, ou un adjectif. Si on entre beau, le logiciel produira : beau, beaux, bel, belle, belles. Les listes établies par le logiciel pour les formes verbales comportent des graphies anciennes, ce qui n'est pas le cas des substantifs et des adjectifs. A titre d'exemple, voici un extrait de la liste des formes pour le verbe connaître (qui comporte 182 graphies) : connaissoi, connaissoie, connaissoient, connaissois, connaissoit, connaissoy, connaissoye, connaissoyent, connaissoï, connaissoïe, connaistre. Ces listes sont constituées à partir de données tirées de grammaires ; on peut donc y trouver des formes qui ne sont pas nécessairement attestées dans les textes. On peut ensuite utiliser ces listes pour des recherches particulières.
Pour visualiser une liste, en modifier le contenu, la renommer ou la sauvegarder sur son ordinateur, utiliser la commande Listes de mots/Édition des listes existantes.
Quelques sondages dans des textes du XVIe siècle donnent un aperçu de la diversité des graphies du verbe connaître, entre autres :
- Si nous en connoissions l'horreur et le poids, nous le poursuivrions à feu plus justement que d'autres crimes. (Montaigne)
- Pourquoy, me connoissant, me suis-je laissé prendre / Aux rets d'une beauté que je ne puis pretendre ? (Garnier)
- Ceulx qui le connoyssoyent luy disoyent en riant : Or ça, maistre Arnaud, vous irez en Lorraine quand vous aurez un cheval […] (Des Périers)
3. Création d'une liste à partir des mots d'un corpus de travail
Commande Listes de mots/Création d'une liste à partir des mots du corpus de travail.
On peut chercher par ce moyen dans un corpus particulier toutes les formes comportant une séquence de caractères donnés, par exemple, tous les mots qui se terminent en -isme, ou les mots qui commencent par révolut-. Syntaxe : .*isme ou bien révolut.* (le point est un joker qui remplace un caractère, l'astérisque est un opérateur qui indique que ce qui précède est répété de zéro à n fois). On peut combiner les recherches sur les préfixes et les suffixes. Ainsi, si on veut obtenir une série avec coexistence, préexistence…, on écrit : .*exist.*
En la matière, la syntaxe est celle des expressions régulières dans les langages formels.
On peut, par exemple, créer la liste des mots qui se terminent par -isme dans les textes de 1750 à 1810. On crée le corpus à l'intérieur de ces bornes chronologiques et on crée la liste selon les troncatures indiquées ci-dessus. On la nomme (un seul mot, par exemple mots-en-isme). On obtient une liste de 215 graphies, et on peut appeler les occurrences de tous les éléments de la liste ainsi créée, sur le corpus lui-même, ou sur un autre avec la formule &lmots-en-isme :
- La langue des gestes n'est déja pas trop claire, sans augmenter encore son laconisme par l'usage de cette figure. (Diderot)
- C'est donc manquer de patriotisme que de faire de trop beaux vers dans certaines occasions. (Rivarol)
- Je n'aimons pas non plus que ces abbés faisiont le catéchisme à nos filles […] (Cahier des plaintes et doléances des Dames de la halle et des marchés de Paris…, 1790)
- […] j'ai prouvé que la cour étant en guerre avec le peuple et l'assemblée nationale, il falloit saisir cette occasion de terrasser le despotisme par la force de l'opinion publique et par l'indignation du peuple […] (Robespierre)
Il faut retenir que dans les recherches de ce type, le "ou" exclusif, lorsqu'il ne porte que sur un seul caractère, peut être marqué par des crochets carrés. Par exemple : f[ao]ible.* dans une requête sur des textes du XVIIe ou du XVIIIe siècle permet d'obtenir la série foible, faible, faiblement, foiblement, foiblesse, faiblesse… On peut aussi essayer avec : conn[ao].*
En revanche, lorsque l'alternance porte sur une séquence de caractères, le "ou" exclusif est marqué par la barre verticale : inéga(l|le|les|ux).
Si on veut exclure certaines formes au sein d'une requête de ce type, on utilise la syntaxe suivante : .*f[ao]ibl[^e].*. Cette requête permet d'avoir une liste comportant des termes tels que affoibli, affaiblir, faiblir, affaiblissement, affoiblissement, etc., à l'exclusion de faible ou foible, faiblement, foiblement, etc.
D'autres formulations syntaxiques existent. La possibilité du redoublement d'un caractère est marqué par le signe + placé après le caractère en question. Un caractère peut être désigné comme facultatif par le point d'interrogation placé après lui. Ainsi l'exemple : ac+ous?tum.* se lit de la façon suivante : je cherche toutes les formes du verbe accoutumer et les mots de la même famille, comportant un ou deux c, et éventuellement un s avant le t. Exemples : accoustumé, acoustumance, accoustumance, acoutumer, accoutumer, etc. Dans ce cas de figure particulier, on rencontre certaines formes qui ne sont pas proposées par la liste des mots obtenus par la fonction "flexion d'un mot donné" (cf. supra) : accoustumme, accoutumérent, accoutumerent, acoutumee… Cet exemple met en évidence la différence entre listes de formes théoriques, dans lesquelles les graphies sont peu ou prou normalisées, et listes de formes réellement attestées.
Rappelons que les listes créées pour la session en cours ne sont pas conservées sur le site. Mais l'utilisateur peut les rapatrier comme évoqué ci-dessus ou les copier-coller dans le bloc-notes de Windows par exemple.
N.B. Tous les exemples présentés dans ce document correspondent à l'état de la base en avril 2013.
[1] Pour tous les exemples traités dans ce document : commande Recherche dans les textes/Recherche simple, option texte exact ou expression de séquence.