Centre d'ingénierie documentaire

Vous êtes ici : Aide au chercheur

Frantext 2, recherches par listes de mots

Charles Bernet, Gisèle Kahn (ENS de Lyon)

Ce type de recherche peut se faire aussi bien sur la base non catégorisée que sur la base catégorisée. Accès <http://www.frantext.fr> puis lien Frantext intégral ou Frantext catégorisé.

Dans le menu Listes de mots, trois modes de création de liste sont proposés :

1. Création manuelle d'une liste

2. Création d'une liste par flexion d'un lemme

3. Création d'une liste à partir des mots du corpus de travail

Dans les exemples présentés, le corpus de travail par défaut correspond à l'ensemble de la base. Les recherches sont effectuées à l'aide du formulaire Recherche dans les textes/Recherche par mots ou séquence, option expression de séquence activée.

1. Création manuelle d'une liste

Commande Listes de mots/Création manuelle.

1. 1. Recherche à caractère grammatical

Soit la création de la liste de tous les pronoms sujets (je, j', tu, il, elle, on, nous, vous, ils, elles), que l'on pourra ensuite associer à tous les verbes possibles. La liste faite, il faut la nommer et la sauvegarder (par exemple, pronoms) ; après quoi on peut l'utiliser pour une requête particulière, qui se formule sur le modèle suivant : &lpronoms &cgésir

  • Pendant que le château, le faubourg et la Chaussée d'Antin s'entretenaient du naufrage de cette aristocratique vertu ; que d'empressés jeunes gens couraient à cheval s'assurer, en voyant la voiture dans la rue de Seine, que la duchesse était bien réellement chez M. de Montriveau, elle gisait palpitante au fond de son boudoir. (Balzac, La Duchesse de Langeais)
  • J'étais baisé par des crocodiles aux baisers cancéreux ; et je gisais, confondu avec une foule de choses inexprimables et visqueuses, parmi les boues et les roseaux du Nil. (Baudelaire, Les Paradis artificiels)
  • Et dans le lit où il gisoit, les genoux de l'homme blême se choquèrent, et sa bouche s'entr'ouvrit de terreur, et ses yeux se dilatèrent horriblement. (Lamennais, Les Paroles d'un croyant)

1. 2. Recherche à caractère thématique

Sur le même principe, on peut créer une liste de formes sur un thème donné.

Prenons, à titre d'exemple, le thème du sommeil. On crée une liste avec les 7 mots suivants : sommeil, bruit, silence, nuit, dormir, sommeiller, coucher. On sauvegarde la liste sous le nom de sommeil. On peut la relire, la modifier, la renommer. Et on peut l'appliquer à Du côté de chez Swann, par exemple.

La requête se rédige comme suit : &lsommeil. On obtient en l'occurrence une liste de 174 résultats, présentés dans l'ordre chronologique du texte. Certains ne sont en fait pas directement liés au thème du sommeil, d'autres le sont :

  • A Combray, tous les jours dès la fin de l'après-midi, longtemps avant le moment où il faudrait me mettre au lit et rester, sans dormir, loin de ma mère et de ma grand'mère, ma chambre à coucher redevenait le point fixe et douloureux de mes préoccupations. (p. 9)
  • Voyons, puisque tu n'as pas sommeil ni ta maman non plus, ne restons pas à nous énerver, faisons quelque chose, prenons un de tes livres. (p. 39)
  • De l'escalier j'entendis un rire et une voix de femme, et dès que j'eus sonné, un silence, puis le bruit de portes qu'on fermait. (p. 75)
  • […] ce sont ces prairies où, quand le soleil les rend réfléchissantes comme une mare, se dessinent les feuilles des pommiers, c'est ce paysage dont parfois, la nuit dans mes rêves, l'individualité m'étreint avec une puissance presque fantastique et que je ne peux plus retrouver au réveil. (p. 185)

On pourra affiner sa recherche à partir des premières occurrences trouvées, en ajoutant des mots à sa liste ou en en retranchant. On peut appliquer la liste à un autre texte, ou à un autre auteur. On peut également obtenir la fréquence des mots de la liste sommeil dans Swann à l'aide de la commande Calculs de fréquences/Fréquence des mots d'une liste :

bruit 24, coucher 36, dormir 11, nuit 57, silence 29, sommeil 17, sommeiller 0

Noter que, dans une liste de ce type, on peut saisir des éléments lemmatisés. Par exemple, &mbruit vaudra pour bruit et bruits, &cdormir pour toutes les formes du verbe dormir.

2. Création d'une liste par flexion d'un lemme

Commande Listes de mots/Création par flexion d'un lemme.

Cette opération consiste à faire produire par le logiciel de Frantext la liste des formes correspondant à un verbe, ou un substantif, ou un adjectif. Si on entre beau, le logiciel produira : beau, beaux, bel, belle, belles. Les listes établies par le logiciel pour les formes verbales comportent des graphies anciennes, ce qui n'est pas le cas des substantifs et des adjectifs. A titre d'exemple, voici un extrait de la liste des formes pour le verbe connaître (qui comporte 182 graphies) : connaissoi, connaissoie, connaissoient, connaissoy, connaissoye, connaissoyent, connaissoï, connaissoïe, connaissoïent, connaistre… Ces listes sont constituées à partir de données tirées de grammaires ; on peut donc y trouver des formes qui ne sont pas nécessairement attestées dans les textes.

Quelques sondages dans des textes du XVIe siècle donnent un aperçu de la diversité des graphies du verbe connaître, entre autres :

  • Ceulx qui le connoyssoyent luy disoyent en riant : Or ça, maistre Arnaud, vous irez en Lorraine quand vous aurez un cheval […] (Des Périers, Les Nouvelles récréations…)
  • Pourquoy, me connoissant, me suis-je laissé prendre / Aux rets d'une beauté que je ne puis pretendre ? (Garnier, Bradamante)
  • Si nous en connoissions l'horreur et le poids, nous le poursuivrions à feu plus justement que d'autres crimes. (Montaigne, Essais)

Pour visualiser une liste, en modifier le contenu, la renommer ou la sauvegarder sur son ordinateur, utiliser la commande Listes de mots/Gestion des listes.

3. Création d'une liste à partir des mots du corpus de travail

Commande Listes de mots/Création à partir du corpus de travail.

On peut chercher par ce moyen, dans un corpus particulier, toutes les formes comportant une séquence de caractères donnés, par exemple, tous les mots qui se terminent en -isme, ou ceux qui commencent par révolut-. Syntaxe : .*isme ou révolut.* (le point est un joker qui remplace un caractère quelconque, l'astérisque est un opérateur qui indique que ce qui précède est répété de zéro à n fois). On peut combiner les recherches sur les préfixes et les suffixes. Ainsi, si on veut obtenir une série avec coexistence, préexistence…, on écrit : .*exist.*

En la matière, la syntaxe est celle des expressions régulières dans les langages formels.

On peut, par exemple, créer la liste des mots qui se terminent par -isme dans les textes de 1750 à 1810. On crée le corpus à l'intérieur de ces bornes chronologiques et on crée la liste selon la troncature indiquée ci-dessus. On la nomme (un seul mot, par exemple isme). On obtient une liste de 215 graphies, et on peut appeler les occurrences de tous les éléments de la liste ainsi créée, sur le corpus lui-même, ou sur un autre, avec la formule &lisme :

  • Je n'aimons pas non plus que ces abbés faisiont le catéchisme à nos filles […] (Cahier des plaintes et doléances des Dames de la halle et des marchés de Paris…, 1790)
  • La langue des gestes n'est déja pas trop claire, sans augmenter encore son laconisme par l'usage de cette figure. (Diderot, Lettre sur les sourds et muets à l'usage de ceux qui entendent et qui parlent)
  • C'est donc manquer de patriotisme que de faire de trop beaux vers dans certaines occasions. (Rivarol, Petit almanach des grands hommes)
  • […] j'ai prouvé que la cour étant en guerre avec le peuple et l'assemblée nationale, il falloit saisir cette occasion de terrasser le despotisme par la force de l'opinion publique et par l'indignation du peuple, disposé à seconder l'énergie de ses représentans […] (Robespierre, Discours)

Il faut retenir que dans les recherches de ce type, le "ou" exclusif, lorsqu'il ne porte que sur un seul caractère, peut être marqué par des crochets. Par exemple : f[ao]ible.* dans une requête sur des textes du XVIIe ou du XVIIIe siècle permet d'obtenir la série foible, faible, faiblement, foiblement, foiblesse, faiblesse… On peut aussi essayer avec : conn[ao].*

En revanche, lorsque l'alternance porte sur une séquence de caractères, le "ou" exclusif est marqué par la barre verticale : inéga(l|le|les|ux).

Si on veut exclure certaines formes au sein d'une requête de ce type, on utilise la syntaxe suivante : .*f[ao]ibl[^e].*. Cette requête permet d'avoir une liste comportant des termes tels que affoibli, affaiblir, faiblir, affaiblissement, affoiblissement, etc., à l'exclusion de faible, foible, faiblement, foiblement, etc.

D'autres formulations syntaxiques existent. La possibilité du redoublement d'un caractère est marqué par le signe + placé après le caractère en question. Un caractère peut être désigné comme facultatif par le point d'interrogation placé après lui. Ainsi l'exemple : ac+ous?tum.* se lit de la façon suivante : je cherche toutes les formes du verbe accoutumer et les mots de la même famille, comportant un ou deux "c", et éventuellement un "s" avant le "t". Exemples : accoustumé, acoustumance, accoustumance, acoutumer, accoutumer, etc. Dans ce cas de figure particulier, on rencontre certaines formes qui ne sont pas proposées par la liste des mots obtenus par la fonction "flexion d'un lemme" (cf. supra) : accoustumme, accoutumérent, accoutumerent, acoutumee… Cet exemple met en évidence la différence entre listes de formes théoriques, dans lesquelles les graphies sont peu ou prou normalisées, et listes de formes réellement attestées.

Rappelons que les listes créées pour la session en cours ne sont pas conservées sur le site. Mais l'utilisateur peut les rapatrier comme évoqué ci-dessus ou les copier-coller dans le bloc-notes de Windows par exemple.

 

[Article mis à jour par Frédéric Weiss. Les données quantitatives correspondent à l'état de la base en octobre 2015.]

Contacts

Centre d'ingénierie documentaire
École normale supérieure de Lyon
15 parvis René-Descartes
BP 7000
69342 Lyon Cedex 07

Tél. (+33) 4 37 37 60 00

Nous contacter par courriel : formations-cid