Frantext 6, étude du voisinage d'un mot

Charles Bernet, Gisèle Kahn (ENS de Lyon)

Ce type de recherche peut se faire aussi bien sur la base non catégorisée que sur la base catégorisée. Accès <http://www.frantext.fr> puis lien Frantext intégral ou Frantext catégorisé.

1. Présentation

2. Le mot vin chez Baudelaire et Zola (contexte limité à une phrase)

3. Le mot coursier dans un corpus couvrant la période 1600-1850 (contexte limité à une phrase)

1. Présentation

La fonction "étude du voisinage d'un mot" est l'une des possibilités offertes dans Frantext pour faire des recherches de cooccurrences. Elle permet de répertorier les mots-formes qui apparaissent dans le même contexte qu'un mot donné (ou qu'une liste de mots) appelé pivot. La taille du contexte autour du pivot est paramétrable en précisant le nombre de mots ou de phrases placées en amont et en aval du pivot. Par défaut, le contexte est celui d'une phrase (qui correspond par convention à une séquence bornée par des ponctuations fortes). Le résultat de la requête est une liste de mots-formes accompagnés de leur fréquence.

Cette fonction trouve principalement son utilité dans des recherches thématiques ou stylistiques.

2. Le mot vin chez Baudelaire et Zola (contexte limité à une phrase)

Commande Étude de voisinage/Voisinage d'un mot.

On a procédé en deux temps dans Frantext intégral : étude sur un corpus contenant 3 œuvres de Baudelaire (Les Paradis artificiels, Petits poèmes en prose, Les Fleurs du Mal), puis sur un corpus contenant les 22 romans de Zola présents dans la base (la série des Rougon-Macquart, plus Thérèse Raquin et Madeleine Férat).

Les extraits des deux listes montrent que ce mot s'inscrit dans des univers lexicaux différents chez l'un et chez l'autre (univers des drogues et de leurs effets d'une part et conditions concrètes de la consommation d'alcool de l'autre). Les listes sont présentées ici par ordre décroissant des fréquences. Elles peuvent l'être également par ordre croissant des fréquences ou par ordre alphabétique des mots.

Baudelaire (3 textes)

Zola (22 textes)

Nombre d'occurrences du pivot : 79

Taille en occurrences des voisinages explorés : 2698

Nombre de graphies trouvées dans ces voisinages : 684

Nombre d'occurrences du pivot : 448

Taille en occurrences des voisinages explorés : 14630

Nombre de graphies trouvées dans ces voisinages : 2743

92 vin
19 homme
5 cœur
5 humanité
5 opium
5 plaisir
5 rend
4 Noé
4 article
4 bouteilles
4 ciel
4 double
4 effet
4 grand
4 hachish
4 idée
4 patriarche
4 personnalité
4 plein
4 soir
4 soleil
4 verre
3 buveurs

475 vin
58 marchand
51 verre
32 pain
28 boire
27 table
23 eau
22 blanc
22 bouteille
22 marchands
21 bon
20 rue
20 viande
18 fond
17 chaud
17 litres
16 bouteilles
16 verres
15 petit
15 yeux
14 argent
14 litre
14 milieu

La liste hiérarchique donne en tête le nombre d'occurrences du pivot (par exemple 79 occurrences du mot-forme vin chez Baudelaire) auquel est ajouté le nombre de contextes dans lesquels le mot vin apparaît plusieurs fois (d'où le nombre de 92 qui se trouve en tête de liste).

3. Le mot coursier dans un corpus couvrant la période 1600-1850 (contexte limité à une phrase)

Commande Étude de voisinage/Voisinage des mots d'une liste.

Une fois le corpus de travail défini, on réunit dans une liste les formes de coursier au singulier et au pluriel. L'examen des cooccurrents (char, fougueux, superbe, noble, fier, etc.) confirme que, dans la tranche chronologique considérée, ce mot est essentiellement employé comme un équivalent de cheval dans la langue de la poésie.

Corpus 1600-1850 (1652 textes)

Nombre d'occurrences du pivot : 680

Taille en occurrences des voisinages explorés : 24916

Nombre de graphies trouvées dans ces voisinages : 4725

428 coursier
269 coursiers
43 char
43 main
37 terre
32 fougueux
32 frein
32 superbe
26 flancs
26 sang
26 voix
25 homme
24 bruit
24 cheval
22 jeune
22 ton
22 tête
21 noble
20 chars
20 fier
20 rapide
19 acier
19 beau
19 pied
19 seul
18 coeur
18 temps
17 chevaux
17 coup
17 grand
17 pieds
17 vents

 

[Article mis à jour par Frédéric Weiss. Les données quantitatives correspondent à l'état de la base en octobre 2015.]