Frantext 7, calculs de fréquence

Charles Bernet, Gisèle Kahn (ENS de Lyon)

Ce type de recherche peut se faire aussi bien sur la base non catégorisée que sur la base catégorisée. Accès <http://www.frantext.fr> puis lien Frantext intégral ou Frantext catégorisé.

1. Présentation

2. L'évolution chronologique du mot dedans du XVIe au XXe siècle

3. Le mot révolution dans l'ensemble de la base (répartition auteur par auteur)

1. Présentation

Dans le menu de Frantext, à la rubrique Calculs de fréquence, sont groupés plusieurs types de commandes portant sur la fréquence des mots dans un corpus donné :

les fonctions Fréquence d'un mot ou Fréquence des mots d'une liste donnent la fréquence d'un mot-forme ou d'une liste de mots-formes ;

la fonction Fréquence des mots du corpus de travail permet d'obtenir des informations quantitatives sur un groupe de mots-formes généré au moyen d'une expression régulière – principe similaire à la création d'une liste à partir des mots du corpus de travail (cf. article Frantext 2, recherches par listes de mots, section 3) ;

les fonctions Distribution de fréquences d'un mot ou Distribution de fréquences d'une liste donnent des informations quantifiées, à l'intérieur du corpus de travail, auteur par auteur, référence par référence (une référence correspondant, selon les cas, à une œuvre ou à une partie d'œuvre) ou par tranche chronologique.

C'est cette fonction de distribution qui est illustrée ici.

2. L'évolution chronologique du mot dedans du XVIe au XXe siècle

Commande Calculs de fréquence/Distribution de fréquences d'un mot.

Cet exemple porte sur la quasi-totalité de la base et met en évidence la décroissance relative de dedans depuis le milieu du XVIe siècle. En français préclassique et classique, dedans était fréquemment attesté dans des emplois prépositionnels qui sont aujourd'hui ceux de dans. Par exemple :

Le formulaire d'étude d'un mot donne les indications suivantes : le mot à étudier ; le calcul des fréquences relatives ou absolues ; les spécifications de la requête (étude par auteur, par référence ou par tranche de temps, et tri des résultats).

Les fréquences absolues correspondent aux effectifs observés dans le corpus de travail et les fréquences relatives à des effectifs calculés de manière à permettre une comparaison immédiate en neutralisant les effets de la longueur des textes ou ensembles de textes étudiés.

Résultat du calcul de fréquences

Objet de l'étude

Textes entre les années 1500 et 2000.

Etude de la fréquence du mot "dedans".

Fréquences relatives (exprimées en millionièmes).

Etude par tranches de temps de 25 années.

Résultats triés par ordre chronologique.

Diagramme des fréquences relatives

Fréquence absolue totale : 21095

Fréquence relative maximale : 586 dans la tranche 1500-1524 [1]

Echelle : un astérisque représente une fréquence relative de 20 millionièmes.

Tranche de temps

Fréquence absolue

Fréquence relative (en millionièmes)

1500-1524

341

586 ******************************

1525-1549

399

450 ***********************

1550-1574

1401

467 ************************

1575-1599

882

392 ********************

1600-1624

1721

367 *******************

1625-1649

1705

274 **************

1650-1674

701

113 ******

1675-1699

636

88 *****

1700-1724

352

94 *****

1725-1749

363

40 **

1750-1774

378

33 **

1775-1799

404

35 **

1800-1824

644

72 ****

1825-1849

1049

42 ***

1850-1874

1197

58 ***

1875-1899

1470

75 ****

1900-1924

995

56 ***

1925-1949

2365

66 ****

1950-1974

1680

50 ***

1975-1999

2357

71 ****

2000-

55

53 ***

3. Le mot révolution dans l'ensemble de la base (répartition auteur par auteur)

On cherche la répartition du mot révolution dans l'ensemble de la base. Les résultats seront classés par auteur et par ordre de fréquence relative décroissante. On donne ci-dessous le début de la liste, c'est-à-dire les auteurs de Frantext qui font le plus grand emploi du mot révolution.

Résultat du calcul de fréquences

Objet de l'étude

Tous les textes.

Etude de la fréquence du mot "révolution".

Fréquences relatives (exprimées en millionièmes).

Etude par auteurs.

Résultats triés par fréquences décroissantes.

Diagramme des fréquences relatives

Fréquence absolue totale : 18051

Fréquence relative maximale : 2814 chez Jean JAURÈS

Echelle : un astérisque représente une fréquence relative de 80 millionièmes.

Rang

Auteur

Fréquence absolue

Fréquence relative (en millionièmes)

1

JAURÈS Jean

204

2814 ************************************

2

MIGNET François-Auguste

334

1798 ***********************

3

DESMOULINS Camille

81

1504 *******************

4

LEFEBVRE Georges

397

1435 ******************

5

BLOCH Jean-Richard

82

1400 ******************

6

VILLARD Germaine

8

1319 *****************

7

BAINVILLE Jacques

253

1280 ****************

8

COCHET Jean

47

1215 ****************

9

SOREL Georges

107

1207 ****************

10

DE GHELDERODE Michel

39

1176 ***************

11

SAINT-SIMON Claude Henri de

163

1107 **************

12

CAMUS Albert

9

1006 *************

13

BRIÈRE-BLANCHET Claire

79

873 ***********

14

ROBESPIERRE Maximilien de

70

824 ***********

15

MONGE Gaspard

7

823 ***********

16

BILLOTTE Pierre

26

809 ***********

17

JOLLY Amédée

5

807 ***********

18

DEBORD Guy

55

796 **********

19

KAUFMANN Dorothy

7

721 **********

20

BROGLIE Albert de

28

715 *********

21

TOCQUEVILLE Alexis de

366

705 *********

22

GUIZOT François

81

689 *********

 

[Article mis à jour par Frédéric Weiss. Les données quantitatives correspondent à l'état de la base en octobre 2015.]


[1] Le mot apparaît 341 fois (fréquence absolue). La fréquence relative est obtenue en divisant 341 par la somme des fréquences absolues de tous les mots présents dans la tranche 1500-1524.