Frantext 3, exemples de recherche

Charles Bernet, Gisèle Kahn (ENS de Lyon)

On utilise pour cette série de recherches la base non catégorisée. Accès <http://www.frantext.fr> puis lien Frantext intégral.

1. Définition du corpus de travail

2. Recherche d'un mot

3. Recherche d'une citation ou d'une expression

4. Utilisation de dictionnaires associés à la base

5. Questions d'orthographe

6. Recherche d'éléments discontinus

7. Syntaxe

1. Définition du corpus de travail

Commande Corpus de travail/Définition du corpus de travail.

La sélection d'un corpus de travail est l'étape préalable à toute recherche. Par défaut, on peut travailler sur la totalité du corpus, mais il faut quand même valider la requête (Sélectionner tous les textes). La méthode d'exploration la plus directe consiste à taper un mot-clé dans la ligne de saisie de l'onglet Formulaire et à cliquer sur le bouton correspondant au champ interrogé.

Pour sélectionner un auteur, le nom de famille suffit généralement : par exemple, char renvoie la liste des textes de René Char. Noter que si l'option sous-chaîne est activée, la liste augmente considérablement : textes de Marcel Achard, Charles Baudelaire, Jacques Chardonne… Les tentatives pour entrer le prénom sous quelque forme que ce soit risquent d'aboutir à une impasse, sauf à entrer le nom de l'auteur et son prénom exactement de la façon dont il a été saisi dans la base : par ex. BALZAC (Honoré de) [1]. En bref, il suffira de taper un nom d'auteur en majuscules et d'activer l'option sensible à la casse : par ex. ARNAUD.

Pour tenir compte des accents, il faut activer l'option sensible aux diacritiques. Quant à l'option bibliographie détaillée, elle modifie l'affichage des résultats (cote, auteur, titre, date, genre, éditeur, droits, nombre de mots).

Il est possible de combiner plusieurs critères (un auteur et un titre, un auteur et un genre, un genre et des dates…) en activant l'onglet Multicritères qui renvoie à un formulaire spécifique. Les onglets Auteurs, Date et Genre littéraire affichent d'autres formulaires spécifiques : c'est aussi le moyen d'avoir un aperçu de l'ensemble des textes de la base.

Une fois la liste des textes affichée (s'il y en a), on peut exclure tel ou tel texte avant de valider le corpus de travail. La commande Corpus de travail/Visualiser le corpus de travail permet par la suite de vérifier le contenu du corpus et de le modifier le cas échéant. Noter que la bibliographie des textes introduits dans la base depuis 2005 n'est pas exempte d'incohérences.

2. Recherche d'un mot

Commande Recherche dans les textes/Recherche par mots et séquence, option texte exact ou expression de séquence.

Une première idée de recherche : le mot abracadabra dans l'ensemble de la base. Résultats : 17 occurrences, dont la première à la fin du XVIe siècle :

Autre exemple : le mot ruban dans l'œuvre de Jean-Jacques Rousseau (on pense à l'histoire du ruban volé). On en retrouve les péripéties dans la première partie des Confessions :

3. Recherche d'une citation ou d'une expression

On peut chercher une citation dont on n'a retenu que des bribes, dans l'ensemble de la base, ou dans une période donnée, par exemple : dures grenades entr'ouvertes… (retrouvée chez Valéry) ; ses purs ongles très haut… (retrouvée chez Mallarmé).

La quête est parfois plus hasardeuse. Et ceci se passait dans des temps très anciens : plusieurs requêtes ont été nécessaires pour localiser ce vers de Hugo et pour redécouvrir en même temps une orthographe encore fréquente au XIXe siècle, très-anciens, presque totalement disparue au XXe siècle.

On peut voir la destinée d'une expression poétique telle que l'aurore aux doigts de rose, à travers l'ensemble de la base, avec ses diverses variantes. On écrira : aurore &q(1,8) &mdoigt &q(1,8) &mrose (doigt et rose pouvant se trouver au singulier ou au pluriel et les substantifs pouvant être séparés par un nombre de mots allant de 1 à 8, selon la syntaxe propre à Frantext, cf. ci-dessous) :

On peut poursuivre l'exploration en ajoutant d'autres éléments de l'image homérique, par exemple : les portes de l'orient :

4. Utilisation de dictionnaires associés à la base

Il est possible de vérifier le sens (ou autre) de n'importe quel mot des textes affichés au cours d'une recherche : double-cliquer sur le mot ; un menu contextuel apparaît à l'écran ; choisir le dictionnaire pour afficher l'entrée concernée dans une nouvelle fenêtre (TLF = Trésor de la langue française infomatisé, DMF = Dictionnaire du Moyen Français) [2].

5. Questions d'orthographe

On l'a vu dans la présentation générale, le choix des éditions utilisées pour la saisie des textes a pu varier d'un texte (ou d'un auteur) à l'autre : dans certains cas, l'orthographe originale est conservée, dans d'autres non. Il faut y penser, par exemple, en cherchant le mot lois ou loix chez Montesquieu ; le mot faible ou foible au XVIIe siècle, etc.

6. Recherche d'éléments discontinus

Commande Recherche dans les textes/Recherche de cooccurrences.

Soit la recherche de la série d'abord, ensuite, enfin, dans des textes récents. On prend un corpus du type 1900-2000 et on utilise le formulaire dans sa totalité. On choisit l'ordre logique ci-dessus en tapant "d'abord" comme séquence 1, "ensuite" comme séquence 2, "enfin" comme séquence 3, et en spécifiant "1 avant 2" et "2 avant 3". On choisit un contexte de cooccurrence limité à la même phrase et une distance maximale de 20 mots :

Il semble, à partir des exemples obtenus, que cette succession de connecteurs s'emploie davantage dans des textes à caractère administratif, philosophique, juridique, politique, sociologique que dans des textes littéraires. Certains auteurs semblent toutefois affectionner cette façon d'articuler le discours.

7. Syntaxe

Commande Recherche dans les textes/Recherche par mots et séquence, option texte exact ou expression de séquence.

Il existe diverses possibilités pour la formulation des requêtes : on peut rechercher toutes les formes conjuguées d'un verbe (par exemple, &caimer) ou toutes les variations morphologiques d'un substantif ou d'un adjectif (par exemple, &mcheval ou &mbeau) ; on peut également donner diverses contraintes aux séquences de formes.

7. 1. Le "ou" exclusif

Exemple : malgré que j'en (aie|eusse) :

Deuxième exemple : l'alternance à (dire vrai|vrai dire). On peut faire la recherche dans des textes du XVIIe siècle. La plupart des exemples trouvés sont de Corneille ou de Molière :

7. 2. La négation d'un composant

Exemple : au fur et à mesure ^(que|qu'). On peut cantonner sa recherche aux œuvres de la première moitié du XXe siècle. La plupart des exemples obtenus sont du type : au fur et à mesure de… Mais on trouve aussi l'expression au fur et à mesure seule, au fil de la phrase, parfois en incise, parfois en fin d'énoncé, plus rarement en tête de phrase :

Deuxième exemple : malgré que ^(j'en (aie|eusse)). Pour les puristes, il est intéressant de chercher ses exemples après 1830. Malgré ce que préconisent les grammairiens, on trouve de nombreuses utilisations du malgré que, et chez les meilleurs auteurs :

7. 3. Composant facultatif

Exemple : rien &?de tel. Pour rendre optionnelle la présence d'un élément, on utilise &? placé juste devant l'élément en question. On peut observer grâce à cette requête une évolution assez sensible dans les emplois de rien tel et rien de tel : les deux façons de dire semblent cohabiter de manière indistincte au cours du XVIIe siècle, puis on assiste à une disparition progressive du premier au profit du second au cours du XVIIIe :

Dans le même ordre d'idée, mais de façon encore plus sensible, on peut voir le comportement de quelque chose plus et quelque chose de plus par la requête : quelque chose &?de plus. La première formulation se trouve parfois au XVIe ou encore au XVIIe siècle, mais elle disparaît à peu près totalement à partir du XVIIIe :

Dans ce dernier exemple, on notera l'accord de l'adjectif.

Autre exemple : de (&?très bonne|très-bonne) heure. On tient compte dans la requête du fait que l'on peut rencontrer les deux graphies très bonne heure ou très-bonne heure (cf. ci-dessus la citation de V. Hugo). Pour l'expression recherchée, on découvre que l'adverbe très ne commence à entrer dans l'usage de façon sensible que dans la deuxième moitié du XVIIIe siècle (le corpus donne 1 seul exemple antérieur à 1600, en donne 5 pour le XVIIe, 11 dans la première moitié du XVIIIe et 33 dans la seconde moitié du XVIIIe). Il faut attendre le XIXe siècle pour voir une utilisation régulière de l'expression de très bonne heure (avec ou sans trait d'union).

Les trois premières attestation de la base :

On remarque que les deux sens de l'expression sont présents dès le début. Parallèlement, rien n'empêche de voir si on trouve d'autres formulations aux XVIe et XVIIe siècles : de fort bonne heure, d'assez bonne heure

7. 4. Distance variable entre deux composants

Exemple : &cjeter &q(1,8) par-dessus les moulins

Pour mémoire, la formule &q(n1,n2) indique que l'on veut voir apparaître un certain nombre de mots entre les éléments situés de part et d'autre de la formule en question. La différence entre n2 et n1 représente le nombre de mots possibles, le maximum autorisé étant de 7.

Quelques résultats de la requête :

Ce type d'interrogation permet de voir apparaître les variantes d'une locution. Et si on veut, dans le même temps, la locution dans sa forme figée, il faut penser à écrire, par exemple : &ctirer &q(0,7) (ma|ta|sa|notre|votre|leur) révérence

Et on obtient, entre autres :

 

[Article mis à jour par Frédéric Weiss. Les données quantitatives correspondent à l'état de la base en octobre 2015.]


[1] Ainsi, honoré de balzac donne des résultats, mais pas balzac honoré.

[2] Il est possible que le réglage des paramètres de sécurité du navigateur bloque cette fonctionnalité.