Frantext 1, présentation et principales techniques de recherche

Charles Bernet, Gisèle Kahn (ENS de Lyon)

1. Présentation

2. Menu général de Frantext

3. Définition du corpus de travail

4. Visualisation du corpus de travail

5. Recherche dans les textes

6. Expressions de séquence

1. Présentation

Frantext est une base textuelle à dominante littéraire comportant des textes qui s'échelonnent du Moyen Âge au début du XXIe siècle. En septembre 2015, elle en comptait 4746 dont 85 % issus des XVIIe, XVIIIe, XIXe et XXe siècles.

Figure 1. Répartition par siècles des textes de Frantext

Les interrogations peuvent porter sur la base complète ou sur des sous-ensembles définis par tranches chronologiques, par genres, par auteurs, par titres…

La base s'est construite à partir d'un premier ensemble de textes réunis, vers 1960, pour apporter une documentation d'exemples au Trésor de la langue française, qui comportait un peu moins de mille œuvres des XIXe et XXe siècles sélectionnées à partir des bibliographies de manuels d'histoire littéraire et avec le concours de spécialistes. Cet ensemble s'est rapidement enrichi, vers 1970, de textes à caractère scientifique et technique nécessaires à la rédaction du dictionnaire. Par la suite, le fonds s'est étendu de façon à couvrir les trois siècles précédents ainsi que la période suivante. Il continue de s'étendre progressivement.

Les textes littéraires sont pour la plupart saisis intégralement. Les saisies reproduisent l'orthographe des éditions sur papier dont ils sont tirés. En effectuant des recherches dans Frantext, il est important de tenir compte des variations graphiques liées à la chronologie.

Dans Frantext intégral, tous les textes de la base sont interrogeables. Le logiciel d'interrogation permet des requêtes complexes portant sur des mots graphiques ou sur des lemmes (toutes les formes d'un même verbe, d'un même adjectif ou d'un même substantif). La version catégorisée, dite Frantext catégorisé, est constituée d'un sous-ensemble de la base intégrale : plus précisément, 1940 textes postérieurs à 1829 dans lesquels une catégorie a été affectée aux mots ou séquences de mots. Elle offre des possibilités d'interrogation élargies à des requêtes grammaticales.

Page d'accueil <http://www.frantext.fr> puis lien Frantext intégral ou Frantext catégorisé. Consultation sur abonnement dans les deux cas.

2. Menu général de Frantext

En cliquant sur le bouton Accès à Frantext intégral à partir de la page d'accueil, on accède à la base non catégorisée. Dans un encadré, à gauche, un menu regroupe les commandes principales par rubriques : Accueil, Corpus de travail, Recherche dans les textes, Calculs de fréquence, Étude de voisinage, Listes de mots, Grammaires et Administration.

Figure 2. Principales commandes du menu général

Corpus de travail

    Définition du corpus de travail

    Visualiser le corpus de travail

    Sélectionner tous les textes

    Vider / Importer / Exporter

Recherche dans les textes

    Recherche par mots ou séquence

    Recherche par lemmes

    Recherche de cooccurrences

    Recherche des mots d'une liste

    Recherche dans les mots du corpus

    Historique des recherches

Calculs de fréquence

    Fréquence d'un mot

    Fréquence des mots d'une liste

    Distribution de fréquences d'un mot

    Distribution de fréquences d'une liste

    Fréquence des mots du corpus de travail

Étude de voisinage

    Voisinage d'un mot

    Voisinage des mots d'une liste

Listes de mots

    Création manuelle

    Création par flexion d'un lemme

    Création à partir du corpus de travail

    Gestion des listes

    Transmission d'une liste

Grammaires

    Création d'une grammaire

    Gestion des grammaires

    Transmission d'une grammaire

Chaque rubrique est accompagnée d'une aide en ligne appropriée.

3. Définition du corpus de travail

Les outils de Frantext ne fonctionnent que si l'on a défini un corpus de travail (voir l'aide en ligne Que signifie corpus de travail ?). Si l'on souhaite travailler sur l'ensemble de la base, il faut quand même passer par cette étape et enregistrer la sélection en n'entrant aucun critère.

Le formulaire simple (voir Figure 3) permet de rechercher une chaîne de caractères dans l'un des champs suivants : auteur, titre, genre, date, cote Frantext et éditeur (bouton *). Parmi les genres littéraires, on trouve principalement : autobiographie, correspondance, éloquence, essai, journal, mémoires, poésie, récit de voyage, roman, théâtre, traité.

Figure 3. Formulaire de définition du corpus de travail

Dans l'exemple ci-dessus, on a tapé ionesco dans la ligne de saisie avant de cliquer sur le bouton dans l'auteur. On a obtenu le résultat suivant :

Figure 4. Exemple de présélection de textes

La première colonne indique les cotes Frantext. Les cases à cocher de la dernière colonne permettent d'affiner la sélection au cas par cas.

En cliquant sur le bouton Ajouter les textes sélectionnés au corpus de travail, on enregistre la sélection. La rubrique Corpus de travail du formulaire précédent est mise à jour : soit 6 textes représentant 131 215 mots.

4. Visualisation du corpus de travail

La visualisation du corpus de travail permet à tout moment d'éliminer des textes ou d'en ajouter de nouveaux. L'affichage est similaire à la figure précédente.

Figure 5. Modifications possibles du corpus de travail (haut du formulaire)

5. Recherche dans les textes

Cinq types de recherche dans les textes du corpus de travail sont proposés : Recherche par mots ou séquence, Recherche par lemmes, Recherche de cooccurrences, Recherche des mots d'une liste, Recherche dans les mots du corpus. On présente ici le premier, autrefois appelé "recherche simple".

Figure 6. Formulaire de recherche par mots ou séquence

Plusieurs modes de saisie sont proposés (voir Figure 6), notamment :

Pour les autres modes de saisie (flexion spécifique à une période), cliquer sur le libellé pour afficher l'aide en ligne.

Figure 7. Exemple de résultats

Dans l'exemple ci-dessus, on a entré roi et sélectionné l'option texte exact. On a obtenu 467 occurrences. Les contextes s'affichent en respectant les fins de ligne du texte d'origine, mais on peut ignorer celles-ci (bouton Km) afin d'obtenir une présentation plus compacte. Le bouton Zoom affiche un contexte particulier dans une nouvelle fenêtre. On peut ensuite élargir sa taille jusqu'à une ou plusieurs pages pour un texte libre de droits (repéré par un drapeau vert) ou quelques centaines de caractères seulement pour un texte sous droits (drapeau rouge).

6. Expressions de séquence

Extrait de l'aide en ligne :

« Une expression de séquence a pour but de rechercher des contextes contenant une suite de mots consécutifs (d'où le terme séquence) tels que "maison blanche" ou "le chien noir de la ferme" (…) Une expression de séquence est une suite de N sous-expressions, éventuellement réduite à une seule sous-expression. »

Résumé de la syntaxe :

N.B. Les parenthèses permettent de délimiter une sous-expression sur laquelle porte un opérateur tel que |, &? ou ^.

 

[Article mis à jour par Frédéric Weiss. Les données quantitatives correspondent à l'état de la base en octobre 2015.]