Frantext 1, présentation et principales techniques de recherche

Charles Bernet, Gisèle Kahn (ENS de Lyon)

N.B. Les exemples et les données quantitatives présentés dans ce document correspondent à l'état de la base en avril 2013.

1. Présentation

2. Menu général de Frantext

3. Définition du corpus de travail

4. Visualisation du corpus de travail

5. Recherche dans les textes

6. Expressions de séquence

1. Présentation

Frantext est une base textuelle à dominante littéraire comportant des textes qui s'échelonnent du début du XVIe au début du XXIe siècle – on pourra mettre sur le compte d’aberrations de l’espace-temps la présence perturbante de plusieurs textes du XIIIe siècle….

Figure 1. Répartition par siècles des textes de Frantext intégral

Les interrogations peuvent porter sur la base complète ou sur des sous-ensembles définis par tranches chronologiques, par genres, par auteurs ou par titres.

La base s'est construite à partir d'un premier ensemble de textes réunis, vers 1960, pour apporter une documentation d'exemples au Trésor de la langue française, qui comportait un peu moins de mille œuvres des XIXe et XXe siècles sélectionnées à partir des bibliographies de manuels d'histoire littéraire et avec le concours de spécialistes. Cet ensemble s'est rapidement enrichi, vers 1970, de textes à caractère scientifique et technique nécessaires à la rédaction du dictionnaire. Par la suite, le fonds s'est étendu de façon à couvrir les trois siècles précédents ainsi que la période suivante. Il continue de s'étendre progressivement.

Les textes littéraires sont pour la plupart saisis intégralement. Les saisies reproduisent l'orthographe des éditions sur papier dont ils sont tirés. En effectuant des recherches dans Frantext, il est important de tenir compte des variations graphiques liées à la chronologie.

Dans la version non catégorisée, dite Frantext intégral, le logiciel d'interrogation permet des requêtes complexes portant sur des mots graphiques ou sur des lemmes (toutes les formes d'un même verbe, d'un même adjectif ou d'un même substantif). Au total, 4248 textes sont interrogeables.

La version catégorisée est constituée d'un sous-ensemble de la base intégrale (plus précisément, 1940 textes postérieurs à 1829), dans lesquels une catégorie a été affectée aux mots ou séquences de mots. Elle offre des possibilités d'interrogation élargies à des requêtes grammaticales.

Page d'accueil : http://www.frantext.fr (puis lien Frantext intégral ou Frantext catégorisé). Consultation sur abonnement dans les deux cas.

2. Menu général de Frantext

En cliquant sur le bouton Accès à Frantext intégral à partir de la page d'accueil, on accède à la base non catégorisée. Dans un encadré, à gauche, un menu regroupe les commandes principales: Corpus de travail, Recherche dans les textes, Calculs de fréquence, Etude de voisinage, Liste de mots et Grammaires. Un lien Toutes les possibilités en une page permet de voir la liste complète des possibilités offertes par le logiciel.

Figure 2. Le menu de Frantext

Corpus de travail

    Définition du corpus de travail

    Visualisation du corpus de travail

    Vider le corpus de travail

    Sélectionner la totalité des textes

    Importer un corpus de travail

    Exporter un corpus de travail

Recherche dans les textes

    Recherche simple

    Recherche de cooccurrences

    Recherche des mots d'une liste

    Recherche des mots du corpus

    Historique des recherches effectuées

Calculs de fréquences

    Fréquence d'un mot

    Fréquence d'une liste de mots

    Distribution de fréquence d'un mot

    Distribution de fréquence d'une liste

    Fréquences des mots du corpus de travail

Étude de voisinage

    Étude de voisinage d'un mot

    Étude de voisinage des mots d'une liste

Listes de mots

    Création manuelle d'une liste

    Création d'une liste par flexion d'un verbe/substantif/adjectif

    Création d'une liste à partir des mots du corpus de travail

    Édition des listes existantes

    Transmission d'une liste de votre ordinateur vers le serveur

Grammaires

    Création d'une grammaire

    Édition des grammaires existantes

    Transmission d'une grammaire de votre ordinateur vers le serveur

Chaque rubrique est accompagnée d'une aide en ligne appropriée.

3. Définition du corpus de travail

Les outils de Frantext ne fonctionnent que si l'on a défini un corpus de travail (voir l'aide en ligne Que signifie corpus de travail ?). Si l'on souhaite travailler sur l'ensemble de la base, il faut quand même passer par ce service et enregistrer la sélection en n'entrant aucun critère.

Le formulaire simple (voir «Figure 3») permet de rechercher une chaîne de caractères dans l'un des champs suivants : auteur, titre, genre, date, cote Frantext et éditeur (bouton *). Parmi les genres littéraires, on trouve principalement : correspondance, éloquence, mémoires, pamphlet, poésie, récit de voyage, roman, théâtre, traité, essai. On peut en sélectionner plusieurs.

Figure 3. Formulaire de définition du corpus de travail

On a tapé Ionesco dans la ligne de saisie avant de cliquer sur le bouton dans l'auteur. On a obtenu le résultat suivant :

Figure 4. Exemple de présélection d'un corpus de travail

La première colonne indique les cotes Frantext. Les cases à cocher de la dernière colonne permettent d'affiner la sélection au cas par cas.

En cliquant sur Ajouter les textes sélectionnés au corpus de travail, on enregistre la sélection. Le corpus de travail est résumé dans l'onglet «Formulaire». La requête Ionesco produit un corpus de 6 textes (131 215 mots).

4. Visualisation du corpus de travail

La visualisation du corpus de travail permet à tout moment d'éliminer des textes ou d'en ajouter de nouveaux. L'affichage est similaire à la figure précédente.

Figure 5. Modifications possibles du corpus de travail (bas du formulaire)

5. Recherche dans les textes

Quatre types de recherche dans les textes du corpus de travail sont proposés : Recherche simple, Recherche de cooccurrences, Recherche des mots d'une liste et Mots du corpus (nouveauté avril 2013).

Figure 6. Formulaire de recherche simple

Dans le champ «Mot à rechercher» (Figure 6), quatre modes de saisie sont proposés :

Figure 7. Exemple de résultats

On entre &mroyal et flexion d'un substantif ou adjectif. On obtient quatre occurrences (Figure 7). On peut afficher les contextes dans un format réduit ou élargi (bouton Km/Affichage au km ou Affichage des lignes). Le zoom (contexte d'une ou plusieurs pages) n'est possible qu'avec les textes libres de droits.

6. Expressions de séquence

« Une expression de séquence a pour but de rechercher des contextes contenant une suite de mots consécutifs (d'où le terme séquence) tels que "maison blanche" ou le "chien noir de la ferme" (…). Une expression de séquence est une suite de N sous-expressions, éventuellement réduite à une seule sous-expression. » Extrait de l'aide en ligne (onglet Documentation).

Les sous-expressions générales :