Frantext 4, entités grammaticales (base catégorisée)

Charles Bernet, Gisèle Kahn (ENS de Lyon)

Accès <http://www.frantext.fr> puis lien Frantext catégorisé.

1. Présentation

2. Recherche d'un mot ou d'une expression suivis d'une entité quelconque

3. Recherche d'une entité ayant pour composant un élément déterminé

1. Présentation

La base dite catégorisée de Frantext est constituée d'un sous-ensemble de 1940 textes, uniquement des textes des XIXe et XXe siècles [1], postérieurs à 1829, tous en orthographe "moderne". Les ouvrages ajoutés au cours des dernières années dans la base non catégorisée ne figurent pas dans celle-ci. Les textes ont été catégorisés, ce qui signifie qu'ils ont été découpés en une suite d'"entités" et que chaque "entité" a été affectée d'une catégorie grammaticale (29 catégories au total) : adjectif, adjectif cardinal, adverbe, conjonction de coordination, participe présent, participe passé, pronom personnel, etc. Noter que, compte tenu des aléas d'une catégorisation automatique, il serait illusoire d'attendre de cette base des résultats incontestables et exhaustifs quelles que soient les catégories considérées. On trouvera des observations utiles sur la catégorisation de Frantext dans :

Marc Hug, « Désambigüisation automatique d'homographes verbes/nom », in JADT 2002 : 6es Journées internationales d'Analyse statistique des Données Textuelles, p. 371-379. [2]

Il est possible de voir la manière dont les catégories ont été affectées aux diverses entités d'un texte en cliquant sur la commande Montrer les codes grammaticaux disponible lors de l'affichage des résultats d'une requête. Par exemple :

M595 - HUGO V., NOTRE-DAME DE PARIS, 1832, p. 87
[Puis Adv] [se Per] [promenant Pr] [à Pp] [grands A] [pas S] [devant Pp] [la D] [table S] [de Pp] [marbre S], [il Per] [lui Per] [prenait V] [des Dg] [fantaisies S] [d' Pp] [aller Inf] [apparaître Inf] [à son tour Adv] [à Pp] [la D] [lucarne S] [de Pp] [la D] [chapelle S], [ne Avn] [fût V]-[ce P] [que X] [pour Pp] [avoir Inf] [le D] [plaisir S] [de Pp] [faire Inf] [la D] [grimace S] [à Pp] [ce D] [peuple S] [ingrat A].

(Puis se promenant à grands pas devant la table de marbre, il lui prenait des fantaisies d'aller apparaître à son tour à la lucarne de la chapelle, ne fût-ce que pour avoir le plaisir de faire la grimace à ce peuple ingrat.)

Pour avoir la signification des codes grammaticaux utilisés, il faut cliquer sur le lien correspondant dans la page des résultats d'une requête.

Liste des codes grammaticaux

Code

Catégorie grammaticale

A

adjectif (sauf cas Aca, APr, APs)

Aca

adjectif cardinal

APr

adjectif/participe présent

APs

adjectif/participe passé

Adv

adverbe

Avn

partie d'une négation (par ex. cas de ne / n', ou pas / point / guère… si associés à ne ou n')

Cc

conjonction de coordination

Cs

conjonction de subordination

D

déterminant (sauf cas Dca, Dg)

Dca

cardinal ayant le rôle d'un déterminant (ex. deux pigeons s'aimaient)

Dg

amalgamés (au/aux/du/des)

E

exclamatif

Ep

présentatif (voici, voilà, …)

Ger

gérondif (en lié à un participe présent)

Inf

infinitif

Inj

interjection

Int

interrogatif

Np

nom propre

Nu

numéral cardinal

Ono

onomatopée

P

pronom (sauf cas Per, X)

Per

pronom personnel

Pp

préposition

Pr

participe présent sauf cas APr, Ger

Ps

participe passé (sauf cas APs)

S

substantif

V

verbe (sauf participes et infinitif)

R

mot inconnu du logiciel

X

mot non traité (que/qu', où, sinon)

Une entité est le plus souvent une unité graphique, mais les mots composés et certaines expressions sont considérés comme une seule entité (tire-bouchon, sans doute, en même temps, de temps à autre…).

L'utilisation de la base catégorisée est la même que pour le Frantext intégral : on se donne un corpus de travail et on formule des requêtes d'interrogation (cf. article Frantext 3, exemples de recherche). Toutefois les possibilités sont beaucoup plus étendues, y compris en ce qui concerne les interrogations à caractère lexical, comme celles qui sont traitées ci-dessous. La syntaxe d'interrogation, même si elle rappelle par certains côtés celle de la base non catégorisée, est un peu différente.

2. Recherche d'un mot ou d'une expression suivis d'une entité quelconque

Pour chercher une entité quelconque, on utilise la formule &e(c=&q).

Exemple : &caller &e(c=&q) à permet de trouver n'importe quelle forme du verbe aller suivie d'une entité quelconque suivie de à. Pour limiter le nombre des occurrences, il semble raisonnable de limiter le corpus à une assez courte période, ou à un seul auteur :

On remarque que l'entité quelconque peut se réaliser de diverses manières : par un verbe, un mot de négation, une expression complexe, un mot composé, et même par un signe de ponctuation.

3. Recherche d'une entité ayant pour composant un élément déterminé

3.1. "même"

&e(c=-(même|mêmes)) permet de chercher une entité qui comporte un trait d'union suivi de même ou de mêmes.

On attend en fait des exemples de pronoms personnels ou de ici ou de suivis de -même(s). L'expression peut se lire de la façon suivante : "je cherche des exemples d'éléments quelconques (&e) dont le contenu c est égal à quelque chose suivi de -même ou -mêmes".

Résultats : on obtient plus de 50 000 exemples de moi-même, lui-même, soi-même, etc. (le logiciel ne va pas au-delà).

Si on veut uniquement des exemples avec ici et , on en revient à une formule hors catégorisation (toujours possible y compris dans la base catégorisée) : (ici|là)-(même|mêmes), avec pour résultats : ici-même, là-même et ceux-là-mêmes.

3.2. "garde"

&e(c=(&q &mgarde|&mgarde &q))

L'expression permet de chercher des entités qui comportent le mot garde, ou gardes, et au moins un autre composant, à gauche ou à droite. On peut limiter le corpus à une période donnée.

3.3. Exclusion d'un élément

&e(c=(&q bonheur|bonheur &q) c!=par)

Au sein d'une entité, l'expression c!= permet d'exclure un élément, ici tous les "par bonheur".

 

[Article mis à jour par Frédéric Weiss. Les données quantitatives correspondent à l'état de la base en octobre 2015.]


[1] A l'exception de 2 textes de 2009.

[2] En ligne à l'adresse <http://lexicometrica.univ-paris3.fr/jadt/jadt2002/PDF-2002/hug.pdf> [réf. du 30/10/2015].