Centre d'ingénierie documentaire

Vous êtes ici : Aide au chercheur

Frantext 4, entités grammaticales (base catégorisée)

Charles Bernet, Gisèle Kahn (ENS de Lyon)

Accès <http://www.frantext.fr> puis lien Frantext catégorisé.

1. Présentation

2. Recherche d'un mot ou d'une expression suivis d'une entité quelconque

3. Recherche d'une entité ayant pour composant un élément déterminé

1. Présentation

La base dite catégorisée de Frantext est constituée d'un sous-ensemble de 1940 textes, uniquement des textes des XIXe et XXe siècles [1], postérieurs à 1829, tous en orthographe "moderne". Les ouvrages ajoutés au cours des dernières années dans la base non catégorisée ne figurent pas dans celle-ci. Les textes ont été catégorisés, ce qui signifie qu'ils ont été découpés en une suite d'"entités" et que chaque "entité" a été affectée d'une catégorie grammaticale (29 catégories au total) : adjectif, adjectif cardinal, adverbe, conjonction de coordination, participe présent, participe passé, pronom personnel, etc. Noter que, compte tenu des aléas d'une catégorisation automatique, il serait illusoire d'attendre de cette base des résultats incontestables et exhaustifs quelles que soient les catégories considérées. On trouvera des observations utiles sur la catégorisation de Frantext dans :

Marc Hug, « Désambigüisation automatique d'homographes verbes/nom », in JADT 2002 : 6es Journées internationales d'Analyse statistique des Données Textuelles, p. 371-379. [2]

Il est possible de voir la manière dont les catégories ont été affectées aux diverses entités d'un texte en cliquant sur la commande Montrer les codes grammaticaux disponible lors de l'affichage des résultats d'une requête. Par exemple :

M595 - HUGO V., NOTRE-DAME DE PARIS, 1832, p. 87
[Puis Adv] [se Per] [promenant Pr] [à Pp] [grands A] [pas S] [devant Pp] [la D] [table S] [de Pp] [marbre S], [il Per] [lui Per] [prenait V] [des Dg] [fantaisies S] [d' Pp] [aller Inf] [apparaître Inf] [à son tour Adv] [à Pp] [la D] [lucarne S] [de Pp] [la D] [chapelle S], [ne Avn] [fût V]-[ce P] [que X] [pour Pp] [avoir Inf] [le D] [plaisir S] [de Pp] [faire Inf] [la D] [grimace S] [à Pp] [ce D] [peuple S] [ingrat A].

(Puis se promenant à grands pas devant la table de marbre, il lui prenait des fantaisies d'aller apparaître à son tour à la lucarne de la chapelle, ne fût-ce que pour avoir le plaisir de faire la grimace à ce peuple ingrat.)

Pour avoir la signification des codes grammaticaux utilisés, il faut cliquer sur le lien correspondant dans la page des résultats d'une requête.

Liste des codes grammaticaux

Code

Catégorie grammaticale

A

adjectif (sauf cas Aca, APr, APs)

Aca

adjectif cardinal

APr

adjectif/participe présent

APs

adjectif/participe passé

Adv

adverbe

Avn

partie d'une négation (par ex. cas de ne / n', ou pas / point / guère… si associés à ne ou n')

Cc

conjonction de coordination

Cs

conjonction de subordination

D

déterminant (sauf cas Dca, Dg)

Dca

cardinal ayant le rôle d'un déterminant (ex. deux pigeons s'aimaient)

Dg

amalgamés (au/aux/du/des)

E

exclamatif

Ep

présentatif (voici, voilà, …)

Ger

gérondif (en lié à un participe présent)

Inf

infinitif

Inj

interjection

Int

interrogatif

Np

nom propre

Nu

numéral cardinal

Ono

onomatopée

P

pronom (sauf cas Per, X)

Per

pronom personnel

Pp

préposition

Pr

participe présent sauf cas APr, Ger

Ps

participe passé (sauf cas APs)

S

substantif

V

verbe (sauf participes et infinitif)

R

mot inconnu du logiciel

X

mot non traité (que/qu', où, sinon)

Une entité est le plus souvent une unité graphique, mais les mots composés et certaines expressions sont considérés comme une seule entité (tire-bouchon, sans doute, en même temps, de temps à autre…).

L'utilisation de la base catégorisée est la même que pour le Frantext intégral : on se donne un corpus de travail et on formule des requêtes d'interrogation (cf. article Frantext 3, exemples de recherche). Toutefois les possibilités sont beaucoup plus étendues, y compris en ce qui concerne les interrogations à caractère lexical, comme celles qui sont traitées ci-dessous. La syntaxe d'interrogation, même si elle rappelle par certains côtés celle de la base non catégorisée, est un peu différente.

2. Recherche d'un mot ou d'une expression suivis d'une entité quelconque

Pour chercher une entité quelconque, on utilise la formule &e(c=&q).

Exemple : &caller &e(c=&q) à permet de trouver n'importe quelle forme du verbe aller suivie d'une entité quelconque suivie de à. Pour limiter le nombre des occurrences, il semble raisonnable de limiter le corpus à une assez courte période, ou à un seul auteur :

  • j'allais en même temps à l'école et chez un avoué ; (Balzac, La Peau de chagrin)
  • Je la payai convenablement et je me trouvai allant ventre à terre en Angleterre avec vingt-sept louis dans ma poche, sans avoir eu le temps de rentrer en moi-même un seul instant. (Constant, Le Cahier rouge)
  • Laissons, laissons, repris-je, cette plaisanterie hors de saison qui ne va pas à votre âge ni au mien ; (Nodier, La Fée aux miettes)
  • Parlez-moi de l'hôpital, de votre chambre, de votre sommeil, de vos malades, de vos charognes, des carognes de l'Abbaye-au-bois, de tout ce que vous voudrez, plutôt que de la Russie et de son autocrate, plutôt que de la police et de ses conspirations, plutôt que de Louis-Philippe et du budget, que tout cela aille pêle-mêle à tous les diables. (Sand, Correspondance)
  • Elle se faisait une image parfaitement ennuyeuse de la vie qu'elle allait reprendre à Paris. (Stendhal, Le Rouge et le Noir)
  • Non, il fait des économies malgré ses quatre dîners, et va de temps à autre à Paris manger son argent en fort mauvaise compagnie. (Stendhal, Lucien Leuwen)
  • L'écho seul lui répondit. "Allons ! à l'ouvrage !" cria-t-il à Octave (Verne, Les Cinq cents millions de la Bégum)

On remarque que l'entité quelconque peut se réaliser de diverses manières : par un verbe, un mot de négation, une expression complexe, un mot composé, et même par un signe de ponctuation.

3. Recherche d'une entité ayant pour composant un élément déterminé

3.1. "même"

&e(c=-(même|mêmes)) permet de chercher une entité qui comporte un trait d'union suivi de même ou de mêmes.

On attend en fait des exemples de pronoms personnels ou de ici ou de suivis de -même(s). L'expression peut se lire de la façon suivante : "je cherche des exemples d'éléments quelconques (&e) dont le contenu c est égal à quelque chose suivi de -même ou -mêmes".

Résultats : on obtient plus de 50 000 exemples de moi-même, lui-même, soi-même, etc. (le logiciel ne va pas au-delà).

Si on veut uniquement des exemples avec ici et , on en revient à une formule hors catégorisation (toujours possible y compris dans la base catégorisée) : (ici|là)-(même|mêmes), avec pour résultats : ici-même, là-même et ceux-là-mêmes.

3.2. "garde"

&e(c=(&q &mgarde|&mgarde &q))

L'expression permet de chercher des entités qui comportent le mot garde, ou gardes, et au moins un autre composant, à gauche ou à droite. On peut limiter le corpus à une période donnée.

  • Elle mit, comme pour se chauffer, un pied sur la barre de bronze qui surmontait le garde-cendre, ôta ses gants, détacha ses bracelets, et enleva par-dessus sa tête une chaîne d'or au bout de laquelle était suspendue sa cassolette ornée de pierres précieuses. (Balzac, La Peau de chagrin)
  • […] et au profit de son fils, âgé de trente- six ans, officier de l'ex-garde impériale, que, par son crédit, monsieur le marquis d'Espard a placé dans la garde royale en qualité de chef d'escadron au premier régiment de cuirassiers. (Balzac, L'Interdiction)
  • il y a eu entre les deux avant-gardes une escarmouche dans laquelle l'avantage nous est resté, un accident déplorable a seul altéré la joie de la victoire. (Karr, Sous les tilleuls)
  • En défendant leurs droits scandaleusement violés, les catholiques ne combattent donc pas uniquement pour eux-mêmes ; ils forment, qu'on me permette ce mot, l'avant-garde de l'humanité marchant à la conquête de l'avenir […] (Lamennais, Articles publiés dans le journal l'Avenir)
  • Il a dormi sur la pierre à côté du parricide, il a tendu le dos en silence au fouet du garde-chiourme, il a supporté le regard des curieux ; (Sand, Lélia)

3.3. Exclusion d'un élément

&e(c=(&q bonheur|bonheur &q) c!=par)

Au sein d'une entité, l'expression c!= permet d'exclure un élément, ici tous les "par bonheur".

  • Oui, je serais encore heureux d'un demi-bonheur. (Balzac, Le Contrat de mariage)
  • Pour comble, il traînait des mules féminines en satin jaune avec des pompons porte-bonheur de béret de matelot. (Sabatier, Trois sucettes à la menthe)
  • Ainsi une petite commode s'appelle chiffonnière, une athénienne, vide-poche, un bonheur-du-jour, table à gradins…, etc. (J. Viaux, Le Meuble en France)

 

[Article mis à jour par Frédéric Weiss. Les données quantitatives correspondent à l'état de la base en octobre 2015.]


[1] A l'exception de 2 textes de 2009.

[2] En ligne à l'adresse <http://lexicometrica.univ-paris3.fr/jadt/jadt2002/PDF-2002/hug.pdf> [réf. du 30/10/2015].

Contacts

Centre d'ingénierie documentaire
École normale supérieure de Lyon
15 parvis René-Descartes
BP 7000
69342 Lyon Cedex 07

Tél. (+33) 4 37 37 60 00

Nous contacter par courriel : formations-cid