c
a
d
r
a
t






  Entrée  
   Études    
    Constitution  
 
+  Des ressources en corpus, isotopies et programmes
+  Des articles d’ études sur le traitement automatique de la langue
+  Les pages du site pour des recherches, informations, résumés...

     la base de données lexicale     §III.2. 
Le détail du contenu des fichiers de données lexicales pour la catégorisation. Nous y trouvons la justification détaillée des choix effectués et la description du contenu de la base.

 1.      III.2.1.  textes et énoncés

Dans notre travail, les textes et les exemples sont pour la plupart empruntés à la littérature. L’utilisation de textes juridiques ou spécialisés, comme un corpus médical, ne prendrait un sens que dans une activité plus importante autour de l’ontologie ou une intégration aux moteurs de recherche. Sinon ils demeurent au même niveau que la littérature, d’intérêt essentiellement grammatical, encore que la conception de notre base de corpus soit plutôt celle de la diversité.

Le choix des œuvres de référence est conjoncturel et ne pourrait enrichir toutes les questions grammaticales qu’à la longue d’un relevé philatélique. La recherche numérique sur des corpus est naturellement intéressante, et cela a été le cas pour quelques énoncés de la présente étude. Cependant une vérification à la source, sur papier, est souhaitable, d’autant que les exemples le sont précisément parce qu’ils pointent un cas particulier, parfois de morphologie, comme les diacritiques, peu amicaux avec les procédés de numérisation.

Beaucoup d’énoncés sont extraits d’une seule et même œuvre, ils projettent des séquences canoniques, problèmes standards, qui se sont imposées lors de la soumission à la catégorisation. Ont été inclues les œuvres d’Antoine de Saint Exupéry, Courrier Sud, Vol de nuit, Terre des hommes, Le Petit Prince, Pilote de guerre, Lettre à un otage, Lettre au général X ainsi que La Lettre volée d’Alan Edgar Poe, Candide de Voltaire et le Grand Meaulnes, d’Alain-Fournier. De cette manière, nos exemples sont en partie attestés, souvent dans le cadre particulier du registre soutenu. Des exemples forgés par la seule compétence linguistique du rédacteur parsèment aussi le travail, leur pertinence et vraisemblance sont laissées à l’appréciation du lecteur. Il en est de même en ce qui concerne une partie des commentaires sur la sémantique et la fréquence d’emploi.

Il convient de relever qu’intégrer des variantes régionales ou francophones contraint à une compétence et un exercice spécifiques. Elles ne pourraient être envisagées que dans le cadre d’un développement plus complet du catégoriseur pour rendre compte de la francophonie.

Il en est de même pour le registre parlé, tout en notant que : « la différence entre l’écrit et l’oral est infiniment moins grande qu’on le ne croit généralement. » (Gardes-Tamine, 1998 : 21). Les caractéristiques de l’oral comme les interjections sous formes d’hésitations, les reprises, sont autant de contraintes, et ne semblent pas nécessiter un système à part. Mais il faudrait considérer l’implication des dislocations ou des coupures dans nos règles grammaticales. Leur utilité propre se fait toutefois sentir, par exemple comme marque d’un syntagme figé (voir § IV.3.4.6.).


 2.      III.2.2.  énoncé et les étiquettes

Un énoncé est intéressant parce qu’il expose la forme étudiée dans son emploi, mais aussi parce qu’il charrie une ambiguïté, répondant donc à une problématique qui ne relève plus de l’attesté ou du forgé, mais de la contrainte informatique. Peu importe que certains énoncés aient des chances ou non d’être formulés ailleurs que dans ce cadre, non qu’ils semblent exotiques, ils peuvent être anodins, mais possèdent en fait un lien latent au vocabulaire. Ils pointent surtout cette faiblesse d’un autre ordre. Celle-ci est à l’origine ou pas de la réussite de la catégorisation : « a certain number of tagging instances are relatively simple to disambiguate and are therefore being successfully tagged by all approaches, while another percentage is extremely difficult to disambiguate, requiring deep linguistic knowledge, thereby causing all taggers to err. » (Brill, 1998 : 1). Cette conception du taux de réussite a été critiquée au chapitre II.4.5., et aux conclusions des III.1.2. et III.1.4.4., à cela l’on pourrait rajouter que tout dépend du jeu d’étiquette initial. S’il y a certains énoncés plus chargés d’ambiguïtés, la précision même apportée aux étiquettes et par conséquent l’approfondissement d’un point de grammaire détermine le degré d’ambiguïté. C’est donc en partie le travail sur les étiquettes qui va poser la question de la réussite et pas seulement l’énoncé lui-même.

Le texte est garant de la justesse de l’étude. Le catégoriseur, en situation de test, se confronte immédiatement avec une réalité linguistique. Celle-ci est d’autant plus révélatrice de l’investissement effectué sur les étiquettes que ces dernières ont été l’objet d’une définition précise.

Les textes littéraires, se suffisant déjà largement à eux-mêmes, seraient en somme un point de départ. Ils auraient pu en rester à leur unité et à leur exploration si la finalité n’était aussi de se porter vers la traduction ou le moteur de recherche.


 3.      III.2.3.  bases grammaticales et lexicales

Si le quantitatif reste déterminant dans un dictionnaire, c’est sa cohésion qui prime sur l’utopique exhaustivité, qui permet non seulement de consolider tout traitement ultérieur mais aussi de mettre en lumière une carence ou une absence. Ainsi, une question d’orthographe ou une manipulation morphologique attire l’attention par exemple sur « mégaoctet » pour un  « kilooctet » plus difficilement analogue. Le terme est absent du Larousse 2003, y compris sous d’autres graphies ou entrées, tandis que le Chambers 2003 retient « kilobyte », et le Robert 2000 « kilo-octet », à l’entrée « kilo- ».

L’importation d’une base implique une convention plus ou moins implicite. Lors de sa description et de sa modification, toutes sortes de questions interviennent. Dès qu’il s’agit de niveler un texte ou un dictionnaire, les troubles sont d’ordre diachronique, (comme vu § II.1.4.1, destination des ressources), et synchronique, pour par exemple la féminisation des substantifs (Le La, § IV.4.16) ou les rectifications du Conseil supérieur de la langue française. Plutôt qu’une harmonisation, l’intention d’une simplification aboutit à la superposition de deux lexiques, ce qui augmente d’autant la base. Toutefois, ces rectifications auraient pu amplifier un peu plus le problème de l’ « ambigüité », si la chose n’avait été retenue pour neutraliser les conséquences des changements de certaines formes : « étant donné que sa conjugaison est en partie homographe [...] » (Journal Officiel du 6 décembre 1990 : § II.4.b)

L’observation de la base par sa mise à l’épreuve est le meilleur garant de sa validité. Notre source grammaticale servant à l'étiquetage a été importée de l’adresse ABU, courant 2002. Les ressources du site ont été constituées par une association de « bibliofiles », hébergées par le Conservatoire National des Arts et Métiers. Il n’y a pas de précisions concernant son origine. Elle est datée d’août 1999, et sur la page de téléchargement est précisé : « [les données] sont en effet loin d'être complètes et sans erreur. ». La base possède un format tabulaire, sur trois colonnes.

Après utilisation, elle apparaît comme propre dans la saisie, complète, donc immédiatement exploitable. Elle comporte rarement des erreurs critiques comme la coupure d’une étiquette. Des absences en revanche ne sont pas rares, pour exemple, le participe présent de « danser ». Elle est en accès et exploitation libre, à condition de faire suivre la licence, laquelle, pour anecdote, est quasi-vide. Enfin, elle répond aux deux remarques précédentes sur la cohérence des formes et l’homogénéité du lexique. Le contenu modifié est décrit ci-dessous et sa convention est explicitée dans le format des balises, § IV.1.


 3.1.      III.2.3.1.  modifications

Des modifications et des corrections ont été apportées à la base afin de la rendre conforme à la méthodologie :
- élimination des catégories Ono, Abr, Det et Pro ;
- extraction des Pre et Adv pour l'écriture d'une base de mots-outils ;
- découpage de toutes les étiquettes multiples en une seule étiquette, pour une seule forme, Ver:IPre+SG+P1:IPre+SG+P2 donne Ver:IPre+SG+P1, Ver:IPre+SG+P2 ;
- suppression des redondances, Ver:PPas+Mas+PL et Ver:PPas pour une même forme ; d'un participe présent avec genre et nombre, Ver:PPre+Mas+SG, en attendant de prendre grammaticalement en considération des corpus antérieurs au XVIIIème ;
- la base est aussi modifiée durant la phase initiale du programme. Chaque nature grammaticale subit quelques modifications comme l’accentuation de Fem, IN pour InvPL, ou le rajout de Qual pour les adjectifs.

e *e Nom:Mas+InvPL
eau *eau Nom:Fem+SG
eau-de-vie *eau-de-vie Nom:Fem+SG
eau-forte *eau-forte Nom:Fem+SG
eaux *eau Nom:Fem+PL
eaux-de-vie *eau-de-vie Nom:Fem+PL
eaux-fortes *eau-forte Nom:Fem+PL
ébahi *ébahi Adj:Mas+SG
ébahi *ébahir Ver:PPas+Mas+SG
    A. Mot commençant par « e »   

Une base sémantique est celle des noms de pays, des prénoms et des communes françaises, toujours issue du site ABU. Elle consiste en un trait du nom propre et nous fait entrer dans la question des ontologies, § IV.6.

zosima *zosima Nom:Prop/Prén
zsa *zsa Nom:Prop/Prén
zuleika *zuleika Nom:Prop/Prén
afghanistan *afghanistan Nom:Prop/Pays
afrique *afrique Nom:Prop/Pays
    B.   Prénoms, pays et communes françaises    

Les sigles peuvent être extraits des nombreuses terminologies et dictionnaires, sur la toile. Une fois la base formatée il convient de vérifier si elle ne possède pas des ambiguïtés lourdes, semblables aux mots-outils. Tout nouvel ajout de base peut entraîner des conséquences sur la chaîne de catégorisation, notamment par de nouveaux détails.

html *HyperText_Markup_Language Nom:Abré
http *HyperText_Transfer_Protocol Nom:Abré
ifremer *Institut_Français_de_Recherche_pour_l'Exploitation_de_la_Mer Nom:Abré
iit *Indian_Institute_of_Technology Nom:Abré
    C. Abréviations   


 3.2.      III.2.3.2.  rédaction

La base possède un format tabulaire, sur trois colonnes. C'est un format élémentaire, (Tab-Separated Values), que l'on peut aussi bien modifier sous un tableur qu'avec un éditeur de texte. Le signe de séparation est \t.

Les listes qui suivent ont été rédigées pour notre programme de catégorisation. Ces formes, particulièrement pour les mots-outils, sont de loin les plus importantes et une part majeure du travail de rédaction de l'ensemble. Elle rajoute une balise neutre, Cpa, qui évite par exemple de confondre « un » avec Adj Dét Nom Pro. Un fichier particulier, les caractères spéciaux, regroupe les formes particulières (ponctuation...) et les signes divers (l'arobase...). Les interjections ou exclamatifs, classés comme adverbe ont été listés dans une base spécifique puis finalement ramenés à celle des mots-outils.

La base des mots composés comprend au total, pour la version janvier_2005 , 1552 syntagmes. L'entrée d'une locution verbale dans la base ne requiert que la forme infinitive. C'est le programme qui va se charger de retrouver le lemme à partir du verbe. Par exemple « ai faim » va s'appuyer sur le lemme de l'auxiliaire conjugué « ai » pour déduire qu'il s'agit du verbe avoir, et reconnaître « avoir faim ». En revanche, les formes pluriels des noms ou les séquences terminées par « à, de » pour « aux, d’ » nécessitent une entrée multiple, « pilote de ligne » et « pilotes de ligne ».

 

un *1 Adj:Numé/Ordi+Mas+SG
un *un Adj:Mas+SG
un *un Cpa
un *un Det:Arti/Indé+Mas+SG
un *un Nom:Numé/Card+Mas+SG
un *un Pro:Indé+Mas+SG
    D. Mots-outils et assimilés    

en_porte_à_faux *en_porte_à_faux Adj:Qual/Cmps+IN+Ing
en_dessous *en_dessous Adv:Lieu/Cmps
espace_vert *espace_vert Nom:Cmps+Mas+SG
espaces_verts *espace_vert Nom:Cmps+Mas+PL
&être_à_court_de *être_à_court_de Ver:Cmps
&être_en_train_d# *être_à_court_de Ver:Cmps
    E. Mots composés    

) *ferm_para Pof:Ponc/Fort
... *poin_susp Pof:Ponc/Fort
, *virg_ Pob:Ponc/Faib
; *poin_virg Pob:Ponc/Faib
: *deux_poin Pob:Ponc/Faib
\ *slah_ Pob:Ponc/Dive
   F. Caractères spéciaux   

amen *amen Adv:Itrj
arrière *arrière Adv:Itrj
attention *attention Adv:Itrj
bagasse *bagasse Adv:Itrj
bah *bah Adv:Itrj
banco *banco Adv:Itrj
    G. Interjections   



 3.3.      III.2.3.3.  contenu des formes

   
Catégorie   Formes
Nom commun
  60 416
Verbe conjugué
217 436
Verbe infinitif   6 592
Verbe participe passé   17 398
Verbe participe présent   5 703
Verbe auxiliaire   84
Adjectif   34 264
Total des mots pleins   341 893
Adverbe   1 848
Préposition   75
Conjonction   109
Pronom   239
Déterminant   174
Total des mots-outils   2 445
Total des dictionnaires   344 338
    H. Dictionnaire des catégories   
 
 
Nom  propre
Formes
Prénom 12 442
Ville 38 888
Pays 167
Total 51 497
 I. Dictionnaire des noms propres     
   

Les opérations de modifications de la base, pour l'améliorer ou l'enrichir, ont plus consisté à additionner et redécouper qu'à soustraire et concaténer. Elle est plus volumineuse d'environ un quart. Durant les tests sur le fonctionnement du catégoriseur celle-ci s’est trouvée progressivement augmentée et corrigée. La correction s’est aussi effectuée au cours de l’établissement de listes de mots pour les ontologies, comme celle proposée dans le cadre des perspectives de traduction (§ V.1.)

Le tableau de droite comptabilise les formes contenues dans les fichiers de la base Notule et les classe par catégorie. Les valeurs sont extraites d’un programme interne au site et correspondent donc à la dernière version du fichier téléchargeable.

Le TLFI nous donne 8959 renvois à un infinitif, en comptant les pronominaux et les polysémies, et le Robert électronique 1996 contient 6426 entrées. Notre base reste dans la proportion avec 6323 lemmes verbaux, six fois moins que les lemmes de noms, tandis que la proportion s’inverse pour les formes, quatre fois plus importantes.

Au final, la base se constitue de :
- vingt-six dictionnaires de mots, par entrée alphabétique, soit 341 837 entrées ;
- cinq dictionnaires pour les mots composés, les abréviations, les mots-outils, les caractères spéciaux, les verbes auxiliaires pour les temps composés ;
- un dictionnaire de noms propres, pour les prénoms, pays et communes  ;
- seize champs lexicaux, à l’intérieur du programme.





 4.      III.2.4.  bibliographie

     BRILL Eric, WU Jun, « Classifier combination for improved lexical disambiguation », in Proceedings of the 17th international conference on computational linguistics, Vol.1, 1998, pp.191-195.
     GARDES-TAMINE Joëlle, PELLIZZA Marie-Antoinette, La construction du texte, Armand Colin, 1998, 184 p.


     La convention grammaticale, pour Notule 1.1   IV.  
     Le récapitulatif des balises en usage dans Notule 1.1
     Le contenu des étiquettes    IV.2.  
     L’ appropriation numérique d’un texte
     Les ressources lexicales   II.1.  
     Des tests de catégorisation et de traduction   II.5.  
     La page d’accueil
     Le sommaire des pages
       Imprimer  


       Site       motte 0.5  
     Rédaction : 01.04.2004      Publication : 10.10.2006
      http://cadrat.saynete.net2003 - 2018