c
a
d
r
a
t






  Entrée  
   Études    
    Constitution  
 
+  Des articles d’ études sur le traitement automatique de la langue

     les ressources lexicales     §II.1. 
Les ressources lexicales employées pour le T.A.L., discutant de leur destination et proposant une typologie

 1.      II.1.1.  destination

Comme il a été conclu dans le chapitre I.2. les ressources linguistiques seraient un élément déterminant pour les progrès du T.A.L. En établir le panorama est une tâche vaste, notamment parce qu’elles peuvent être extraites de toutes sortes de travaux. La première d’entre elles, c’est le texte. Le choix de tel type d’écrit influe sur les traitements qui vont être appliqués. Un écrit recelant des fautes d’accord pourra difficilement se comporter de la même façon qu’un texte correct, bien qu’il s’agisse d’une contrainte comme une autre : un énoncé comme « je choisi » est aisément résolu par une règle.

Les ressources peuvent être destinées à l’observation, en tant qu’objet. Parmi celles-ci, toutes sortes de textes sont largement disponibles sur la toile, soit comme énoncé instable, extrait d’un site, soit comme donnée proprement dite, avec les bases de texte littéraire. La crédibilité de ces ressources peuvent se poser de multiples façons, par exemple en terme de fidélité à une reproduction : « élève nous est-il présenté sous trois habits dans l’Émile : elève (145 occurrences), eleve (18) et éleve (13) » (Brunet, 2000 : 3), chez J.J. Rousseau, et ramène encore la question de l’orthographe à un niveau élémentaire, de norme. Il se peut aussi que le texte soit tout simplement bogué et voir apparaître en plein milieu une série de caractères brouillons, ou relever des coupures.

Les ressources sont aussi employées à la structuration, par exemple les fonctionnalités de synthèse dans Contexto, disposant d'une base dont les « énoncés récapitulatifs sont aisément identifiables au moyen de locutions comme : pour nous résumer... nous pouvons récapituler/résumer en disant...[...] lexique verbal de la causalité (avec des verbes comme faciliter, aider, gêner, augmenter, diminuer [...] » (Minel, 2000 : 17-18). Toute liste de mots est intéressante à travailler, l’on peut par exemple envisager un découpage à la fois chronologique et culturel pour dégager le champ lexical d'une génération, comme le « cool » dans les années 70 ou « contester » dans les années 60, annexe au dictionnaire Robert (Drivaux, 1999 : 10, 46). Ces listes de mots peuvent être extraites à partir de textes pour les thématiques, et les grammaticales, de sites spécialisés comme ABU ou lexique.org. Il s’agit de dictionnaires conférant pour chaque mot plusieurs étiquettes : phonétique, fréquence d’apparition... Les sites en usant à d’autres fins, comme les mots croisés, sont un aspect non négligeable tant le domaine ludique est étendu. L’application sémantique en est donnée au chapitre sur les ontologies, § IV.7., un autre exemple est fourni par la perspective de traduction, § V.1. Il arrive que les écrits servent à la structuration comme les corpus alignés pour la traduction, ou les listes à l’observation pour des travaux de lexicologie.

Nous venons d’énumérer divers types de données en accès direct, sous forme de bases destinées à l’observation, une seule source, et à la structuration, avec l’interaction de plusieurs sources. Elles peuvent se présenter en tant que logiciels créant des ressources. Il s’agit d’une application comme les hautes fréquences de Textstat, ou le moteur de recherche du TLFI (Trésor de la Langue Française Informatisé). Pour ce dernier le facteur de réutilisabilité est plein. C’est-à-dire que la base possède des constantes de définition et de mise en page qui permettent de la reconstituer ou de requérir des listes, par exemple un relevé des transitifs et intransitifs verbaux à partir de l’ensemble des verbes. Le stade où ce facteur n’opère plus de la même façon est celui où le logiciel filtre la recherche, de même que les étapes de traitements. Il s’agit de générer des ressources, en bloquant l’accès à celles initiales. Par exemple la base Frantext présente un très vaste corpus de textes dont une partie catégorisée, exploitables par un moteur de recherche élaboré, pour manipuler des listes de mots et des catégories grammaticales. Les textes eux-mêmes sont en accès libre sur le site de CNTRL. Il est certain que plus les ressources sont accessibles, plus elles sont riches, et plus les possibilités de génération augmentent. Mais elles entraînent alors des considérations qui n’ont plus à voir avec la linguistique elle-même.


 2.      II.1.2.  restrictions

Les restrictions de ressources sont d’ordre financier, Frantext catégorisé n’est disponible que sur abonnement et sa base comporte des textes sous droits. Ce dernier point demeure une aubaine puisqu’il permet de travailler des oeuvres contemporaines, mais un distinguo d’avec les oeuvres libres de droits, accessibles et gratuites, aurait considérablement enrichi son intérêt.

Une autre restriction est technique : le format dans lequel se trouvent ces données peut empêcher une exploitation par un logiciel autre que prévu initialement. C’est le cas de toutes les bases sous XML. Si nous sommes en présence d’un standard largement diffusé et que les outils ne manquent pas pour l’exploiter, il présente l’inconvénient de reformater le texte, posant la question d’un déterminisme sur son traitement, et d’un agencement sous forme hiérarchique, qui peut mal correspondre à la variété des facteurs définissant la langue. Ce questionnement n’est pas propre au texte, et correspond aux fondements de la base de données qui  « comprend trois composantes : des structures de données (pour la définition), des opérateurs (pour la manipulation des structures) et des contraintes (induites par les structures). » (Miranda, 2002 : XVII)

Parmi les stratégies de traitement textuel, le principe des expressions régulières est d’user du texte tel qu’il est pour en extraire des informations. Le concept XML ou SQL (Structured Query Language) est celui de la base de données, c’est-à-dire du rassemblement d’informations pour leur redonner leur valeur de texte plein. Il s’agit donc de deux principes opposés, texte plein contre texte structuré. Le premier semblerait mieux s’accorder avec la notion d’écrit. C’est de manière générale l’exclusivité du second qui pourrait entraver le développement des expressions régulières comme outil de même importance, et gêner la possible association des deux.

Il faut conserver à l’esprit que la finalité d’un formatage est de permettre un affichage varié. L’intérêt consiste à laisser transparentes et accessibles les diverses étapes de transformation du texte : aux fins de la crédibilité du résultat ; de la transformation en ressources d’un morceau ; de la possibilité d’un réaiguillage du traitement sur une autre problématique.


 3.      II.1.3.  typologie

Les tableaux ci-dessous reprennent les diverses distinctions opérées entre les ressources ainsi que le chapitre II.2. sur les logiciels.
 

    A. Schéma IV sur la typologie des ressources   

    

Texte plein
(ou original) :
Texte étiqueté dans la convention Notule (et plus généralement de tous les catégoriseurs).
Nous Nous <*nous Pro:Pers/Suje+PL+P1 /amb>
Texte balisé
au format XML
Texte structuré au format XML (employé par Notule, mais il pourrait revêtir d'autres formats).
<MOT>Nous</MOT> <MOT>
<FORME>Nous</FORME>
<LEMME1>nous</LEMME1>
<CATEGORIE1>Pro:Pers/Suje+PL+P1</CATEGORIE1>
<MARQUEUR>/amb</MARQUEUR>
</MOT>
Texte codé
en liste avec Python
Texte codé en liste imbriquée avec Python
texte=['nous'] texte=['nous',['nous','Pro:Pers/Suje+PL+P1','/amb']]
    B.  Tableau V sur le format du texte  
 Type Origine   Genre
Données
 initiales
Énoncés de site (registre varié, paragraphe instable)
>>>
Forums, tutoriaux, commentaires...
Énoncés de bases de données de site (registre assez précis, paragraphe structuré)
>>>
Textes littéraires, juridiques, dépêches journalistiques...
Données structurantes Annexes (jeu, encyclopédie, thésaurus...)
>>>
Segments d’énoncés (listes de mots, locutions...)
Spécialisées (linguistique, littéraire...)
 >>>  
Ibidem ci-dessus et Segments d’énoncés amplifiés (lemmes, statistiques, sèmes...)
    C.  Tableau VI  sur le type de données  

 4.      II.1.4.  texte

Les textes issus d’un catégoriseur ou déjà étiquetés se rapportent nécessairement à une convention. Ils sont peu répandus, peut-être parce qu’ils seraient une ressource produite à volonté, et non compatibles : « [...] il est difficile de trouver un standard pour les corpus lemmatisés, chacun proposant ses propres règles. » (Brunet, 2000 : 3). Parce que des textes étiquetés et leur convention étant relativement peu détaillés, ils se justifieraient sans développement. Les décrire nous permet d’une part de mesurer ce détail, d’autre part d’observer les constantes de balise.

Sans s’engager dans un examen minutieux, il est constaté de façon récurrente que les listes extraites des catégoriseurs sont de niveau élémentaire, scolaire. La remarque concerne aussi les corpus annotés comme Frantext ou le British National Corpus, les jeux d’étiquettes à titre de convention comme EAGLES, et de tests comparatifs avec GRACE.

Frantext est une base détenue dans le site de l’ATLIF, comprenant des millions de mots annotés. Il est possible d'extraire des informations grâce à des requêtes poussées aux possibilités combinatoires très intéressantes. Une liste de formes peut par exemple être rédigée et appliquée à des époques différentes pour apprécier l'évolution d'un vocabulaire, de même, il est possible de composer des séquences grammaticales variées puis juger de la pertinence d'une tournure. Eagles est un standard d’étiquettes de morphosyntaxe établi afin d’être applicable à chaque langue et tout logiciel. Elles sont en anglais et les contributions ont regroupé essentiellement des laboratoires européens. Un travail a abouti en 1996, et qui s'est poursuivi avec ISLE. L'action GRACE a été initiée en 1994 et les résultats publiés en 1998. Il s’agit de comparer les performances des catégoriseurs portant sur la langue française. Pour ce faire un jeu d’étiquette a été mis au point pour effectuer une passerelle avec l’ensemble des jeux déjà en usage dans les logiciels testés.

Après observation de l’ensemble de ces listes, tout en restant globalement au même niveau, une certaine variété s’en dégage, comme des reconnaissances morphologiques particulières, dessinant des familles de mots, et une précision au niveau du syntagme, par exemple pour les dates. Le BNC paraît plus détaillé avec le « enriched tagset ». Il apparaît toutefois que ce dernier soit plus lié au lexique lui-même qu'à une réelle prise en compte de problématiques grammaticales, d'interaction entre éléments et de pratique langagière. Aucune ne retient la question de la variété des temps, elles laissent de côté les notions d’impersonnel, de passif, d’aspectuel, de complétive, de comparaison etc. ce qui justifie le qualificatif de scolaire. Les auteurs de ces travaux ne réfléchissent toutefois pas nécessairement dans une logique de palier. Le jeu d'étiquette peut largement suffir à nombre d'études et n'est en soi qu'un débroussaillage avant d'autres traitements, eux plus pointus. Les recherches ne porteraient pas sur la complexification des étiquettes mais sur les performances en matière de rapidité, d'accessibilité et d'exactitude.

Quoi qu’il en soit, si l’on trouve dans les notices et certaines études nombre de justifications, d’approfondissements et d’éventails d’énoncés en situation, sur tel ou tel aspect de la catégorisation, et quand bien même le jeu d'étiquette serait jugé assez riche et étalé, la convention demeure pour une grande part implicite. Les questionnements et les perspectives ne manquent pourtant pas.


 5.      II.1.5.  bibliographie

         BRUNET Étienne, « Qui lemmatise dilemme attise », Revue électronique Lexicométrica n°2, 2000, http://www.cavi.univ-paris3.fr/lexicometrica/articlesResumes.html.en janvier 2001.
     DRIVAUX Marie-Hélène, Les années Petit Robert, de Acide à ZEP, quarante années de langue française, supplément au dictionnaire Le Robert, 95 p.
     MINEL Jean-Luc, DESCLÉS Jean-Pierre, CARTIER Emmanuel, CRISPINO Gustavo, BEN HAZEZ Slim, JACKIEWICZ Agata, « Résumé automatique par filtrage sémantique d’informations dans des textes », Technique et Science informatiques, 2001, 3, Hermes, 369-395.
http://www.lalic.paris4.sorbonne.fr/articles/1999-2000/Minel/tsi.pdf
     MIRANDA Serge, Base de données, Dunod, 2002, 457 p.

 6.      II.1.6.  liens

     Corpus catégorisé (Dominique Labbé), « Oxford Text Archive » 
http://ota.ahds.ac.uk/texts/2466.html

 Bases lexicales

     Mots outils et dictionnaires « Wiktionnaire »
http://fr.wiktionary.org/wiki/Page_d%27accueil
     Grammaticaux, fréquence et phonétique « Lexique »
http://www.lexique.org/outils/Manuel_Lexique.htm#_Toc108519024
     Noms communs et propres, « ABU », la bibliothèque universelle.  
http://abu.cnam.fr/DICO/
     Mots fléchis, « Morphalou »
http://www.cnrtl.fr/lexiques/morphalou/

 Listes thématiques

     Pédagogique, « craeemd »
http://www.ac-amiens.fr/pedagogie/craeemd/langage/lexique/lexique.htm
     Pédagogique, « o.bacquet »
http://o.bacquet.free.fr/db2.htm
     Glossaire typographique et linguistique, « Babel ».  
http://alis.isoc.org/glossaire/index.html
     Glossaire théâtre, « UQAM »
http://www.theatrales.uqam.ca/glossaire.html

 Bases de textes littéraires en langue française

     Les documents de la BNF., « Gallica »,  
http://gallica.bnf.fr/textes.htm
     La bibliothèque française, « Athena »
http://un2sg4.unige.ch/athena/html/francaut.html
     Les ressources de l'INALF/ATLIF/CNRTL, « Frantext »,
http://www.cnrtl.fr/corpus/frantext/
     La bibliothèque universelle du CNAM, « ABU », .  
http://abu.cnam.fr/BIB/
     Les libres et gratuits, « eBook »   
http://www.ebooksgratuits.com/ebooks.php?categorie=romans&offset=500
     Une base formatée hypertexte, « Intratext »
http://www.intratext.com/FRA/
     La librairie du français, « Logos »   
http://www.logoslibrary.eu/pls/wordtc/new_wordtheque.wcom_literature.literaturea_page?lang=FR&letter=A&source=search&page=1
     La bibliothèque libre, « Wikisource »,  
http://fr.wikisource.org/wiki/Accueil
     La bibliothèque libre et sous droit, « Wikilivre »,
http://www.wikilivres.info/wiki/index.php/Main_Page

 Bases de textes spécifiques en langue française

     Politiques, « PoliText »  
http://www.unice.fr/ILF-CNRS/politext/
     Sélection sur Molière, Corneille, Racine, « ENS-LSH  »  
http://ecole-ouverte.ens-lsh.fr/rubrique.php3?id_rubrique=137
     Droits de l'homme, « LLI  »  
http://www-lli.univ-paris13.fr/ressources/DH/dh.v1.0.tar.gz
     Traduction d'auteurs antiques, « Bibliotheca Classica Select »  
http://bcs.fltr.ucl.ac.be/Traduc02.html

 Bases de textes mélangés en langue anglaise

     Littéraires, « Oxford Text Archive »  
http://ota.ahds.ac.uk/
     Littéraires, « Literature.org », des auteurs français en anglais 
http://www.literature.org/authors/
     Littéraires, variés, « Internet Archive »  
http://www.archive.org/details/texts


     La convention grammaticale, pour Notule 1.1   IV.  
     Le récapitulatif des balises en usage dans Notule 1.1
     L’ appropriation numérique d’un texte
     La base de données lexicale   III.2.  
     La page d’accueil
     Le sommaire des pages
       Imprimer  

       Site       motte 0.5  
     Rédaction : 01.04.2004      Publication : 24.10.2006
      http://cadrat.saynete.net2003 - 2018