.1. Introduction | 0.1. Résumé | ||
.0.2 Abstract | 0.3. Mots-clefs | ||
.2. Changement de sujet } | A. B. |
Graphique des phrases dans Hamlet Tableau des tirades dans Hamlet |
|
.3. Continuité du discours } | C. D. |
Graphique des phrases, Terre des hommes Tableau des paragraphes de Terre des hommes |
|
.4. Autres figures | E. | Graphique des phrases dans Pilote de guerre | |
.4.1 Constance | F. | Tableau sur la continuïté, Pilote de guerre | |
.4.2 Déclin | G. | Tableau sur le déclin pour Pilote de guerre | |
.4.3 Accroissement | H. | Tableau sur l'accroissement, Pilote de guerre | |
.4.4 Chute | I. | Tableau sur la chute pour Pilote de guerre | |
.4.5 Superposition | J. | Tableau sur la superposition, Pilote de guerre | |
.5. Application d’un nuage de bulles aux mots-outils | K. | Graphique sur les mots-outils, Le Petit Prince | |
.6. Conclusion | |||
.7. Une bibliographie indicative sur le longueur des phrases |
.A. | Graphique en secteur du volume de l'œuvre |
.B. | Graphique du volume de l'œuvre avec Citadelle |
.C. | Tableau du relevé des occurrences pour l'étude |
.D. | Tableau du relevé des occurrences dans Frantext |
.A. Mots commençant par e | |
.B. Prénoms, pays et communes fr. | .F. Caractères spéciaux |
.C. Abréviations | .G. Interjections |
.D. Mots-outils et assimilés | .H. Dictionnaire des catégories |
.E. Mots composés | .I. Dictionnaire des noms propres |
Comme il a été conclu dans le chapitre I.2. les ressources linguistiques seraient un élément déterminant pour les progrès du T.A.L. En établir le panorama est une tâche vaste, notamment parce qu’elles peuvent être extraites de toutes sortes de travaux. La première d’entre elles, c’est le texte. Le choix de tel type d’écrit influe sur les traitements qui vont être appliqués. Un écrit recelant des fautes d’accord pourra difficilement se comporter de la même façon qu’un texte correct, bien qu’il s’agisse d’une contrainte comme une autre : un énoncé comme « je choisi » est aisément résolu par une règle.
Les ressources peuvent être destinées à l’observation, en tant qu’objet. Parmi celles-ci, toutes sortes de textes sont largement disponibles sur la toile, soit comme énoncé instable, extrait d’un site, soit comme donnée proprement dite, avec les bases de texte littéraire. La crédibilité de ces ressources peuvent se poser de multiples façons, par exemple en terme de fidélité à une reproduction : « élève nous est-il présenté sous trois habits dans l’Émile : elève (145 occurrences), eleve (18) et éleve (13) » (Brunet, 2000 : 3), chez J.J. Rousseau, et ramène encore la question de l’orthographe à un niveau élémentaire, de norme. Il se peut aussi que le texte soit tout simplement bogué et voir apparaître en plein milieu une série de caractères brouillons, ou relever des coupures.
Les ressources sont aussi employées à la structuration, par exemple les fonctionnalités de synthèse dans Contexto, disposant d'une base dont les « énoncés récapitulatifs sont aisément identifiables au moyen de locutions comme : pour nous résumer... nous pouvons récapituler/résumer en disant...[...] lexique verbal de la causalité (avec des verbes comme faciliter, aider, gêner, augmenter, diminuer [...] » (Minel, 2000 : 17-18). Toute liste de mots est intéressante à travailler, l’on peut par exemple envisager un découpage à la fois chronologique et culturel pour dégager le champ lexical d'une génération, comme le « cool » dans les années 70 ou « contester » dans les années 60, annexe au dictionnaire Robert (Drivaux, 1999 : 10, 46). Ces listes de mots peuvent être extraites à partir de textes pour les thématiques, et les grammaticales, de sites spécialisés comme ABU ou lexique.org. Il s’agit de dictionnaires conférant pour chaque mot plusieurs étiquettes : phonétique, fréquence d’apparition... Les sites en usant à d’autres fins, comme les mots croisés, sont un aspect non négligeable tant le domaine ludique est étendu. L’application sémantique en est donnée au chapitre sur les ontologies, § IV.7., un autre exemple est fourni par la perspective de traduction, § V.1. Il arrive que les écrits servent à la structuration comme les corpus alignés pour la traduction, ou les listes à l’observation pour des travaux de lexicologie.
Nous venons d’énumérer divers types de données en accès direct, sous forme de bases destinées à l’observation, une seule source, et à la structuration, avec l’interaction de plusieurs sources. Elles peuvent se présenter en tant que logiciels créant des ressources. Il s’agit d’une application comme les hautes fréquences de Textstat, ou le moteur de recherche du TLFI (Trésor de la Langue Française Informatisé). Pour ce dernier le facteur de réutilisabilité est plein. C’est-à-dire que la base possède des constantes de définition et de mise en page qui permettent de la reconstituer ou de requérir des listes, par exemple un relevé des transitifs et intransitifs verbaux à partir de l’ensemble des verbes. Le stade où ce facteur n’opère plus de la même façon est celui où le logiciel filtre la recherche, de même que les étapes de traitements. Il s’agit de générer des ressources, en bloquant l’accès à celles initiales. Par exemple la base Frantext présente un très vaste corpus de textes dont une partie catégorisée, exploitables par un moteur de recherche élaboré, pour manipuler des listes de mots et des catégories grammaticales. Les textes eux-mêmes sont en accès libre sur le site de CNTRL. Il est certain que plus les ressources sont accessibles, plus elles sont riches, et plus les possibilités de génération augmentent. Mais elles entraînent alors des considérations qui n’ont plus à voir avec la linguistique elle-même.
Les restrictions de ressources sont d’ordre financier, Frantext catégorisé n’est disponible que sur abonnement et sa base comporte des textes sous droits. Ce dernier point demeure une aubaine puisqu’il permet de travailler des oeuvres contemporaines, mais un distinguo d’avec les oeuvres libres de droits, accessibles et gratuites, aurait considérablement enrichi son intérêt.
Une autre restriction est technique : le format dans lequel se trouvent ces données peut empêcher une exploitation par un logiciel autre que prévu initialement. C’est le cas de toutes les bases sous XML. Si nous sommes en présence d’un standard largement diffusé et que les outils ne manquent pas pour l’exploiter, il présente l’inconvénient de reformater le texte, posant la question d’un déterminisme sur son traitement, et d’un agencement sous forme hiérarchique, qui peut mal correspondre à la variété des facteurs définissant la langue. Ce questionnement n’est pas propre au texte, et correspond aux fondements de la base de données qui « comprend trois composantes : des structures de données (pour la définition), des opérateurs (pour la manipulation des structures) et des contraintes (induites par les structures). » (Miranda, 2002 : XVII)
Parmi les stratégies de traitement textuel, le principe des expressions régulières est d’user du texte tel qu’il est pour en extraire des informations. Le concept XML ou SQL (Structured Query Language) est celui de la base de données, c’est-à-dire du rassemblement d’informations pour leur redonner leur valeur de texte plein. Il s’agit donc de deux principes opposés, texte plein contre texte structuré. Le premier semblerait mieux s’accorder avec la notion d’écrit. C’est de manière générale l’exclusivité du second qui pourrait entraver le développement des expressions régulières comme outil de même importance, et gêner la possible association des deux.
Il faut conserver à l’esprit que la finalité d’un formatage est de permettre un affichage varié. L’intérêt consiste à laisser transparentes et accessibles les diverses étapes de transformation du texte : aux fins de la crédibilité du résultat ; de la transformation en ressources d’un morceau ; de la possibilité d’un réaiguillage du traitement sur une autre problématique.
Les tableaux ci-dessous reprennent les diverses distinctions opérées entre les ressources ainsi que le chapitre II.2. sur les logiciels.
A. Schéma IV sur la typologie des ressources
Texte plein (ou original) : |
Texte étiqueté dans la convention Notule (et plus généralement de tous les catégoriseurs). | |
Nous | Nous <*nous Pro:Pers/Suje+PL+P1 /amb> | |
Texte balisé au format XML |
Texte structuré au format XML (employé par Notule, mais il pourrait revêtir d'autres formats). | |
<MOT>Nous</MOT> | <MOT> <FORME>Nous</FORME> <LEMME1>nous</LEMME1> <CATEGORIE1>Pro:Pers/Suje+PL+P1</CATEGORIE1> <MARQUEUR>/amb</MARQUEUR> </MOT> |
|
Texte codé en liste avec Python |
Texte codé en liste imbriquée avec Python | |
texte=['nous'] | texte=['nous',['nous','Pro:Pers/Suje+PL+P1','/amb']] |
Type | Origine | Genre | ||
Données initiales |
Énoncés de site (registre varié, paragraphe instable) | >>> |
Forums, tutoriaux, commentaires... | |
Énoncés de bases de données de site (registre assez précis, paragraphe structuré) | >>> |
Textes littéraires, juridiques, dépêches journalistiques... | ||
Données structurantes | Annexes (jeu, encyclopédie, thésaurus...) | >>> |
Segments d’énoncés (listes de mots, locutions...) | |
Spécialisées (linguistique, littéraire...) | >>> |
Ibidem ci-dessus et Segments d’énoncés amplifiés (lemmes, statistiques, sèmes...) |
Les textes issus d’un catégoriseur ou déjà étiquetés se rapportent nécessairement à une convention. Ils sont peu répandus, peut-être parce qu’ils seraient une ressource produite à volonté, et non compatibles : « [...] il est difficile de trouver un standard pour les corpus lemmatisés, chacun proposant ses propres règles. » (Brunet, 2000 : 3). Parce que des textes étiquetés et leur convention étant relativement peu détaillés, ils se justifieraient sans développement. Les décrire nous permet d’une part de mesurer ce détail, d’autre part d’observer les constantes de balise.
Sans s’engager dans un examen minutieux, il est constaté de façon récurrente que les listes extraites des catégoriseurs sont de niveau élémentaire, scolaire. La remarque concerne aussi les corpus annotés comme Frantext ou le British National Corpus, les jeux d’étiquettes à titre de convention comme EAGLES, et de tests comparatifs avec GRACE.
Frantext est une base détenue dans le site de l’ATLIF, comprenant des millions de mots annotés. Il est possible d'extraire des informations grâce à des requêtes poussées aux possibilités combinatoires très intéressantes. Une liste de formes peut par exemple être rédigée et appliquée à des époques différentes pour apprécier l'évolution d'un vocabulaire, de même, il est possible de composer des séquences grammaticales variées puis juger de la pertinence d'une tournure. Eagles est un standard d’étiquettes de morphosyntaxe établi afin d’être applicable à chaque langue et tout logiciel. Elles sont en anglais et les contributions ont regroupé essentiellement des laboratoires européens. Un travail a abouti en 1996, et qui s'est poursuivi avec ISLE. L'action GRACE a été initiée en 1994 et les résultats publiés en 1998. Il s’agit de comparer les performances des catégoriseurs portant sur la langue française. Pour ce faire un jeu d’étiquette a été mis au point pour effectuer une passerelle avec l’ensemble des jeux déjà en usage dans les logiciels testés.
Après observation de l’ensemble de ces listes, tout en restant globalement au même niveau, une certaine variété s’en dégage, comme des reconnaissances morphologiques particulières, dessinant des familles de mots, et une précision au niveau du syntagme, par exemple pour les dates. Le BNC paraît plus détaillé avec le « enriched tagset ». Il apparaît toutefois que ce dernier soit plus lié au lexique lui-même qu'à une réelle prise en compte de problématiques grammaticales, d'interaction entre éléments et de pratique langagière. Aucune ne retient la question de la variété des temps, elles laissent de côté les notions d’impersonnel, de passif, d’aspectuel, de complétive, de comparaison etc. ce qui justifie le qualificatif de scolaire. Les auteurs de ces travaux ne réfléchissent toutefois pas nécessairement dans une logique de palier. Le jeu d'étiquette peut largement suffir à nombre d'études et n'est en soi qu'un débroussaillage avant d'autres traitements, eux plus pointus. Les recherches ne porteraient pas sur la complexification des étiquettes mais sur les performances en matière de rapidité, d'accessibilité et d'exactitude.
Quoi qu’il en soit, si l’on trouve dans les notices et certaines études nombre de justifications, d’approfondissements et d’éventails d’énoncés en situation, sur tel ou tel aspect de la catégorisation, et quand bien même le jeu d'étiquette serait jugé assez riche et étalé, la convention demeure pour une grande part implicite. Les questionnements et les perspectives ne manquent pourtant pas.
La convention grammaticale, pour Notule 1.1 IV. Le récapitulatif des balises en usage dans Notule 1.1 L’ appropriation numérique d’un texte La base de données lexicale III.2. |
|||
La page d’accueil Le sommaire des pages |
Imprimer |
||
Rédaction
: 01.04.2004 Publication : 24.10.2006
http://cadrat.saynete.net2003 - 2024 |