+ Des
ressources en corpus, isotopies et programmes
+ Des bases de
textes
+ Des textes
actualisés
1. Le
texte actualisé
2. Une
base de textes et de flux
Des textes
catégorisés
+ Des listes de
mots
Mots-outils (français, jan-02/aoû-10)
Mots pleins (français, jan-99)
Mots composés (français, jan-03/jan-05)
Noms propres (français, jan-99/a)
Caractères spéciaux (français, jan-02/mar-05)
Abréviations (français, jan-03/jan-05)
Verbes auxiliaires conjugués (français, jan-03/jan-04)
Verbes auxiliaires et irréguliers (corse, jun-05, 1.56)
Olive (corse, français, juin 2005, jun-05)
Couleurs (anglais, juin 2005, jun-05)
Couleurs (français, juin 2005, jun-05)
Constellations (français, mars 2004, mar-04)
+ Un spicilège de
codes
+ Le
formatage
+ Le
découpage
+ Le programme du
découpage lexical en Macro VBA Word
1. La
description du programme
2. Le
code de découpage de la ponctuation
3. Le
code de découpage lexical
+ Le programme du
découpage lexical en Python
1. La
description du programme
2. Le
code de découpage lexical
+ Le
triage
+ L’
étiquetage
+ Le programme des
verbes fléchis pour le corse, en Python
1. La
présentation du code
2. L’
usage de la liste
3. Le
code de flexion verbale
+ L’utilisation et le code de la
catégorisation grammaticale pour le français, en Python
1. Le
mode d’emploi
2. Le
déroulement de la catégorisation
3. L’
écriture d’une règle
3.1. L’
identification
3.2. Le
contenu
3.3. La
hiérarchie
4. L’
insertion d’une base lexicale
5. La
catégorisation d’un corpus dans un fichier
6. Le
résumé des marqueurs
7. La
correction des règles
8. Des
erreurs possibles
8.1. Des
erreurs dans le programme
8.2. Des
erreurs après la catégorisation
+ Des articles d’
études sur le traitement automatique de la langue
+ Le
balisage graphique d’un texte
.1. Introduction |
0.1. Résumé |
|
.0.2 Abstract |
0.3. Mots-clefs |
|
.2. Changement de sujet } |
A.
B. |
Graphique des phrases dans Hamlet
Tableau des tirades dans Hamlet |
.3. Continuité du discours } |
C.
D. |
Graphique des phrases, Terre des hommes
Tableau des paragraphes de Terre des hommes |
.4. Autres figures |
E. |
Graphique des phrases dans Pilote de guerre |
.4.1 Constance |
F. |
Tableau sur la continuïté, Pilote de guerre |
.4.2 Déclin |
G. |
Tableau sur le déclin pour Pilote de guerre |
.4.3 Accroissement |
H. |
Tableau sur l'accroissement, Pilote de guerre |
.4.4 Chute |
I. |
Tableau sur la chute pour Pilote de guerre |
.4.5 Superposition |
J. |
Tableau sur la superposition, Pilote de guerre |
.5. Application d’un nuage de bulles aux mots-outils |
K. |
Graphique sur les mots-outils, Le Petit Prince |
.6. Conclusion |
|
|
.7. Une bibliographie indicative sur le longueur des phrases |
1. Une
présentation de l’étude 2. Les
commentaires 3. Des
liens
.A. |
Graphique en secteur du volume de l'œuvre |
.B. |
Graphique du volume de l'œuvre avec Citadelle |
.C. |
Tableau du relevé des occurrences pour l'étude |
.D. |
Tableau du relevé des occurrences dans Frantext |
1. Une
présentation de l’étude 2. Les
commentaires
1. Une
présentation de l’Étude 1.1. La
discipline de la lexicométrie 1.2. La
méthode lexicométrique 1.3. Les
logiciel de lexicométrie 1.4. Le
procédé d’analyse factorielle 2. Le
graphique de représentation factorielle 3. Les
commentaires 3.1. Une
homogénéité de l’œuvre
3.2. La
nature 3.3. Le
désert 3.4. La
confrontation 3.5. Le
vol 3.6. L’
idéal 3.7. La
modernité 3.8. L’
apologue 3.9. La
conclusion 4. Le
tableau de partition du corpus sous Hyperbase
5. Des
liens pour des études lexicométriques
+ La
constitution de ressources, de données, d'énoncés...
+ L’
appropriation numérique d’un texte
1. Les
méthodes d’appropriation 2. Les
erreurs sur support papier 3. La
remise en forme 4. Une
bibliographie
+ Les
ressources lexicales
II.1.
1. La
destination 2. Les
restrictions 3. Une
typologie 4. Le
texte 5. Une
bibliographie 6. Des
liens .A. Typologie des ressources
.B. Format du texte
.C. Type de données
+ Des
tests de catégorisation et de traduction
II.5.
1. Adjectif qualificatif 1.1 « fort » 1.2 « forte » 2. Composé 2.1. « au juste » adverbe composé 2.2. « au juste » préposition + adjectif 3. Participe passé 3.1. Participe passé aspectuel accompli 3.2 Participe passé aspectuel inaccompli + complément d’agent 4. « bien que » 4.1 « bien que » adjectif + complétive 4.2 « bien que » adverbe + complétive 4.3 « bien que » locution adverbiale 4.4 « bien que » concessive 5. Pronom 5.1. « la le » 5.2. « les » 5.3. « la » nom 6. Complétive et relative 6.1 « demander que » 6.2 « suggérer que » 6.3 « suggérer que » + subjonctif 7. Liens
+ La
base de données lexicale
III.2.
1. Les
textes et énoncés pour Notule
2. L’
énoncé et les étiquettes pour Notule
3. Les
bases grammaticales et lexicales pour Notule
3.1. Les
modifications apportée aux fichiers importés
3.2. La
rédaction d’une base spécifique
3.3. Le
contenu des formes de la base pour Notule
4. Une
bibliographie
.A. Mots commençant par e |
|
.B. Prénoms, pays et communes fr. |
.F. Caractères spéciaux |
.C. Abréviations |
.G. Interjections |
.D. Mots-outils et assimilés |
.H. Dictionnaire des catégories |
.E. Mots composés |
.I. Dictionnaire des noms propres |
+ La
réalisation de programmes
+ Les
logiciels linguistiques
II.2.
1. Une
approche théorique des logiciels de linguistique
A. Une
copie d’écran de fenêtres emboitées
2. Une
approche théorique des logiciels bureautiques
B. Un
tableau d’affichage d’un code
+ La description du logiciel
Notule
1. L’
intérêt
2. L’
exploitation
3. Les
spécifications
4. Le
téléchargement et l’installation
5. Le
lancement
+ Les
langages de programmation
II.3.
+ Une
mise en perspective des langages de programmation
1.
1.1. Un
essai de langages
1.2. La
rapidité d’exécution
1.3. Une
comparaison entre PHP et Python
+ Le langage
Python II.3.2.
1. La présentation du
langage Python
2. Le traitement du texte avec les
chaînes et listes en Python
2.1. Les
chaînes en Python
2.1.A. Une
chaîne avec extraction en Python
2.2. Les
chaînes en requête : les expressions régulières
2.2.B. Une
chaîne recherchée en Python
2.2.C. Une
chaîne extraite en Python
2.2.D. Une
chaîne modifiée (pas à pas) en Python
2.2.E. Une
chaîne modifiée (en une seule instruction) en Python
2.3. Les
listes en Python
2.3.F. Une
liste imbriquée créant une arborescence en Python
2.3.G. Une
liste imbriquée au format Notule en Python
2.3.H. Le
basculement d’une chaîne vers une liste en Python
2.3.I. Une
liste avec nouvel élément en Python
2.3.J. Une
liste parcourue en Python
3. Des
liens pour Python (version 2.x)
3.1. De la
documentation pour Python
3.2. Des
ressources pour Python
3.3. Du
code pour Python
3.4. Les
expressions régulières pour Python
3.5. Le
traitement linguistique pour Python
+ Le langage
PHP II.3.3.
1. La
présentation du langage PHP
2. Le
traitement du texte en langage PHP
+ La
gestion de l’ambiguïté
II.4.
1. L’
angle d’approche 2. Un
usage littéraire 3. Un
phénomène linguistique 4. Un
enjeu numérique 5. Une
difficulté informatique 6. Un
positionnement notionnel
+ L’écriture d’un
catégoriseur III.1.
1. Les
méthodes d’étiquetage morphosyntaxique 2. Approche polyvalente 3. L’
architecture du programme 3.1. La
rédaction du programme 3.2. Le
déroulement d’une catégorisation 4. L’
écriture des règles grammaticales 4.1. Le
résumé des possibilités de la requête 4.2. La
forme et résolution de la requête 4.3. Le
facteur hiérarchique 4.4. La
correction des règles 5. La
bibliographie 6. Les
liens
+ La description
catégorielle III.3.
1. La
validité du découpage 2. Les
catégories grammaticales 2.1. La
polarité nominale / verbale
2.2. La
correspondance entre concept et discours
3. Les
critères de classement 4. Le
glissement catégoriel 5. Les
adaptations et terminologie 6. Le
normatif comme déterminisme 7. Les
considérations de classement 7.1. Le
syntaxique 7.2. La
sémantique 7.3. Le
morphologique 7.4. La
pragmatique 7.5. L’
étymologique 7.6. L’
informatique 7.7. Une
synthèse des considérations 8. Une
bibliographie
+ Un
état des ambiguïtés
1. La
présentation de l’étude
2. Le
commentaire 3. La
conclusion A. Le
graphique de répartition des séquences
B. Le
tableau de fréquences des séquences
+ Une
grammaire 1.
1. L’
établissement d’une grammaire
2. Les
paliers de découpage d’une phrase
+ Le contenu des
étiquettes IV.2.
1. Les
élements du texte 1.1. Mot et forme 1.2. Séquence et syntagme 1.3. Phrase et proposition 2. La
segmentation du texte
2.1. Le
découpage 2.2. Le
collage 3. La
constitution d’une étiquette 3.1. Le
lemme 4. Le
résumé de la terminologie 5. La
morphologie 5.1. Le
genre, nombre et personne 5.2. L’
accord 5.3. La
casse 6. La
ponctuation 6.1. Le
format 6.2. Les
traits 6.3. Les
difficultés 7. La
forme 7.1. L’
abrégé 7.2. L’
inconnu 7.3. Le
composé 8. Une
bibliographie 9. Des
liens A. Le
journal l’aurore Le récapitulatif des
balises en usage dans Notule 1.1
+ La description des
mots composés IV.3.
1. Une
description 2. Le
pronom relatif 3. La
conjonction complétive 4. L’
adverbe 5. Les
conjonctions circonstancielles 5.1. La conjonction circonstancielle
temporelle 5.2. La conjonction circonstancielle de
concession 5.3. La
conditionnelle - hypothétique 5.4. Les
additions et égalités 6. La
construction corrélative 7. Les
complétives et relatives 8. Les
propositions enchâssées 9. Une
bibliographie 10. Des
liens
+ Les
catégories IV.4.
+ Le groupe des nominaux
adjectifs, noms et déterminants IV.4.1.
1. L’
adjectif 1.1. Le
qualificatif de l’adjectif
1.2. Les
numéraux de l’adjectif
2. Le
nom 2.1 La
détermination du nom
2.2 Le
propre du nom
2.3 Le
prénom du nom
2.4 La
particule du nom
3. Le
déterminant 3.1. L’
article du déterminant
3.2. L’
indéfini du déterminant
3.2.1 Une
distinction du déterminant
3.2.2 Un
classement du déterminant
4. Une
bibliographie
+ Le groupe des déitiques
adverbes et pronoms IV.4.2.
1. Les
adverbes 1.1. La
caractérisation des adverbes
1.2. Le
découpage des adverbes
1.3. L’
interrogation comme adverbe
1.4. L’
affirmation comme adverbe
1.5. La
liaison comme adverbe
1.6. L’
interjection comme adverbe
2. Le
pronom 2.1. Le
relatif comme pronom
2.2. Le
personnel comme pronom
3. Une
bibliographie
+ Le groupe des liaisons
prépositions et conjonctions IV.4.3.
1. Les
prépositions 2. Les
conjonctions 2.1. La conjonction de
coordination 2.2. La conjonction de
subordination
+ Le groupe des verbes
conjugués et participes IV.4.4.
1. Le
verbe 1.1. Les
temps de conjugaison 1.2. Les
temps composés 1.3. L’
impératif 1.4. Le
subjonctif 1.5. L’
infinitif 2. Le
participe passé 2.1. Le
degré d’actualisation 2.2. Les
constructions composées 2.3. La
voix passive 2.4. La
valeur aspectuelle 2.5. Le
complément d’agent 2.6. Le
participe présent 3. Une
bibliographie sur le verbe
4. Une
bibliographie sur le participe
+ La revue des
mots-outils IV.5.
+ La description du mot
subordonnant «que» IV.6.
1. Une
description 2. Le
pronom relatif 3. La
conjonction complétive 4. L’
adverbe 5. Les
conjonctions circonstancielles 5.1. La conjonction circonstancielle
temporelle 5.2. La conjonction circonstancielle de
concession 5.3. La
conditionnelle - hypothétique 5.4. Les
additions et égalités 6. La
construction corrélative 7. Les
complétives et relatives 8. Les
propositions enchâssées 9. Une
bibliographie 10. Des
liens
+ Les
ontologies ou listes de mots
IV.7.
1. Une
définition 2. Une
stragégie 3. La
toponymie 4. Les
verbes d’état 5. Les
verbes modaux 6. Une
bibliographie
+ Une
réflexion sur le T.A.L., ses applications et ses fondements
+ Les pages du
site pour des recherches, informations, résumés...
1. I.3.1. texte transformé
En trente ans de développement de l’ordinateur individuel, le rendu de l'écrit sur papier a été transporté d’une impression monochrome sur ruban à un atelier d’imprimerie de poche, et son emmagasinage de quelques kilos-octets sur bandes magnétiques aux médiathèques sur disque laser. L’évolution n’a pas gagné toutes les dimensions du mot, laissant le correcteur peiner sur des difficultés grammaticales élémentaires, la traduction des langues confondre des pléiades d'homonymes et l'investigation de milliers de pages numérisées se résoudre par tâtonnement et ruses.
Il se peut que l’inertie de l'écrit dans le giron du graphisme tienne à l’absence de moyens, ne possédant pas des locomotives comme les industries cinématographiques et ludiques pour les images de synthèse : « évolution exponentielle du marché et de l’offre. » (Latger, 2000 : 303). L’on fera remarquer que les fameux personnages virtuels ne le sont toujours qu’à moitié, parce que doublés par les comédiens. Le discours par synthèse vocale reste un défi : « les plus difficiles posés à l’intelligence artificielle. » (Haton, 2000 : 270). Le mouvement de l’image, qui a bondi des carrés monochromes aux paysages modélisés réactifs, surpasse celle de la phrase, incarnée dans les requêtes les bases de données relationnelles et le code de programmation, laissant le Traitement Automatique de la Langue à ses balbutiements.
S’en remettre à une sémantique indissociable de la nébuleuse de son énonciation, ramener les causes d’un contraste entre image et sens à une différence entre phénomènes physiques et caractéristiques humaines serait mal réaliser l’importance du décalage, ni s’engager sur les traces d’une possible réussite. Si la traduction n’a donné lieu qu’à des « résultats décevants » (Perrot, 1998 : 29), une analyse lexicométrique découpe l’œuvre d’Émile Zola, livrée sans repère, de manière chronologique (Barthélemy, 1998 : 67). Les limites sont peut-être à renvoyer du côté de la linguistique elle-même, interrogeant un traitement scientifique de cette « fonction non instinctive, acquise, une fonction de culture. » (Sapir, 1921 : 8), et donc pour partie attirée par la sphère déjà bien problématique des sciences cognitives, puisqu'il nous faut comprendre « culture » comme « humanité », au sens le plus large.
L’exploration de la cognition connue pour s’étendre en une « constellation de disciplines » (Varela, 1996 : qdc) est aussi alimentée par des domaines connexes : « Des progrès scientifiques dans des disciplines situées en amont, et des progrès techniques, instrumentaux et calculatoires, y ont également contribué de façon décisive. [...] Après une période riche en doctrine et pauvre en résultats, la profusion de résultats qu’elles connaissent depuis une dizaine d’années s’accompagne de désordres dans les fondements. » (Andler, 1996 : scd). Presque un siècle plus tôt cette même difficulté concerne la linguistique à travers la proximité de : « plusieurs sciences - psychologie, anthropologie, grammaire normative, philologie, etc. » et sur la complexité du fond : « Pris dans son tout, le langage est multiforme et hétéroclite ; à cheval sur plusieurs domaines, à la fois physique, physiologique et psychique, il appartient encore au domaine individuel et au domaine social ; il ne se laisse classer dans aucune catégorie des faits humains, parce qu'on ne sait comment dégager son unité. » (Saussure, 1916 : 24-25). Linguistique et cognition seraient par définition engagées dans la vieille problématique de toute démarche encyclopédique, de quantité et de cohérence : « former un arbre généalogique de toutes les sciences [...] les liaisons qu'elles ont entre elles [...]. Ce n'était pas chose facile. » (Diderot, 1750 : 214) et l'ingénierie linguistique, de se situer dans l'œil du cyclone.
4. I.3.4. bibliographie
ANDLER Daniel,
Encyclopaedia Universalis, « Sciences cognitives », 1996, CD-Rom.
BARTHÉLEMY Jean-Pierre, LUONG Xuan, « Représenter les données textuelles par les arbres... », congrés Traitement Automatique du Langage Naturel, 1998.
HATON Jean-Paul, « Reconnaissance Automatique de la Parole » in
Techniques et science informatiques, volume 19 n°1/2/3/2000, Hermes Science, pp.269-276.
DIDEROT Denis, « Prospectus »,
préface à l’Encyclopédie, octobre 1750, in
Diderot, Œuvres, philospohie, Tome I, Laffont, 1994, 1490 p.
LATGER Jean, « Les images de synthèse » in
Technique et science informatique, vol. 19 n°1-2-3/2000, Hermes Science, pp.291 à 301.
PERROT Jean,
La linguistique, PUF, coll. Que sais-je ?, n°570, 1998, 127 p.
SAPIR Edward,
Le langage, Introduction à l'étude de la parole, 1923, Payot, 1967, 232 p.
SAUSSURE Ferdinand de,
Cours de linguistique générale, Payot,
1916, rééd. 1995, 520 p.
VARELA Francisco J.,
Invitation aux sciences cognitives, 1996, Seuil, 122 p.