+ Des
ressources en corpus, isotopies et programmes
+ Des bases de
textes
+ Des textes
actualisés
1. Le
texte actualisé
2. Une
base de textes et de flux
Des textes
catégorisés
+ Des listes de
mots
Mots-outils (français, jan-02/aoû-10)
Mots pleins (français, jan-99)
Mots composés (français, jan-03/jan-05)
Noms propres (français, jan-99/a)
Caractères spéciaux (français, jan-02/mar-05)
Abréviations (français, jan-03/jan-05)
Verbes auxiliaires conjugués (français, jan-03/jan-04)
Verbes auxiliaires et irréguliers (corse, jun-05, 1.56)
Olive (corse, français, juin 2005, jun-05)
Couleurs (anglais, juin 2005, jun-05)
Couleurs (français, juin 2005, jun-05)
Constellations (français, mars 2004, mar-04)
+ Un spicilège de
codes
+ Le
formatage
+ Le
découpage
+ Le programme du
découpage lexical en Macro VBA Word
1. La
description du programme
2. Le
code de découpage de la ponctuation
3. Le
code de découpage lexical
+ Le programme du
découpage lexical en Python
1. La
description du programme
2. Le
code de découpage lexical
+ Le
triage
+ L’
étiquetage
+ Le programme des
verbes fléchis pour le corse, en Python
1. La
présentation du code
2. L’
usage de la liste
3. Le
code de flexion verbale
+ L’utilisation et le code de la
catégorisation grammaticale pour le français, en Python
1. Le
mode d’emploi
2. Le
déroulement de la catégorisation
3. L’
écriture d’une règle
3.1. L’
identification
3.2. Le
contenu
3.3. La
hiérarchie
4. L’
insertion d’une base lexicale
5. La
catégorisation d’un corpus dans un fichier
6. Le
résumé des marqueurs
7. La
correction des règles
8. Des
erreurs possibles
8.1. Des
erreurs dans le programme
8.2. Des
erreurs après la catégorisation
+ Des articles d’
études sur le traitement automatique de la langue
+ Le
balisage graphique d’un texte
.1. Introduction |
0.1. Résumé |
|
.0.2 Abstract |
0.3. Mots-clefs |
|
.2. Changement de sujet } |
A.
B. |
Graphique des phrases dans Hamlet
Tableau des tirades dans Hamlet |
.3. Continuité du discours } |
C.
D. |
Graphique des phrases, Terre des hommes
Tableau des paragraphes de Terre des hommes |
.4. Autres figures |
E. |
Graphique des phrases dans Pilote de guerre |
.4.1 Constance |
F. |
Tableau sur la continuïté, Pilote de guerre |
.4.2 Déclin |
G. |
Tableau sur le déclin pour Pilote de guerre |
.4.3 Accroissement |
H. |
Tableau sur l'accroissement, Pilote de guerre |
.4.4 Chute |
I. |
Tableau sur la chute pour Pilote de guerre |
.4.5 Superposition |
J. |
Tableau sur la superposition, Pilote de guerre |
.5. Application d’un nuage de bulles aux mots-outils |
K. |
Graphique sur les mots-outils, Le Petit Prince |
.6. Conclusion |
|
|
.7. Une bibliographie indicative sur le longueur des phrases |
1. Une
présentation de l’étude 2. Les
commentaires 3. Des
liens
.A. |
Graphique en secteur du volume de l'œuvre |
.B. |
Graphique du volume de l'œuvre avec Citadelle |
.C. |
Tableau du relevé des occurrences pour l'étude |
.D. |
Tableau du relevé des occurrences dans Frantext |
1. Une
présentation de l’étude 2. Les
commentaires
1. Une
présentation de l’Étude 1.1. La
discipline de la lexicométrie 1.2. La
méthode lexicométrique 1.3. Les
logiciel de lexicométrie 1.4. Le
procédé d’analyse factorielle 2. Le
graphique de représentation factorielle 3. Les
commentaires 3.1. Une
homogénéité de l’œuvre
3.2. La
nature 3.3. Le
désert 3.4. La
confrontation 3.5. Le
vol 3.6. L’
idéal 3.7. La
modernité 3.8. L’
apologue 3.9. La
conclusion 4. Le
tableau de partition du corpus sous Hyperbase
5. Des
liens pour des études lexicométriques
+ La
constitution de ressources, de données, d'énoncés...
+ L’
appropriation numérique d’un texte
1. Les
méthodes d’appropriation 2. Les
erreurs sur support papier 3. La
remise en forme 4. Une
bibliographie
+ Les
ressources lexicales
II.1.
1. La
destination 2. Les
restrictions 3. Une
typologie 4. Le
texte 5. Une
bibliographie 6. Des
liens .A. Typologie des ressources
.B. Format du texte
.C. Type de données
+ Des
tests de catégorisation et de traduction
II.5.
1. Adjectif qualificatif 1.1 « fort » 1.2 « forte » 2. Composé 2.1. « au juste » adverbe composé 2.2. « au juste » préposition + adjectif 3. Participe passé 3.1. Participe passé aspectuel accompli 3.2 Participe passé aspectuel inaccompli + complément d’agent 4. « bien que » 4.1 « bien que » adjectif + complétive 4.2 « bien que » adverbe + complétive 4.3 « bien que » locution adverbiale 4.4 « bien que » concessive 5. Pronom 5.1. « la le » 5.2. « les » 5.3. « la » nom 6. Complétive et relative 6.1 « demander que » 6.2 « suggérer que » 6.3 « suggérer que » + subjonctif 7. Liens
+ La
base de données lexicale
III.2.
1. Les
textes et énoncés pour Notule
2. L’
énoncé et les étiquettes pour Notule
3. Les
bases grammaticales et lexicales pour Notule
3.1. Les
modifications apportée aux fichiers importés
3.2. La
rédaction d’une base spécifique
3.3. Le
contenu des formes de la base pour Notule
4. Une
bibliographie
.A. Mots commençant par e |
|
.B. Prénoms, pays et communes fr. |
.F. Caractères spéciaux |
.C. Abréviations |
.G. Interjections |
.D. Mots-outils et assimilés |
.H. Dictionnaire des catégories |
.E. Mots composés |
.I. Dictionnaire des noms propres |
+ La
réalisation de programmes
+ Les
logiciels linguistiques
II.2.
1. Une
approche théorique des logiciels de linguistique
A. Une
copie d’écran de fenêtres emboitées
2. Une
approche théorique des logiciels bureautiques
B. Un
tableau d’affichage d’un code
+ La description du logiciel
Notule
1. L’
intérêt
2. L’
exploitation
3. Les
spécifications
4. Le
téléchargement et l’installation
5. Le
lancement
+ Les
langages de programmation
II.3.
+ Une
mise en perspective des langages de programmation
1.
1.1. Un
essai de langages
1.2. La
rapidité d’exécution
1.3. Une
comparaison entre PHP et Python
+ Le langage
Python II.3.2.
1. La présentation du
langage Python
2. Le traitement du texte avec les
chaînes et listes en Python
2.1. Les
chaînes en Python
2.1.A. Une
chaîne avec extraction en Python
2.2. Les
chaînes en requête : les expressions régulières
2.2.B. Une
chaîne recherchée en Python
2.2.C. Une
chaîne extraite en Python
2.2.D. Une
chaîne modifiée (pas à pas) en Python
2.2.E. Une
chaîne modifiée (en une seule instruction) en Python
2.3. Les
listes en Python
2.3.F. Une
liste imbriquée créant une arborescence en Python
2.3.G. Une
liste imbriquée au format Notule en Python
2.3.H. Le
basculement d’une chaîne vers une liste en Python
2.3.I. Une
liste avec nouvel élément en Python
2.3.J. Une
liste parcourue en Python
3. Des
liens pour Python (version 2.x)
3.1. De la
documentation pour Python
3.2. Des
ressources pour Python
3.3. Du
code pour Python
3.4. Les
expressions régulières pour Python
3.5. Le
traitement linguistique pour Python
+ Le langage
PHP II.3.3.
1. La
présentation du langage PHP
2. Le
traitement du texte en langage PHP
+ La
gestion de l’ambiguïté
II.4.
1. L’
angle d’approche 2. Un
usage littéraire 3. Un
phénomène linguistique 4. Un
enjeu numérique 5. Une
difficulté informatique 6. Un
positionnement notionnel
+ L’écriture d’un
catégoriseur III.1.
1. Les
méthodes d’étiquetage morphosyntaxique 2. Approche polyvalente 3. L’
architecture du programme 3.1. La
rédaction du programme 3.2. Le
déroulement d’une catégorisation 4. L’
écriture des règles grammaticales 4.1. Le
résumé des possibilités de la requête 4.2. La
forme et résolution de la requête 4.3. Le
facteur hiérarchique 4.4. La
correction des règles 5. La
bibliographie 6. Les
liens
+ La description
catégorielle III.3.
1. La
validité du découpage 2. Les
catégories grammaticales 2.1. La
polarité nominale / verbale
2.2. La
correspondance entre concept et discours
3. Les
critères de classement 4. Le
glissement catégoriel 5. Les
adaptations et terminologie 6. Le
normatif comme déterminisme 7. Les
considérations de classement 7.1. Le
syntaxique 7.2. La
sémantique 7.3. Le
morphologique 7.4. La
pragmatique 7.5. L’
étymologique 7.6. L’
informatique 7.7. Une
synthèse des considérations 8. Une
bibliographie
+ Un
état des ambiguïtés
1. La
présentation de l’étude
2. Le
commentaire 3. La
conclusion A. Le
graphique de répartition des séquences
B. Le
tableau de fréquences des séquences
+ Une
grammaire 1.
1. L’
établissement d’une grammaire
2. Les
paliers de découpage d’une phrase
+ Le contenu des
étiquettes IV.2.
1. Les
élements du texte 1.1. Mot et forme 1.2. Séquence et syntagme 1.3. Phrase et proposition 2. La
segmentation du texte
2.1. Le
découpage 2.2. Le
collage 3. La
constitution d’une étiquette 3.1. Le
lemme 4. Le
résumé de la terminologie 5. La
morphologie 5.1. Le
genre, nombre et personne 5.2. L’
accord 5.3. La
casse 6. La
ponctuation 6.1. Le
format 6.2. Les
traits 6.3. Les
difficultés 7. La
forme 7.1. L’
abrégé 7.2. L’
inconnu 7.3. Le
composé 8. Une
bibliographie 9. Des
liens A. Le
journal l’aurore Le récapitulatif des
balises en usage dans Notule 1.1
+ La description des
mots composés IV.3.
1. Une
description 2. Le
pronom relatif 3. La
conjonction complétive 4. L’
adverbe 5. Les
conjonctions circonstancielles 5.1. La conjonction circonstancielle
temporelle 5.2. La conjonction circonstancielle de
concession 5.3. La
conditionnelle - hypothétique 5.4. Les
additions et égalités 6. La
construction corrélative 7. Les
complétives et relatives 8. Les
propositions enchâssées 9. Une
bibliographie 10. Des
liens
+ Les
catégories IV.4.
+ Le groupe des nominaux
adjectifs, noms et déterminants IV.4.1.
1. L’
adjectif 1.1. Le
qualificatif de l’adjectif
1.2. Les
numéraux de l’adjectif
2. Le
nom 2.1 La
détermination du nom
2.2 Le
propre du nom
2.3 Le
prénom du nom
2.4 La
particule du nom
3. Le
déterminant 3.1. L’
article du déterminant
3.2. L’
indéfini du déterminant
3.2.1 Une
distinction du déterminant
3.2.2 Un
classement du déterminant
4. Une
bibliographie
+ Le groupe des déitiques
adverbes et pronoms IV.4.2.
1. Les
adverbes 1.1. La
caractérisation des adverbes
1.2. Le
découpage des adverbes
1.3. L’
interrogation comme adverbe
1.4. L’
affirmation comme adverbe
1.5. La
liaison comme adverbe
1.6. L’
interjection comme adverbe
2. Le
pronom 2.1. Le
relatif comme pronom
2.2. Le
personnel comme pronom
3. Une
bibliographie
+ Le groupe des liaisons
prépositions et conjonctions IV.4.3.
1. Les
prépositions 2. Les
conjonctions 2.1. La conjonction de
coordination 2.2. La conjonction de
subordination
+ Le groupe verbal
conjugués et participes IV.4.4.
1. Le
verbe 1.1. Les
temps de conjugaison 1.2. Les
temps composés 1.3. L’
impératif 1.4. Le
subjonctif 1.5. L’
infinitif 2. Le
participe passé 2.1. Le
degré d’actualisation 2.2. Les
constructions composées 2.3. La
voix passive 2.4. La
valeur aspectuelle 2.5. Le
complément d’agent 2.6. Le
participe présent 3. Une
bibliographie sur le verbe
4. Une
bibliographie sur le participe
+ La revue des
mots-outils IV.5.
+ La description du mot
subordonnant «que» IV.6.
1. Une
description 2. Le
pronom relatif 3. La
conjonction complétive 4. L’
adverbe 5. Les
conjonctions circonstancielles 5.1. La conjonction circonstancielle
temporelle 5.2. La conjonction circonstancielle de
concession 5.3. La
conditionnelle - hypothétique 5.4. Les
additions et égalités 6. La
construction corrélative 7. Les
complétives et relatives 8. Les
propositions enchâssées 9. Une
bibliographie 10. Des
liens
+ Les
ontologies ou listes de mots
IV.7.
1. Une
définition 2. Une
stragégie 3. La
toponymie 4. Les
verbes d’état 5. Les
verbes modaux 6. Une
bibliographie
+ Une
réflexion sur le T.A.L., ses applications et ses fondements
+ Les pages du
site pour des recherches, informations, résumés...
1. présentation de l’étude
De la lettre à l’encyclopédie et de la nouvelle au pavé, la longueur d’un ouvrage peut être très variable, jusqu’à en influencer la lecture et la classification dans tel ou tel genre. Pour juger de la taille d’une œuvre il suffit naturellement de jeter un oeil sur le nombre de page. L’on peut aussi affiner l’observation avec le nombre de caractère. Les deux graphiques ci-dessous dessinent une vue d’ensemble sur l’œuvre d’Antoine de Saint Exupéry et nous permet quelques commentaires. Les tableaux qui les complètent détaillent des occurrences comme la ponctuation et les mots. Un second tableau est extrait des statistiques de la base Frantext.
Le choix du caractère évite la problématique de la notion de mot et offre une parfaite stabilité pour la comptabilisation. D'un point de vue quantitatif, il semble qu’au-delà d’un certain seuil, le nombre de mots recoupe toujours le nombre de caractères.
Dans le découpage du texte, les majuscules ont été ignorées. Chaque séquence entre blanc compte pour un mot. Ont été séparés : les ponctuations, les mots apostrophés et les mots composés du type verbe+tiret+pronom.
commentaires
Vol de nuit n’est finalement pas beaucoup plus important que le Petit Prince. La lettre à un otage était déjà à vue d’oeil un texte court, mais ce type de représentation en secteur lui redonne, peut-être, un peu de son poids dans l’œuvre.
Nos deux récits autobiographiques se distinguent des deux fictions par leur importance. La taille des œuvres en nombre de signes alimenterait ainsi un découpage en chronologie et genre plutôt qu’en thème. Les autobiographies sont de même longueur pour deux contextes distincts de la vie de l’auteur, facilitant une disposition en miroir.
|
|
|
|
|
|
|
Œuvres |
Caractère |
Ponctuation |
Mot |
Vocable |
|
Courrier Sud |
146.689 |
5.663 |
26.004 |
4.859 |
|
Vol de nuit |
108.824 |
4.205 |
18.869 |
3.705 |
|
Terre des hommes |
250.371 |
8.079 |
45.279 |
7.213 |
|
Pilote de guerre |
248.597 |
8.662 |
44.554 |
6.494 |
|
Le Petit Prince |
83.101 |
3.432 |
15.774 |
2.441 |
|
Lettre à un otage |
36.923 |
1.045 |
6.599 |
1.875 |
|
Corpus |
874.505 |
31.086 |
157.079 |
14.088 |
C. Relevé statistique des occurrences pour l’étude |
|
Œuvres |
Date |
Genre |
Nombre
d’occurrences |
|
Courrier Sud |
1928 |
Roman
|
32.096 |
|
Vol de nuit |
1931 |
Roman |
23.328 |
|
Terre des hommes |
1939 |
Prose,
mélanges littéraires |
54.214 |
|
Pilote de guerre |
1942 |
Prose,
Roman |
53.787 |
|
Le Petit Prince |
1943 |
Prose, Roman |
18.747 |
|
Lettre à un otage |
1943 |
Prose, mélanges littéraires |
7.756 |
|
Nombre total d’occurrences du corpus |
189.928 |
|
Citadelle |
1944 |
Prose, mémoires |
225.811 |
|
Nombre total d’occurrences du corpus avec Citadelle |
415.739 |
D. Relevé statistique des occurrences dans Frantext
|
Citadelle n’apparaît pas dans le tableau de droite, car si son appropriation numérique ne pose pas de difficulté majeure, sa mise en forme et sa vérification nécessite un travail très important. En revanche le corpus est suffisamment propre pour être associé aux autres écrits dans les graphiques ci-dessus.
Ceux-ci sont surtout l’occasion d’un premier contact avec l’oeuvre, et de dégager quelques tendances.
Le relevé du nombre de vocables est d’emblée plus précis. Il permet de dessiner des pistes comme la richesse du vocabulaire de Terre des hommes, la ponctuation importante de Pilote de guerre qui suppose un style plus télégraphique ou des dialogues plus nombreux.
Les statistiques de base permettent aussi de comparer l’œuvre à celle d’autres auteurs qui ont le même type de comptabilisation.
En observant le résultat du premier tableau au second, il est à remarquer que le type découpage influe fortement sur les résultats.
3. liens
Proust, extraits et commentaires à partir des travaux d'E.Brunet, «
univ-mlv.fr »
http://www-syscom.univ-mlv.fr/~vignat/Html/Proust/techniq.html
Maupassant, étude du vocabulaire et comparatif «
Maupassant.free.fr »
http://maupassant.free.fr/cadre.php?page=voc