+ Des
ressources en corpus, isotopies et programmes
+ Des bases de
textes
+ Des textes
actualisés
1. Le
texte actualisé
2. Une
base de textes et de flux
Des textes
catégorisés
+ Des listes de
mots
Mots-outils (français, jan-02/aoû-10)
Mots pleins (français, jan-99)
Mots composés (français, jan-03/jan-05)
Noms propres (français, jan-99/a)
Caractères spéciaux (français, jan-02/mar-05)
Abréviations (français, jan-03/jan-05)
Verbes auxiliaires conjugués (français, jan-03/jan-04)
Verbes auxiliaires et irréguliers (corse, jun-05, 1.56)
Olive (corse, français, juin 2005, jun-05)
Couleurs (anglais, juin 2005, jun-05)
Couleurs (français, juin 2005, jun-05)
Constellations (français, mars 2004, mar-04)
+ Un spicilège de
codes
+ Le
formatage
+ Le
découpage
+ Le programme du
découpage lexical en Macro VBA Word
1. La
description du programme
2. Le
code de découpage de la ponctuation
3. Le
code de découpage lexical
+ Le programme du
découpage lexical en Python
1. La
description du programme
2. Le
code de découpage lexical
+ Le
triage
+ L’
étiquetage
+ Le programme des
verbes fléchis pour le corse, en Python
1. La
présentation du code
2. L’
usage de la liste
3. Le
code de flexion verbale
+ L’utilisation et le code de la
catégorisation grammaticale pour le français, en Python
1. Le
mode d’emploi
2. Le
déroulement de la catégorisation
3. L’
écriture d’une règle
3.1. L’
identification
3.2. Le
contenu
3.3. La
hiérarchie
4. L’
insertion d’une base lexicale
5. La
catégorisation d’un corpus dans un fichier
6. Le
résumé des marqueurs
7. La
correction des règles
8. Des
erreurs possibles
8.1. Des
erreurs dans le programme
8.2. Des
erreurs après la catégorisation
+ Des articles d’
études sur le traitement automatique de la langue
+ Le
balisage graphique d’un texte
.1. Introduction |
0.1. Résumé |
|
.0.2 Abstract |
0.3. Mots-clefs |
|
.2. Changement de sujet } |
A.
B. |
Graphique des phrases dans Hamlet
Tableau des tirades dans Hamlet |
.3. Continuité du discours } |
C.
D. |
Graphique des phrases, Terre des hommes
Tableau des paragraphes de Terre des hommes |
.4. Autres figures |
E. |
Graphique des phrases dans Pilote de guerre |
.4.1 Constance |
F. |
Tableau sur la continuïté, Pilote de guerre |
.4.2 Déclin |
G. |
Tableau sur le déclin pour Pilote de guerre |
.4.3 Accroissement |
H. |
Tableau sur l'accroissement, Pilote de guerre |
.4.4 Chute |
I. |
Tableau sur la chute pour Pilote de guerre |
.4.5 Superposition |
J. |
Tableau sur la superposition, Pilote de guerre |
.5. Application d’un nuage de bulles aux mots-outils |
K. |
Graphique sur les mots-outils, Le Petit Prince |
.6. Conclusion |
|
|
.7. Une bibliographie indicative sur le longueur des phrases |
1. Une
présentation de l’étude 2. Les
commentaires 3. Des
liens
.A. |
Graphique en secteur du volume de l'œuvre |
.B. |
Graphique du volume de l'œuvre avec Citadelle |
.C. |
Tableau du relevé des occurrences pour l'étude |
.D. |
Tableau du relevé des occurrences dans Frantext |
1. Une
présentation de l’étude 2. Les
commentaires
1. Une
présentation de l’Étude 1.1. La
discipline de la lexicométrie 1.2. La
méthode lexicométrique 1.3. Les
logiciel de lexicométrie 1.4. Le
procédé d’analyse factorielle 2. Le
graphique de représentation factorielle 3. Les
commentaires 3.1. Une
homogénéité de l’œuvre
3.2. La
nature 3.3. Le
désert 3.4. La
confrontation 3.5. Le
vol 3.6. L’
idéal 3.7. La
modernité 3.8. L’
apologue 3.9. La
conclusion 4. Le
tableau de partition du corpus sous Hyperbase
5. Des
liens pour des études lexicométriques
+ La
constitution de ressources, de données, d'énoncés...
+ L’
appropriation numérique d’un texte
1. Les
méthodes d’appropriation 2. Les
erreurs sur support papier 3. La
remise en forme 4. Une
bibliographie
+ Les
ressources lexicales
II.1.
1. La
destination 2. Les
restrictions 3. Une
typologie 4. Le
texte 5. Une
bibliographie 6. Des
liens .A. Typologie des ressources
.B. Format du texte
.C. Type de données
+ Des
tests de catégorisation et de traduction
II.5.
1. Adjectif qualificatif 1.1 « fort » 1.2 « forte » 2. Composé 2.1. « au juste » adverbe composé 2.2. « au juste » préposition + adjectif 3. Participe passé 3.1. Participe passé aspectuel accompli 3.2 Participe passé aspectuel inaccompli + complément d’agent 4. « bien que » 4.1 « bien que » adjectif + complétive 4.2 « bien que » adverbe + complétive 4.3 « bien que » locution adverbiale 4.4 « bien que » concessive 5. Pronom 5.1. « la le » 5.2. « les » 5.3. « la » nom 6. Complétive et relative 6.1 « demander que » 6.2 « suggérer que » 6.3 « suggérer que » + subjonctif 7. Liens
+ La
base de données lexicale
III.2.
1. Les
textes et énoncés pour Notule
2. L’
énoncé et les étiquettes pour Notule
3. Les
bases grammaticales et lexicales pour Notule
3.1. Les
modifications apportée aux fichiers importés
3.2. La
rédaction d’une base spécifique
3.3. Le
contenu des formes de la base pour Notule
4. Une
bibliographie
.A. Mots commençant par e |
|
.B. Prénoms, pays et communes fr. |
.F. Caractères spéciaux |
.C. Abréviations |
.G. Interjections |
.D. Mots-outils et assimilés |
.H. Dictionnaire des catégories |
.E. Mots composés |
.I. Dictionnaire des noms propres |
+ La
réalisation de programmes
+ Les
logiciels linguistiques
II.2.
1. Une
approche théorique des logiciels de linguistique
A. Une
copie d’écran de fenêtres emboitées
2. Une
approche théorique des logiciels bureautiques
B. Un
tableau d’affichage d’un code
+ La description du logiciel
Notule
1. L’
intérêt
2. L’
exploitation
3. Les
spécifications
4. Le
téléchargement et l’installation
5. Le
lancement
+ Les
langages de programmation
II.3.
+ Une
mise en perspective des langages de programmation
1.
1.1. Un
essai de langages
1.2. La
rapidité d’exécution
1.3. Une
comparaison entre PHP et Python
+ Le langage
Python II.3.2.
1. La présentation du
langage Python
2. Le traitement du texte avec les
chaînes et listes en Python
2.1. Les
chaînes en Python
2.1.A. Une
chaîne avec extraction en Python
2.2. Les
chaînes en requête : les expressions régulières
2.2.B. Une
chaîne recherchée en Python
2.2.C. Une
chaîne extraite en Python
2.2.D. Une
chaîne modifiée (pas à pas) en Python
2.2.E. Une
chaîne modifiée (en une seule instruction) en Python
2.3. Les
listes en Python
2.3.F. Une
liste imbriquée créant une arborescence en Python
2.3.G. Une
liste imbriquée au format Notule en Python
2.3.H. Le
basculement d’une chaîne vers une liste en Python
2.3.I. Une
liste avec nouvel élément en Python
2.3.J. Une
liste parcourue en Python
3. Des
liens pour Python (version 2.x)
3.1. De la
documentation pour Python
3.2. Des
ressources pour Python
3.3. Du
code pour Python
3.4. Les
expressions régulières pour Python
3.5. Le
traitement linguistique pour Python
+ Le langage
PHP II.3.3.
1. La
présentation du langage PHP
2. Le
traitement du texte en langage PHP
+ La
gestion de l’ambiguïté
II.4.
1. L’
angle d’approche 2. Un
usage littéraire 3. Un
phénomène linguistique 4. Un
enjeu numérique 5. Une
difficulté informatique 6. Un
positionnement notionnel
+ L’écriture d’un
catégoriseur III.1.
1. Les
méthodes d’étiquetage morphosyntaxique 2. Approche polyvalente 3. L’
architecture du programme 3.1. La
rédaction du programme 3.2. Le
déroulement d’une catégorisation 4. L’
écriture des règles grammaticales 4.1. Le
résumé des possibilités de la requête 4.2. La
forme et résolution de la requête 4.3. Le
facteur hiérarchique 4.4. La
correction des règles 5. La
bibliographie 6. Les
liens
+ La description
catégorielle III.3.
1. La
validité du découpage 2. Les
catégories grammaticales 2.1. La
polarité nominale / verbale
2.2. La
correspondance entre concept et discours
3. Les
critères de classement 4. Le
glissement catégoriel 5. Les
adaptations et terminologie 6. Le
normatif comme déterminisme 7. Les
considérations de classement 7.1. Le
syntaxique 7.2. La
sémantique 7.3. Le
morphologique 7.4. La
pragmatique 7.5. L’
étymologique 7.6. L’
informatique 7.7. Une
synthèse des considérations 8. Une
bibliographie
+ Un
état des ambiguïtés
1. La
présentation de l’étude
2. Le
commentaire 3. La
conclusion A. Le
graphique de répartition des séquences
B. Le
tableau de fréquences des séquences
+ Une
grammaire 1.
1. L’
établissement d’une grammaire
2. Les
paliers de découpage d’une phrase
+ Le contenu des
étiquettes IV.2.
1. Les
élements du texte 1.1. Mot et forme 1.2. Séquence et syntagme 1.3. Phrase et proposition 2. La
segmentation du texte
2.1. Le
découpage 2.2. Le
collage 3. La
constitution d’une étiquette 3.1. Le
lemme 4. Le
résumé de la terminologie 5. La
morphologie 5.1. Le
genre, nombre et personne 5.2. L’
accord 5.3. La
casse 6. La
ponctuation 6.1. Le
format 6.2. Les
traits 6.3. Les
difficultés 7. La
forme 7.1. L’
abrégé 7.2. L’
inconnu 7.3. Le
composé 8. Une
bibliographie 9. Des
liens A. Le
journal l’aurore Le récapitulatif des
balises en usage dans Notule 1.1
+ La description des
mots composés IV.3.
1. Une
description 2. Le
pronom relatif 3. La
conjonction complétive 4. L’
adverbe 5. Les
conjonctions circonstancielles 5.1. La conjonction circonstancielle
temporelle 5.2. La conjonction circonstancielle de
concession 5.3. La
conditionnelle - hypothétique 5.4. Les
additions et égalités 6. La
construction corrélative 7. Les
complétives et relatives 8. Les
propositions enchâssées 9. Une
bibliographie 10. Des
liens
+ Les
catégories IV.4.
+ Le groupe des nominaux
adjectifs, noms et déterminants IV.4.1.
1. L’
adjectif 1.1. Le
qualificatif de l’adjectif
1.2. Les
numéraux de l’adjectif
2. Le
nom 2.1 La
détermination du nom
2.2 Le
propre du nom
2.3 Le
prénom du nom
2.4 La
particule du nom
3. Le
déterminant 3.1. L’
article du déterminant
3.2. L’
indéfini du déterminant
3.2.1 Une
distinction du déterminant
3.2.2 Un
classement du déterminant
4. Une
bibliographie
+ Le groupe des déitiques
adverbes et pronoms IV.4.2.
1. Les
adverbes 1.1. La
caractérisation des adverbes
1.2. Le
découpage des adverbes
1.3. L’
interrogation comme adverbe
1.4. L’
affirmation comme adverbe
1.5. La
liaison comme adverbe
1.6. L’
interjection comme adverbe
2. Le
pronom 2.1. Le
relatif comme pronom
2.2. Le
personnel comme pronom
3. Une
bibliographie
+ Le groupe des liaisons
prépositions et conjonctions IV.4.3.
1. Les
prépositions 2. Les
conjonctions 2.1. La conjonction de
coordination 2.2. La conjonction de
subordination
+ Le groupe des verbes
conjugués et participes IV.4.4.
1. Le
verbe 1.1. Les
temps de conjugaison 1.2. Les
temps composés 1.3. L’
impératif 1.4. Le
subjonctif 1.5. L’
infinitif 2. Le
participe passé 2.1. Le
degré d’actualisation 2.2. Les
constructions composées 2.3. La
voix passive 2.4. La
valeur aspectuelle 2.5. Le
complément d’agent 2.6. Le
participe présent 3. Une
bibliographie sur le verbe
4. Une
bibliographie sur le participe
+ La revue des
mots-outils IV.5.
+ La description du mot
subordonnant «que» IV.6.
1. Une
description 2. Le
pronom relatif 3. La
conjonction complétive 4. L’
adverbe 5. Les
conjonctions circonstancielles 5.1. La conjonction circonstancielle
temporelle 5.2. La conjonction circonstancielle de
concession 5.3. La
conditionnelle - hypothétique 5.4. Les
additions et égalités 6. La
construction corrélative 7. Les
complétives et relatives 8. Les
propositions enchâssées 9. Une
bibliographie 10. Des
liens
+ Les
ontologies ou listes de mots
IV.7.
1. Une
définition 2. Une
stragégie 3. La
toponymie 4. Les
verbes d’état 5. Les
verbes modaux 6. Une
bibliographie
+ Une
réflexion sur le T.A.L., ses applications et ses fondements
+ Les pages du
site pour des recherches, informations, résumés...
1. le texte actualisé
Le flux continu des informations au travers des sites d’actualités renouvelle le contenu du texte tout en conservant sa structure. Les formats RSS/Atom, issus de la toile sémantique et du XML, contiennent les méta-informations de l’information : date, source ou auteur. L'agrégation permet ainsi de constituer de vastes corpus sur un sujet générique.
La base ci-dessous présente :
- un corpus issu d'une accumulation quotidienne d'informations (titre et début de l'article) remontant à trois ans, soit environ un millier de fichiers de quelques centaines d’articles chaque, sur la Corse et découpées en thèmes ;
- une référence thématique de tous les flux alimentant le corpus, aussi bien sur la Corse que sur d'autres sujets, généraux ou spécialisés, essentiellement en français, et en partie en italien, en corse et en anglais. Ces références sont régulièrement mises à jour. En usant de cette base d'adresses de flux, il est envisageable de présenter un corpus traité, sans être passé par l'étape de la constitution en aval et de l'exposition du texte plein, mais seulement de sa récupération, durant la phase de traitement.
2. une base de textes et de flux
2. les principaux sites d’actualité
À partir des chiffres de l'OJD (Association pour le contrôle de la difusion des médias), sur la diffusion des magazines et journaux en France, l'on peut établir des listes fermées sur des critères comme la périodicité de parution, ou bien plus ouvertes comme la fréquentation des sites par les internautes : OJD.