+ Des
ressources en corpus, isotopies et programmes
+ Des bases de
textes
+ Des textes
actualisés
1. Le
texte actualisé
2. Une
base de textes et de flux
Des textes
catégorisés
+ Des listes de
mots
Mots-outils (français, jan-02/aoû-10)
Mots pleins (français, jan-99)
Mots composés (français, jan-03/jan-05)
Noms propres (français, jan-99/a)
Caractères spéciaux (français, jan-02/mar-05)
Abréviations (français, jan-03/jan-05)
Verbes auxiliaires conjugués (français, jan-03/jan-04)
Verbes auxiliaires et irréguliers (corse, jun-05, 1.56)
Olive (corse, français, juin 2005, jun-05)
Couleurs (anglais, juin 2005, jun-05)
Couleurs (français, juin 2005, jun-05)
Constellations (français, mars 2004, mar-04)
+ Un spicilège de
codes
+ Le
formatage
+ Le
découpage
+ Le programme du
découpage lexical en Macro VBA Word
1. La
description du programme
2. Le
code de découpage de la ponctuation
3. Le
code de découpage lexical
+ Le programme du
découpage lexical en Python
1. La
description du programme
2. Le
code de découpage lexical
+ Le
triage
+ L’
étiquetage
+ Le programme des
verbes fléchis pour le corse, en Python
1. La
présentation du code
2. L’
usage de la liste
3. Le
code de flexion verbale
+ L’utilisation et le code de la
catégorisation grammaticale pour le français, en Python
1. Le
mode d’emploi
2. Le
déroulement de la catégorisation
3. L’
écriture d’une règle
3.1. L’
identification
3.2. Le
contenu
3.3. La
hiérarchie
4. L’
insertion d’une base lexicale
5. La
catégorisation d’un corpus dans un fichier
6. Le
résumé des marqueurs
7. La
correction des règles
8. Des
erreurs possibles
8.1. Des
erreurs dans le programme
8.2. Des
erreurs après la catégorisation
+ Des articles d’
études sur le traitement automatique de la langue
+ Le
balisage graphique d’un texte
.1. Introduction |
0.1. Résumé |
|
.0.2 Abstract |
0.3. Mots-clefs |
|
.2. Changement de sujet } |
A.
B. |
Graphique des phrases dans Hamlet
Tableau des tirades dans Hamlet |
.3. Continuité du discours } |
C.
D. |
Graphique des phrases, Terre des hommes
Tableau des paragraphes de Terre des hommes |
.4. Autres figures |
E. |
Graphique des phrases dans Pilote de guerre |
.4.1 Constance |
F. |
Tableau sur la continuïté, Pilote de guerre |
.4.2 Déclin |
G. |
Tableau sur le déclin pour Pilote de guerre |
.4.3 Accroissement |
H. |
Tableau sur l'accroissement, Pilote de guerre |
.4.4 Chute |
I. |
Tableau sur la chute pour Pilote de guerre |
.4.5 Superposition |
J. |
Tableau sur la superposition, Pilote de guerre |
.5. Application d’un nuage de bulles aux mots-outils |
K. |
Graphique sur les mots-outils, Le Petit Prince |
.6. Conclusion |
|
|
.7. Une bibliographie indicative sur le longueur des phrases |
1. Une
présentation de l’étude 2. Les
commentaires 3. Des
liens
.A. |
Graphique en secteur du volume de l'œuvre |
.B. |
Graphique du volume de l'œuvre avec Citadelle |
.C. |
Tableau du relevé des occurrences pour l'étude |
.D. |
Tableau du relevé des occurrences dans Frantext |
1. Une
présentation de l’étude 2. Les
commentaires
1. Une
présentation de l’Étude 1.1. La
discipline de la lexicométrie 1.2. La
méthode lexicométrique 1.3. Les
logiciel de lexicométrie 1.4. Le
procédé d’analyse factorielle 2. Le
graphique de représentation factorielle 3. Les
commentaires 3.1. Une
homogénéité de l’œuvre
3.2. La
nature 3.3. Le
désert 3.4. La
confrontation 3.5. Le
vol 3.6. L’
idéal 3.7. La
modernité 3.8. L’
apologue 3.9. La
conclusion 4. Le
tableau de partition du corpus sous Hyperbase
5. Des
liens pour des études lexicométriques
+ La
constitution de ressources, de données, d'énoncés...
+ L’
appropriation numérique d’un texte
1. Les
méthodes d’appropriation 2. Les
erreurs sur support papier 3. La
remise en forme 4. Une
bibliographie
+ Les
ressources lexicales
II.1.
1. La
destination 2. Les
restrictions 3. Une
typologie 4. Le
texte 5. Une
bibliographie 6. Des
liens .A. Typologie des ressources
.B. Format du texte
.C. Type de données
+ Des
tests de catégorisation et de traduction
II.5.
1. Adjectif qualificatif 1.1 « fort » 1.2 « forte » 2. Composé 2.1. « au juste » adverbe composé 2.2. « au juste » préposition + adjectif 3. Participe passé 3.1. Participe passé aspectuel accompli 3.2 Participe passé aspectuel inaccompli + complément d’agent 4. « bien que » 4.1 « bien que » adjectif + complétive 4.2 « bien que » adverbe + complétive 4.3 « bien que » locution adverbiale 4.4 « bien que » concessive 5. Pronom 5.1. « la le » 5.2. « les » 5.3. « la » nom 6. Complétive et relative 6.1 « demander que » 6.2 « suggérer que » 6.3 « suggérer que » + subjonctif 7. Liens
+ La
base de données lexicale
III.2.
1. Les
textes et énoncés pour Notule
2. L’
énoncé et les étiquettes pour Notule
3. Les
bases grammaticales et lexicales pour Notule
3.1. Les
modifications apportée aux fichiers importés
3.2. La
rédaction d’une base spécifique
3.3. Le
contenu des formes de la base pour Notule
4. Une
bibliographie
.A. Mots commençant par e |
|
.B. Prénoms, pays et communes fr. |
.F. Caractères spéciaux |
.C. Abréviations |
.G. Interjections |
.D. Mots-outils et assimilés |
.H. Dictionnaire des catégories |
.E. Mots composés |
.I. Dictionnaire des noms propres |
+ La
réalisation de programmes
+ Les
logiciels linguistiques
II.2.
1. Une
approche théorique des logiciels de linguistique
A. Une
copie d’écran de fenêtres emboitées
2. Une
approche théorique des logiciels bureautiques
B. Un
tableau d’affichage d’un code
+ La description du logiciel
Notule
1. L’
intérêt
2. L’
exploitation
3. Les
spécifications
4. Le
téléchargement et l’installation
5. Le
lancement
+ Les
langages de programmation
II.3.
+ Une
mise en perspective des langages de programmation
1.
1.1. Un
essai de langages
1.2. La
rapidité d’exécution
1.3. Une
comparaison entre PHP et Python
+ Le langage
Python II.3.2.
1. La présentation du
langage Python
2. Le traitement du texte avec les
chaînes et listes en Python
2.1. Les
chaînes en Python
2.1.A. Une
chaîne avec extraction en Python
2.2. Les
chaînes en requête : les expressions régulières
2.2.B. Une
chaîne recherchée en Python
2.2.C. Une
chaîne extraite en Python
2.2.D. Une
chaîne modifiée (pas à pas) en Python
2.2.E. Une
chaîne modifiée (en une seule instruction) en Python
2.3. Les
listes en Python
2.3.F. Une
liste imbriquée créant une arborescence en Python
2.3.G. Une
liste imbriquée au format Notule en Python
2.3.H. Le
basculement d’une chaîne vers une liste en Python
2.3.I. Une
liste avec nouvel élément en Python
2.3.J. Une
liste parcourue en Python
3. Des
liens pour Python (version 2.x)
3.1. De la
documentation pour Python
3.2. Des
ressources pour Python
3.3. Du
code pour Python
3.4. Les
expressions régulières pour Python
3.5. Le
traitement linguistique pour Python
+ Le langage
PHP II.3.3.
1. La
présentation du langage PHP
2. Le
traitement du texte en langage PHP
+ La
gestion de l’ambiguïté
II.4.
1. L’
angle d’approche 2. Un
usage littéraire 3. Un
phénomène linguistique 4. Un
enjeu numérique 5. Une
difficulté informatique 6. Un
positionnement notionnel
+ L’écriture d’un
catégoriseur III.1.
1. Les
méthodes d’étiquetage morphosyntaxique 2. Approche polyvalente 3. L’
architecture du programme 3.1. La
rédaction du programme 3.2. Le
déroulement d’une catégorisation 4. L’
écriture des règles grammaticales 4.1. Le
résumé des possibilités de la requête 4.2. La
forme et résolution de la requête 4.3. Le
facteur hiérarchique 4.4. La
correction des règles 5. La
bibliographie 6. Les
liens
+ La description
catégorielle III.3.
1. La
validité du découpage 2. Les
catégories grammaticales 2.1. La
polarité nominale / verbale
2.2. La
correspondance entre concept et discours
3. Les
critères de classement 4. Le
glissement catégoriel 5. Les
adaptations et terminologie 6. Le
normatif comme déterminisme 7. Les
considérations de classement 7.1. Le
syntaxique 7.2. La
sémantique 7.3. Le
morphologique 7.4. La
pragmatique 7.5. L’
étymologique 7.6. L’
informatique 7.7. Une
synthèse des considérations 8. Une
bibliographie
+ Un
état des ambiguïtés
1. La
présentation de l’étude
2. Le
commentaire 3. La
conclusion A. Le
graphique de répartition des séquences
B. Le
tableau de fréquences des séquences
+ Une
grammaire 1.
1. L’
établissement d’une grammaire
2. Les
paliers de découpage d’une phrase
+ Le contenu des
étiquettes IV.2.
1. Les
élements du texte 1.1. Mot et forme 1.2. Séquence et syntagme 1.3. Phrase et proposition 2. La
segmentation du texte
2.1. Le
découpage 2.2. Le
collage 3. La
constitution d’une étiquette 3.1. Le
lemme 4. Le
résumé de la terminologie 5. La
morphologie 5.1. Le
genre, nombre et personne 5.2. L’
accord 5.3. La
casse 6. La
ponctuation 6.1. Le
format 6.2. Les
traits 6.3. Les
difficultés 7. La
forme 7.1. L’
abrégé 7.2. L’
inconnu 7.3. Le
composé 8. Une
bibliographie 9. Des
liens A. Le
journal l’aurore Le récapitulatif des
balises en usage dans Notule 1.1
+ La description des
mots composés IV.3.
1. Une
description 2. Le
pronom relatif 3. La
conjonction complétive 4. L’
adverbe 5. Les
conjonctions circonstancielles 5.1. La conjonction circonstancielle
temporelle 5.2. La conjonction circonstancielle de
concession 5.3. La
conditionnelle - hypothétique 5.4. Les
additions et égalités 6. La
construction corrélative 7. Les
complétives et relatives 8. Les
propositions enchâssées 9. Une
bibliographie 10. Des
liens
+ Les
catégories IV.4.
+ Le groupe des nominaux
adjectifs, noms et déterminants IV.4.1.
1. L’
adjectif 1.1. Le
qualificatif de l’adjectif
1.2. Les
numéraux de l’adjectif
2. Le
nom 2.1 La
détermination du nom
2.2 Le
propre du nom
2.3 Le
prénom du nom
2.4 La
particule du nom
3. Le
déterminant 3.1. L’
article du déterminant
3.2. L’
indéfini du déterminant
3.2.1 Une
distinction du déterminant
3.2.2 Un
classement du déterminant
4. Une
bibliographie
+ Le groupe des déitiques
adverbes et pronoms IV.4.2.
1. Les
adverbes 1.1. La
caractérisation des adverbes
1.2. Le
découpage des adverbes
1.3. L’
interrogation comme adverbe
1.4. L’
affirmation comme adverbe
1.5. La
liaison comme adverbe
1.6. L’
interjection comme adverbe
2. Le
pronom 2.1. Le
relatif comme pronom
2.2. Le
personnel comme pronom
3. Une
bibliographie
+ Le groupe des liaisons
prépositions et conjonctions IV.4.3.
1. Les
prépositions 2. Les
conjonctions 2.1. La conjonction de
coordination 2.2. La conjonction de
subordination
+ Le groupe des verbes
conjugués et participes IV.4.4.
1. Le
verbe 1.1. Les
temps de conjugaison 1.2. Les
temps composés 1.3. L’
impératif 1.4. Le
subjonctif 1.5. L’
infinitif 2. Le
participe passé 2.1. Le
degré d’actualisation 2.2. Les
constructions composées 2.3. La
voix passive 2.4. La
valeur aspectuelle 2.5. Le
complément d’agent 2.6. Le
participe présent 3. Une
bibliographie sur le verbe
4. Une
bibliographie sur le participe
+ La revue des
mots-outils IV.5.
+ La description du mot
subordonnant «que» IV.6.
1. Une
description 2. Le
pronom relatif 3. La
conjonction complétive 4. L’
adverbe 5. Les
conjonctions circonstancielles 5.1. La conjonction circonstancielle
temporelle 5.2. La conjonction circonstancielle de
concession 5.3. La
conditionnelle - hypothétique 5.4. Les
additions et égalités 6. La
construction corrélative 7. Les
complétives et relatives 8. Les
propositions enchâssées 9. Une
bibliographie 10. Des
liens
+ Les
ontologies ou listes de mots
IV.7.
1. Une
définition 2. Une
stragégie 3. La
toponymie 4. Les
verbes d’état 5. Les
verbes modaux 6. Une
bibliographie
+ Une
réflexion sur le T.A.L., ses applications et ses fondements
+ Les pages du
site pour des recherches, informations, résumés...
1. II.3.3.1. présentation
PHP, ou Hypertext Preprocessor est créé en 1994, par Rasmus Lerdorf, à partir de bibliothèques Perl. Il est sous licence PHP, mais de fait peut être considéré, du moins dans son usage, comme un logiciel libre. À l'heure actuelle ce langage est employé pour la création de sites internet, où sa domination peut s'apprécier au nombre de pages existantes sur la toile en extension .php. Il permet de travailler l’architecture du site, en rajoutant une couche de programmation sur le DHTML (la mise en page dynamique du site), puis sur JavaScript (le langage qui gère cette partie dynamique dans le navigateur). Il n'opère pas directement depuis le navigateur contrairement au HTML et JavaScript, mais à partir du serveur, ce qui permet par exemple de gérer une base de données et les fichiers du site, ou encore de faciliter la rapidité de traitement en évitant d'avoir à recourir à l'ordinateur de l'internaute. Il peut toutefois être testé à partir du navigateur avec un logiciel comme EasyPHP. Le langage en est à la version 5, avec des changements portant sur la gestion XML et la programmation objet. La version 4 est encore largement utilisée. La version 6 est en gestation.
2. II.3.3.2. traitement du texte
Comme il a été décrit dans la comparaison entre PHP et Python, le premier n’apparaît pas comme dédié au traitement du texte et présente quelques lacunes en la matière. Ces lacunes sont toutefois rééquilibrées par les qualités du langage, avec un jeu d’instructions abouti. Si notre préférence va à Python, PHP possède un atout majeur car il entretient un lien indirect avec la programmation du texte par le biais de ses facilités à opérer sur un vaste domaine du TAL : Internet lui-même. PHP est en effet le langage le plus courant et sans doute le plus performant pour traiter les pages HTML. Il s’interface avec SQL et XML et permet ainsi d’entrer de plein pied dans des bases de données textuelles complexes. Il possède aussi des instructions spécifiques pour les expressions régulières. Toutefois PHP reste un langage script, donc lent, et ses qualités en ce qui concerne les bases de données posent le problème de la gestion des ressources. mySQL piloté par PHP plafonne en nombre d’enregistrements parcourus et en simultanéité de connexion, sur un serveur standard. Passés 10.000 enregistrements, une boucle en PHP peut patiner, et un nombre de consultations trop rapprochées est une cause fréquente de plantage d’un site. En ce qui concerne XML, son langage de requête, XSL, est moyennement valorisé par PHP, et le module simpleXML, contrairement à ce que suggère son nom, est quelque peu rebutant. Tout dépend en somme de la taille du corpus. Un traitement en aval, par exemple en l’indexant ou le partitionnant, peut être nécessaire. La solution d’enfermer le texte dans une base de données a déjà été critiqué en terme de restrictions : étant une différence de stratégie entre texte plein et texte structuré.