.1. Introduction | 0.1. Résumé | ||
.0.2 Abstract | 0.3. Mots-clefs | ||
.2. Changement de sujet } | A. B. |
Graphique des phrases dans Hamlet Tableau des tirades dans Hamlet |
|
.3. Continuité du discours } | C. D. |
Graphique des phrases, Terre des hommes Tableau des paragraphes de Terre des hommes |
|
.4. Autres figures | E. | Graphique des phrases dans Pilote de guerre | |
.4.1 Constance | F. | Tableau sur la continuïté, Pilote de guerre | |
.4.2 Déclin | G. | Tableau sur le déclin pour Pilote de guerre | |
.4.3 Accroissement | H. | Tableau sur l'accroissement, Pilote de guerre | |
.4.4 Chute | I. | Tableau sur la chute pour Pilote de guerre | |
.4.5 Superposition | J. | Tableau sur la superposition, Pilote de guerre | |
.5. Application d’un nuage de bulles aux mots-outils | K. | Graphique sur les mots-outils, Le Petit Prince | |
.6. Conclusion | |||
.7. Une bibliographie indicative sur le longueur des phrases |
.A. | Graphique en secteur du volume de l'œuvre |
.B. | Graphique du volume de l'œuvre avec Citadelle |
.C. | Tableau du relevé des occurrences pour l'étude |
.D. | Tableau du relevé des occurrences dans Frantext |
.A. Mots commençant par e | |
.B. Prénoms, pays et communes fr. | .F. Caractères spéciaux |
.C. Abréviations | .G. Interjections |
.D. Mots-outils et assimilés | .H. Dictionnaire des catégories |
.E. Mots composés | .I. Dictionnaire des noms propres |
Le principe de la catégorisation consiste à greffer sur chaque mot d’un texte sa valeur linguistique, à des fins de classification pour les bases de données, d’investigation pour les moteurs de recherche, de structuration comme la représentation graphique ou l'animation pédagogique. Le catégoriseur grammatical Notule permet de désambiguïser une terminologie ou d’extraire des syntagmes complexes selon la méthode de résolution par règles. Son code peut être envisagé comme constituant, pouvant s’associer à d'autres réalisations, comme la structuration d'un contenu syndiqué, un logiciel de traduction, ou encore de lexicométrie comme étape de transformation du texte.
Le logiciel dispose d'une nomenclature de requête et d’une base de règles d'environ 160 chapitres recouvrant une partie des dimensions grammaticales de la langue française écrite, soit quelque 2400 séquences, librement accessibles dans le code. Il est possible d'affiner ou de créer une règle, en envisageant des listes, des syntagmes ou des dislocations, et d’enrichir l’étiquetage avec un ou plusieurs lexiques et dictionnaires, comme nouveaux noms propres, adjectifs terminologiques ou listes thématiques. Les règles reposent sur un jeu d’étiquettes varié, soit 389 potentielles, et sont susceptibles d’en générer de nouvelles par combinatoire, en retenant les majuscules, les composés, les capitales et les inconnus, par exemple, pour un texte de 127948 mots, 366 étiquettes effectives.
Notule : « Nom féminin, 1495, du bas latin notula : petite annotation à un texte » (Le Robert).
Ne pas rendre le programme commercialisable concourt d’un esprit relevant du logiciel ouvert et de la prestation de service. Celle-ci offre l’adaptation du logiciel en fonction de besoins spécifiques, comme la rédaction de règles. L’on peut me contacter pour ce type de réalisation, une démonstration ou une formation.
Le domaine de la linguistique et du traitement de texte suppose une modularité logicielle, c’est-à-dire l'intégration de fonctionnalités variées et novatrices (catégoriseur stochastique, dictionnaire de définitions, outils lexicométriques...) dont une démarche propriétaire pourrait entraver l’extension. Sa conception suppose de pouvoir accéder à un code source clair, ce qui simplifie singulièrement le paramétrage en évitant des règles de règles. Le principe est de rendre cet objet linguistique transparent et accessible à tous selon ses objectifs.
Notule est sous licence GPL, qui autorise son inclusion, sa modification, sa redistribution pour peu que le code source et les fichiers (lexiques, dictionnaires...) préalablement associés soient toujours accessibles, sachant qu'il sera constructif pour la communauté des informaticiens et des linguistes, et plus généralement tout utilisateur du catégoriseur, de prendre connaissance ou de s'approprier des règles ontologiques, des fonctions nouvelles ou améliorées, et ce y compris si les dictionnaires et la base textuelle nouvellement associés demeurent des propriétés. Il est utile de rappeler, pour un usage commercial de Notule, que toute prestation de service basée sur une mise en ligne par soumission du corpus, a, en fonction de son degré d'automatisation, des chances d'être considérée comme une redistribution. La licence GPL est à lire et à approuver avant l'utilisation.
Chaque nouvelle version du site amène une nouvelle version du logiciel. Tout travail minutieux et pérenne utilisant le logiciel se devra soit de tenir compte des révisions (date en bas de page), soit de fixer la convention, en spécifiant clairement la version et en conservant si besoin les pages de Cadrat amenant un éclairage. L’archivage du site n'est pas à l’ordre du jour. Il convient par ailleurs d’en respecter les mentions légales.
Le fait de ne pas proposer le programme en priorité comme exécutable est lié à son objet. Notule aurait été évidemment d'une accessibilité simplifiée et d'une installation plus rapide. Dans notre configuration (langage + programme) la portabilité et l'accès à la source sont clairement établis. L’enrichissement et la spécialisation de la base et des règles, l'agencement de leur déroulement, la correction ou l'allégement, et du côté informatique : l’extraction de fonctions ou la compréhension de l’algorithme, en sont facilités.
Langage : Python 2.2a2 | Modèle : Catégorisation par règle | ||||
Rédaction : Janvier 2003 | Version actuelle : 0710 (octobre 2007) | ||||
Auteur : Vincent Comiti, | ° Programme et règles : 1.1 | ||||
Langue : Français écrit moderne | ° Base de données : Notule/fr et ABU 2002 | ||||
Objectifs : | Caractéristiques : | ||||
° Cohérence de la grammaire ; | ° Volume de la base grammaticale ; | ||||
° Précision des balises ; | ° Délai important de traitement de la tâche ; | ||||
° Exactitude de la catégorisation. | ° Importance du principe syntagmatique. | ||||
La mise en place de Notule comporte deux étapes, d’abord l’installation du langage de programmation dans lequel il a été écrit, puis le programme. Le langage de programmation se télécharge via le site officiel, et le programme avec les dictionnaires à partir du présent site.
Le langage est Python. Pour des raisons de gestion de caractères ASCII et de comptabilité avec l'interface graphique pour laquelle notre code manque d'orthodoxie, le programme requiert la version 2.2a2. Aucune option particulière durant l’installation.
Une fois Python installé sur votre ordinateur et téléchargée l'archive .rar. Décompressez-la, elle contient les fichiers de la base de données en .txt et le programme en .py. Collez le répertoire Notule sous le répertoire Python, C:\Python22, ou celui que vous auriez indiqué lors de l’installation, pour C:\Python22\Notule.
1/3 Pour lancer le langage python, chargez l'IDLE, c'est-à-dire la console de programmation, sous Windows, allez comme toujours dans la barre démarrer.
2/3 Dans la console, l'on ouvre le programme, File/Open, dans notre répertoire Notule, à savoir le fichier contenant le code, Notule11_0710.py, soit le chemin : |
3/3 Cliquez dedans puis lancez le programme, de préférence avec le raccourci F5. L'éditeur / catégoriseur s'ouvre, la phase de lancement est terminée. |
|
Nous avons trois fenêtres :
- la console IDLE ou éditeur de code de programmation ligne et ligne et de débogage, où s’afficheront chaque étape de catégorisation et l’emploi détaillé d'une règle, que nous appelerons interpréteur Python ;
- la console du code Notule en Python, où pourront se modifier les règles et le programme, à savoir code Notule ;
- l’éditeur Notule, où s’afficheront le texte en entrée et le texte une fois traité.
L’on peut passer une nouvelle étape, l’utilisation de la catégorisation.
La convention grammaticale, pour Notule 1.1 IV. Le récapitulatif des balises |
|
Le langage Python II.3.2. Télécharger Python 2.2a2 |
|
Le code de catégorisation grammaticale du français L’utilisation et le code de la catégorisation grammaticale pour le français, en Python |
|
La page d’accueil Le sommaire des pages |
|
Imprimer |
Rédaction
: 01.02.2007 Publication : 01.06.2007
http://cadrat.saynete.net2003 - 2024 |