c
a
d
r
a
t






  Entrée  
   Études    
    Logiciel  
 
+  Des ressources en corpus, isotopies et programmes
+  Des articles d’ études sur le traitement automatique de la langue
+  Les pages du site pour des recherches, informations, résumés...


 
     la description du logiciel Notule    
La présentation, les spécifications et l’installation du programme de catégorisation grammaticale Notule, sous Windows

 

 1.  intérêt

Le principe de la catégorisation consiste à greffer sur chaque mot d’un texte sa valeur linguistique, à des fins de programmation, de classification, d’investigation, de structuration, de représentation ou d'animation. Le catégoriseur grammatical Notule permet entre autre de désambiguïser une terminologie ou d’extraire des syntagmes complexes. Son code peut être envisagé comme constituant, pouvant s’associer à d'autres réalisations, d'une page pédagogique (animation) à un contenu syndiqué (structuration), d'autres logiciels (traduction, investigation...), ou encore être une étape d'un développement lexicométrique (classification).

Le logiciel dispose d'une nomenclature de requête et d’une base de règles d'environ 160 chapitres recouvrant une partie des dimensions grammaticales de la langue française écrite, soit quelque 2400 séquences, librement accessibles dans le code. Il est possible d'affiner ou de créer une règle, en envisageant des listes, des syntagmes ou des dislocations, et d’enrichir l’étiquetage avec un ou plusieurs lexiques et dictionnaires, comme nouveaux noms propres, adjectifs terminologiques, listes thématiques... Les règles reposent sur un jeu d’étiquettes varié, soit 389 potentielles, et sont susceptibles d’en générer de nouvelles par combinatoire, en retenant les majuscules, les composés, les capitales et les inconnus, par exemple, pour un texte de 127948 mots, 366 étiquettes effectives.

Le catégoriseur a été rédigé dans le cadre d’une thèse universitaire. L’objectif consistait à écrire un programme d’étiquetage du verbe dans un langage de programmation simple afin d’établir un relevé des différentes possibilités de classement de cette catégorie, pour un récapitulatif de l'existant et une projection sur la problématique de la catégorisation par ordinateur. Au fur et à mesure de la rédaction, l’affinage a amené une véritable catégorisation, en exploration de la méthode de résolution par règles.

Notule : « Nom féminin, 1495, du bas latin notula : petite annotation à un texte » (Le Robert).


 2.  exploitation

Ne pas rendre le programme commercialisable concourt d’un esprit relevant du logiciel ouvert et de la prestation de service. Celle-ci offre l’adaptation du logiciel en fonction de besoins spécifiques, comme la rédaction de règles. L’on peut me contacter pour ce type de réalisation, une démonstration ou une formation.

Le domaine de la linguistique et du traitement de texte suppose une modularité logicielle, c’est-à-dire l'intégration de fonctionnalités variées et novatrices (catégoriseur stochastique, dictionnaire de définitions, outils lexicométriques...) dont une démarche propriétaire pourrait entraver l’extension. Sa conception suppose de pouvoir accéder à un code source clair, ce qui simplifie singulièrement le paramétrage en évitant des règles de règles. Le principe est de rendre cet objet linguistique transparent et accessible à tous selon ses objectifs.

Notule est sous licence GPL, qui autorise son inclusion, sa modification, sa redistribution pour peu que le code source et les fichiers (lexiques, dictionnaires...) préalablement associés soient toujours accessibles, sachant qu'il sera constructif pour la communauté des informaticiens et des linguistes, et plus généralement tout utilisateur du catégoriseur, de prendre connaissance ou de s'approprier des règles ontologiques, des fonctions nouvelles ou améliorées, et ce y compris si les dictionnaires et la base textuelle nouvellement associés demeurent des propriétés. Il est utile de rappeler, pour un usage commercial de Notule, que toute prestation de service basée sur une mise en ligne par soumission du corpus, a, en fonction de son degré d'automatisation, des chances d'être considérée comme une redistribution. La licence GPL est à lire et à approuver avant l'utilisation.

Chaque nouvelle version du site amène une nouvelle version du logiciel. Tout travail minutieux et pérenne utilisant le logiciel se devra soit de tenir compte des révisions (date en bas de page), soit de fixer la convention, en spécifiant clairement la version et en conservant si besoin les pages de Cadrat amenant un éclairage. L’archivage du site n'est pas à l’ordre du jour. Il convient par ailleurs d’en respecter les mentions légales.

Le fait de ne pas proposer le programme en priorité comme exécutable est lié à son objet. Notule aurait été évidemment d'une accessibilité simplifiée et d'une installation plus rapide. Dans notre configuration (langage + programme) la portabilité et l'accès à la source sont clairement établis. L’enrichissement et la spécialisation de la base et des règles, l'agencement de leur déroulement, la correction ou l'allégement, et du côté informatique : l’extraction de fonctions ou la compréhension de l’algorithme, en sont facilités.

 3.  spécifications

       
  Langage : Python 2.2a2   Modèle : Catégorisation par règle
  Rédaction : Janvier 2003   Version actuelle : 0710 (octobre 2007)
  Auteur : Vincent Comiti,     °  Programme et règles : 1.1 
  Langue : Français écrit moderne     °  Base de données : Notule/fr et ABU 2002
  Objectifs :   Caractéristiques :
    °  Cohérence de la grammaire ;     ° Volume de la base grammaticale ;
    °  Précision des balises ;     °  Délai important de traitement de la tâche ;
    °  Exactitude de la catégorisation.     °  Importance du principe syntagmatique.
       

 4.  téléchargement et l’installation

La mise en place de Notule comporte deux étapes, d’abord l’installation du langage de programmation dans lequel il a été écrit, puis le programme. Le langage de programmation se télécharge via le site officiel, et le programme avec les dictionnaires à partir du présent site.

Le langage est Python. Pour des raisons de gestion de caractères ASCII et de comptabilité avec l'interface graphique pour laquelle notre code manque d'orthodoxie, le programme requiert la version 2.2a2. Aucune option particulière durant l’installation.

Une fois Python installé sur votre ordinateur et téléchargée l'archive .rar. Décompressez-la, elle contient les fichiers de la base de données en .txt et le programme en .py. Collez le répertoire Notule sous le répertoire Python, C:\Python22, ou celui que vous auriez indiqué lors de l’installation, pour C:\Python22\Notule.



 5.  lancement

 1/3   Pour lancer le langage python, chargez l'IDLE, c'est-à-dire la console de programmation, sous Windows, allez comme toujours dans la barre démarrer.

graphique d'installation de python, menu démarrer Console Python


 2/3   Dans la console, l'on ouvre le programme, File/Open, dans notre répertoire Notule, à savoir le fichier contenant le code, Notule11_0710.py, soit le chemin :
C:\Python22\Notule\Notule11_0710.py. Ce qui nous donne la fenêtre :

 

 3/3   Cliquez dedans puis lancez le programme, de préférence avec le raccourci F5. L'éditeur / catégoriseur s'ouvre, la phase de lancement est terminée.


     

Nous avons trois fenêtres :
- la console IDLE ou éditeur de code de programmation ligne et ligne et de débogage, où s’afficheront chaque étape de catégorisation et l’emploi détaillé d'une règle, que nous appelerons interpréteur Python ;
- la console du code Notule en Python, où pourront se modifier les règles et le programme, à savoir code Notule ;
- l’éditeur Notule, où s’afficheront le texte en entrée et le texte une fois traité.

L’on peut passer une nouvelle étape, l’utilisation de la catégorisation.




     La convention grammaticale, pour Notule 1.1   IV.  
     Le récapitulatif des balises 
     Le langage Python    II.3.2.  
     Télécharger Python 2.2a2  
     Le code de catégorisation grammaticale du français
     L’utilisation et le code de la catégorisation grammaticale  pour le français, en Python
 
     La page d’accueil
     Le sommaire des pages


       Site       motte 0.5  
       Imprimer  
       Rédaction : 01.02.2007      Publication : 01.06.2007
      http://cadrat.saynete.net2003 - 2018