c
a
d
r
a
t






  Entrée  
   Études    
    Catégorisation  
     Convention  
 
+  Des ressources en corpus, isotopies et programmes
+  Des articles d’ études sur le traitement automatique de la langue
+  Les pages du site pour des recherches, informations, résumés...

     le contenu des étiquettes      §IV.2. 
Le détail du format du mot, des étiquettes, la terminologie grammaticale, la génération d’un texte formaté et la base des règles de catégorisation


 1.      IV.2.1.  élements du texte

 1.1.      IV.2.1.1.  mot et forme

Notre catégorisation par règle implique l’éclairage de la liaison texte/grammaire. Les termes de lexème, lexie, d’occurrence ou de vocable seront peu exploités dans l'étude. Ils distinguent avec rigueur une notion, mais seraient plus appropriés à rendre compte des questionnements spécifiques en lexicologie et en lexicométrie.

Comme pour la programmation (des chaînes et listes, des expressions régulières, des lignes de code...) le mot est au cœur de la linguistique : « [...] malgré la difficulté qu'on a à le définir, est une unité qui s'impose à l'esprit, quelque chose de central dans le mécanisme de la langue. » (Saussure, 1916 : 154). La plupart du temps, il est constitué de plusieurs signes alphabétiques dont les frontières sont marquées par des espaces blancs, étendus aux numériques « 747 », ponctuations « « », constructions « :c} », opérateurs « / », etc. (voir § 2.1. : le découpage)

Dans ce travail, le mot est considéré dans son acception commune, plus développé dans la partie sur les mots composés, mais aussi en situation de recevoir un traitement à l’intérieur d’une règle. Il ramène alors à la forme, qui se définie ainsi : « Aspect matériel sous lequel se présente un terme ou un énoncé. » (Le Robert) pour un emploi bien délimité, en rapport aux autres qualifications : « [...] chaque mot du texte est une forme d’un lexème et d’un seul. » (Muller, 1992 : 7).

La différentiation entre forme et mot est pratique dès lors qu'il s'agit de ramener un signifié à un signifiant, un mot à un élément d'une liste, dans une règle syntaxique, pour s'efforcer de « circonscrire l'ambiguïté [...] lorsqu'à une forme unique correspondent plusieurs significations. » (Fuchs, 1996 : 7). En somme, une différenciation de la lecture linguistique et du traitement informatique.


 1.2.      IV.2.1.2.  séquence et syntagme

Une distinction semblable au paragraphe précédent est effectuée entre syntagme, pour un groupe de mots, et séquence pour un ensemble de formes. Le terme de syntagme n'est pas une appellation cloisonnée : « [...] la notion de syntagme s'applique non seulement aux mots, mais aux groupes de mots, aux unités complexes de toute dimension et de toute espèce (mots composés, dérivés, membres de phrases, phrases entières). » (Saussure, 1916 : 172).

Pour le travail de catégorisation, le syntagme va essentiellement concerner le niveau de la fonction, peu de la proposition. Il peut être nominal « le chat noir » ou verbal « ayant été pris » pour par exemple les temps de conjugaison, et être figé, « poisson chat », « attraper froid ».

La séquence peut concerner une simple suite : Dét + Nom + Ver, « Le chapeau vole. », une suite grammaticale ambiguë : Dét Pro + Nom Ver, « le pilote » ou une suite thématique, Dét + Nom:Topo + Nom:Prop/Topo, « la rue Morgue ». L’on peut assimiler le terme de séquence, par rapport à d’autres études, à bigramme, trigramme... c'est-à-dire une suite grammaticale ambiguë de deux, trois... catégories, désigné enfin par combinaison d'éléments.

Une règle étant une séquence, celle-ci peut être très variable en longueur, d'autant plus avec des incises ou des catégories supprimables. La séquence varie en général de deux à six formes, plus rarement au-delà. Le plafond d'une règle est d'une trentaine de mots de part et d'autre de la forme ambiguë, afin d'aller chercher une information dans la phrase.


 1.3.      IV.2.1.3.  phrase et proposition

La phrase est : « La plus grande unité de l'analyse syntaxique, caractérisée par son autonomie syntaxique et sémantique ainsi que par son intonation. » (Gardes-Tamine, 1998 : 177). À la seule mesure de l'écrit ces critères sont toujours opérants mais supplantés par des bornes, communément représentées par la convention typographique de la majuscule en début et de la ponctuation forte en final. La ponctuation joue donc un rôle non négligeable dans la catégorisation.

Une règle pouvant englober une séquence assez longue, les ponctuations sont susceptibles d’en interrompre le cours. Ce rôle dans la catégorisation opère, par exemple, pour distinguer le « que » pronom interrogatif, le point d’interrogation a un rôle d’aiguilleur et entre dans le système de règles. Cependant, si les séparations opérées par la ponctuation sont constantes pour la prose, elles connaissent quelques variations, particulièrement lorsqu'il s'agit de transcrire l'oralité : « Eh ! elle est à M. le maire. » Trois formes classées comme ponctuation forte, accolées ou non, pour ce qui est une seule et même phrase, dans l'incipit du Rouge et le Noir, ou encore chez Saint Exupéry : « - Oui... oui... laisse-moi rejoindre mon fils. » (Courrier Sud).

La prise en compte du niveau propositionnel apparaît essentiellement par le classement du « que ». Les règles sont relativement simples puisqu’elles retiennent la présence ou l’absence d’un verbe conjugué (§ IV.6. et § IV.6.6.). La hiérarchie du traitement apparaît ici, sachant que l’ambiguïté potentielle du verbe devra être résolue lors du passage de ce type de règle (fin § III.1.4.3.).

Le paragraphe marque une nouvelle dimension, dont les sauts de ligne sont les bornes, qui va prendre la valeur de ponctuation forte et peut servir ainsi de règle. Deux ponctuations fortes qui se succèdent dans une séquence terminée à nouveau par deux ponctuations fortes signifient un titre et inclinent au choix d’une construction nominale : « Terre des hommes » éliminant l’impératif du verbe « terrer ».


 2.      IV.2.2.  segmentation

 2.1.      IV.2.2.1.  découpage

La ponctuation possède le statut de mot dans notre texte catégorisé. Certaines comme la virgule et le point seront ainsi décollées de la forme précédente par un blanc. En revanche, l’apostrophe et le trait d’union (dans le cas des noms composés) ne sont pas traités comme telles, n’ayant aucun poids dans l’articulation de la phrase, exception faite pour le « t » euphonique qui est cadré et possède une valeur phonétique, et pourrait rejoindre un trait morphologique joncteur, Jonc.

Le formatage en mots du texte fusionne les syntagmes et découpe les constructions verbales : « était - il parti ? », « eux - mêmes répondaient », « a - t - il raison ? », c'est-à-dire les séquences Ver + - + Pro, et les séquences Nom + - + Adv, « hiver-là », « homme-ci » qui impliquent de même une séparation, exception faite pour les nominaux « un rendez-vous » et les interjections : « Plaît-il ? ».

Des formes isolées de type paratexte comme les numérotations « I » présentent autant de cas particuliers. Leur multiplication dans certains corpus pourraient dessiner des lettres-phrases, semblables à la notion de mot-phrase. La base de données est constituée d’un fichier de caractères spéciaux comprenant aussi la ponctuation, leur cumul, et les formes paratextuelles.


 2.2.      IV.2.2.2.  collage

Des formes sont séparées de blancs et continuent d'être qualifiées de mot. La séquence est alors appelée mot composé : « pomme de terre », « terre ferme », parfois associé aux numériques « 1234 AB 2A », date, heure... Les formes peuvent se combiner avec des ponctuations comme le sigle « G.7. » ou la locution exclamative « n'est-ce pas ». Tous deux sont perçus comme mot, le premier en tant qu'abrégé et le second comme composé, et marqués par la ligature : « n'_est_-_ce_pas ».

D'autres mots composés, comme les constructions préfixées avec apostrophe, en « presqu' » pour « presqu'île » ou « entr' », sont conservés tels quels et n'entreront pas dans la chaîne du découpage. En revanche ceux déjà décollés, comme « à vol d' oiseau », ou « à tire d' aile », seront à nouveau liés à l’ensemble : « à_vol_d'_oiseau ».

La différence entre syntagme relevant de la langue et celui de la parole va être développée dans la partie sur les mots composés pour précisément distinguer ce qui ressort du figement ou non (§ IV.3. : le mot composé).


 3.      IV.2.3.  constitution d’une étiquette

 3.1.      IV.2.3.1.  lemme

On appelle lemme la forme canonique, "écrasée" ou "nue", c'est-à-dire le mot au masculin singulier pour les adjectifs ou à l’infinitif pour les verbes. Les variations de personne, temps, de genre et de nombre en étant les formes fléchies. La modification morphologique est parfois totale : « yeux *oeil Nom:Mas+PL ».

La casse de la majuscule y est supprimée : « Argentine *argentine Nom:Prop/Pays », sauf pour les sigles, « O.N.U. *Organisation_des_Nations_Unies Nom:Abré ». Le lemme d'un mot composé reporte l'ensemble de la forme, contrairement aux dictionnaires où « point de vue » est identifié à l’entrée « point » : « Points_de_vue *point_de_vue Nom:Cmps+Mas+PL » . Il explicite un mot lorsque celui-ci est une abréviation ou une ponctuation « : *deux_poin Poc:Faib ».

Le lemme intéresse les relevés lexicaux puisqu'il ramène nombre de formes sur un même plan. Il s'agit d'un attribut en apparence très simple mais qui pose quelques questions sur le fait de devoir ramener un mot au critère groupe ou à lui-même (le pronom personnel « on » à « il »), ou inclure une autre représentation morphologique (« du » à « de_le » ; marquer les numéraux par des chiffres). L'exploitation d'un corpus lemmatisé est l'objet de discussions sur son intérêt, ramenant aux préoccupations autour du mot, de son autonomie d'avec son signifié et sa morphologie., et interroge sur l'importance du lemme : simple attribut parmi d'autres ou complément incontournable de la forme.

L'usage du vouvoiement entraîne une syllepse de nombre : « Vous êtes arrivé. » et une impasse pour les correcteurs grammaticaux qui se contentent de relever la faute pour la seule troisième personne : *« Ils sont arrivé. ». Sur un processus semblable « on » n'est toutefois pas concerné, puisque l'accord au pluriel est proscrit par le bon usage : « On est arrivé. ». La faute est courante et ces questions d'accord rendent difficiles un écrasement morphologique qui risque de ne pas coller à l'énoncé, impliquant par défaut : « vous *vous Pro:Pers/Suje+PL+P2 » plutôt que « vous *tu Pro:Pers/Suje+PL+P2 ». Le genre se comporte plus simplement et autorise : « elle *il Pro:Pers/Suje+Fém+SG+P3 ».


 3.2.      IV.2.3.2.  catégorie

M o t s  p l e i n s  
Ver Verbe
Adj Adjectif
Nom Nom
P o n c t u a t i o n s
Pof forte
Pob faible
Pon nulle
M o t s - o u t i l s
Pro Pronom
Dét Déterminant
Coj Conjonction
Pré Préposition
Adv Adverbe
   

Les catégories sont au nombre de dix. Elles calquent les distinctions couramment usitées. Elles se comportent différemment selon leurs traits, ne pouvant donc pas faire l’objet de mêmes règles : si la catégorie des adverbes est à peu près délimitée, il n’en est pas de même pour les pronoms personnels, sujets et compléments, et surtout les verbes, au participe présent, au participe passé et à l’infinitif.

Elles sont séparées en mots grammaticaux, ou outils, et mots lexicaux, ou pleins. Il est connu que les premiers sont diachroniquement fixes et quantitativement limités (2411 lemmes dans notre base, en incluant les adverbes), les seconds étant d’une persistance plus variable et nettement plus volumineux (56996 lemmes).

À l’intérieur des règles, certaines classes se regroupent en fonction de leurs attributs : les ponctuations, les conjonctions, les pronoms relatifs et les prépositions marquent une frontière dans les groupes, que l’on note rupture, (voir par exemples § IV.4.2.) ; la majorité des adverbes, des adjectifs et les pronoms personnels compléments ont la propriété d’être supprimables.


 3.3.      IV.2.3.3.  trait

Les traits sont au nombre de quatre-vingt-neuf, dont vingt et un pour la conjugaison, en quatorze classements. Ce classement, sorte de "surtrait" est un essai, opéré dans le but de distinguer les notions et de clarifier les données ci-dessous. Les classements « référentiel » et « modalité » visent à exprimer la dimension pragmatique. L’on pourrait ainsi proposer un classement à un palier encore supérieur, juste avant la catégorie : sémantique (ontologie, circonstanciel), morphologique (casse, construction, personne, genre, nombre), syntaxe (logique, fonctionnel), pragmatique (référentiel, modalité), et le seul catégoriel, pour le glissement.

Certains traits se combinent entre eux, essentiellement le genre, le nombre et la personne, soit neuf traits. Le reste concerne les autres aspects de la forme comme la construction morphologique (composé, euphonique, inconnu...) ou la casse (majuscule, capitale, propre...), au point de vue de fonction syntaxique (sujet, complément...), de son articulation logique (concession, opposition...), du détail circonstanciel (circonstanciel, temps, lieu...), des numéraux (ordinal, partitif...), du catégoriel avec ses glissements (adjectival, nominal...), de modalité (interrogatif, affirmatif, doute...), du référentiel (personnel, démonstratif...), et d'un aspect ontologique concernant l'identitaire (pays, prénom...), enfin, de l'ensemble des temps et des modes de conjugaison, simples et composés. Pour ce quatorzième classement l’ensemble est distinct, (voir le chapitre sur les temps de conjugaison de la partie catégorie).


 3.4.      IV.2.3.4.  marqueur

M a r q u e u r s 
/nul forme non ambiguë
/amb cas d'ambiguïté traité
/inc forme inconnue traitée
* lemme correspondant à la forme
S é p a r a t e u r s
< > balise entre chaque forme
/ entre les traits
+ entre genre, nombre et personne
: entre la catégorie et le trait
   

Toute forme traitée se voit apposer un marqueur précisant le type d'opération effectué. Il va s'agir soit de notre forme aux multiples étiquettes grammaticales, soit d'une forme absente de la base, filtrée par un petit nombre de sous-programmes tests, § 7.2., forme inconnue.

Chaque étiquette traitée se verra apposer le marqueur /amb, dans le cas contraire, non ambiguë, /nul. Il s'agit d'une notion assez large puisque toute forme dotée d'une majuscule et non précédée d'une ponctuation forte est d'emblée ambiguë. De même, tout adjectif présente deux étiquettes, la catégorie étant susceptible d'une nominalisation, et étiquettée comme telle en début de chaîne de catégorisation. Une erreur peut être due à la base, par exemple l'absence du Ver pour « joue ». Le programme va afficher : « joue *joue Nom:Fém+SG /nul », pointant par ailleurs clairement l'origine de l'erreur.

Les formes inconnues sont envisagées, mais le programme ne fait pas d'hypothèses catégorielles, excluant par exemple un néologisme verbal, un adjectif argotique ou un substantif terminologique. Peu de formes inconnues seront donc prises en compte, et dans ce cas le marqueur est /inc.


 3.5.      IV.2.3.5.  étiquette

La spécialisation de l’étude implique une dénomination précise de l’aspect graphique que va prendre la catégorisation. L’ensemble des notions y attenant est qualifié de balise, terme que l’on retrouve dans la construction des pages Html. Le contenu sera encadré des signes < >, d'une police ou d'une couleur différente. La linguistique et la grammaire possédant déjà une taxinomie sur ce niveau d’analyse, l'approche informatique implique de choisir des appellations précises pour ce : « petit nombre de catégories pertinentes [...] parties du discours [...] catégories grammaticales ou de classes syntaxiques » (Gary-Prieur, 1985 : 71), (se reporter à la synthèse au chapitre suivant).

L'étiquette comporte un lemme, une classe grammaticale et un marqueur. À l’intérieur de la classe se distinguent la catégorie et un ensemble éventuel de traits, le tout est abrégé. La forme « catégorisons » possèdera l'étiquette : *catégoriser Ver:ImPr+PL+P1 /amb ou *catégoriser Ver:IPré+PL+P1 /amb soit l'attribut lemme « catégoriser », la catégorie verbale avec les traits indicatif présent ou impératif présent, à la première personne du pluriel, et l'attribut marqueur d’ambiguïté.

La balise est générique d'un type de format qui consiste à borner un ensemble d'informations se rapportant à une forme ou une séquence.

Une lecture des textes catégorisés fait apparaître des étiquettes aux multiples natures. Cet état découle de trois causes :
- une forme possède plusieurs orthographes et la variation est celle du nombre, avec parfois une incidence sur le sens ;
- à une forme correspondent plusieurs lemmes, généralement elle concerne le verbe (§ IV.4.4.) ;
- l’étiquette n’a pas été résolue, aucune règle ne s’y étant appliquée.

Cette incertitude permettrait à d’autres systèmes de prendre le relais, ou d’envisager un nouveau marqueur du type non résolu /nor.


 4.      IV.2.4.  résumé de la terminologie

- le mot est le point de vue linguistique ;
- la forme est le mot du point de vue informatique ;
- le syntagme est une suite de mots ;
- la séquence est une suite de formes, et leur représentation possible par une règle ;
- le lemme est la réduction morphologique du mot ;
- la catégorie est la dizaine de possibilités du classement grammatical de base ;
- le trait est le détail grammatical complétant la catégorie, un aspect morphologique, syntaxique, sémantique et pragmatique ;
- le marqueur est un renseignement annexe comme le type de traitement informatique ;
- la classe (grammaticale) est l'ensemble catégorie + trait(s) ;
- la nature (grammaticale) est l'ensemble lemme + catégorie + trait(s) ;
- une ambiguïté (grammaticale) est une combinaison de classes ;
- un attribut est la classe, le lemme ou le marqueur, et il pourrait représenter la correspondance phonétique ou toute autre indication, étymologique, contextuelle etc. ;
- une étiquette est un groupe d’attributs, ici l'ensemble classe + lemme, éventuellement une autre information comme le marqueur ;
- la balise comprend une ou plusieurs étiquettes, encadrées par des signes < > . C'est aussi un terme générique, comme l'étiquette, dans nombre d'études.


 5.      IV.2.5.  morphologie

 5.1.      IV.2.5.1.  genre, nombre et personne

Le genre et le nombre vont concerner les formes susceptibles d'une variation morphologique, c'est-à-dire les noms, les adjectifs, les déterminants, les pronoms et les verbes par l'absence ou la présence du trait. Une partie des trois dernières vont se combiner avec la personne. Le genre est un fait lexicologique puisqu’inhérent au mot, tandis que le nombre se rapporte au discours. Les parasitages découlent de l'absence de variation : le nom « temps » pour le nombre et l’adjectif « classique » pour le genre, qui ne peuvent être distingués que par le discours.

Le trait Ing, pour invariable en genre, concerne un déterminant comme « tes » ou une forme indifférente comme l'adjectif ci-dessus. Le trait est Fém, pour féminin et pour le masculin, Mas. Invariable en nombre, IN, s’applique aux lettres seules, aux nombres, sous forme numérique ou alphabétique, aux adjectifs de couleur, à certains glissements : « pour », « arrière ». Le trait SG signifie singulier, fonctionnant pour les noms comme pour les verbes. Enfin, PL indique le pluriel et pour les personnes, respectivement P1, P2, P3.

Les noms en terminaisons « s » « x » « z » devraient posséder les deux classes. En revanche, les noms propres peuvent être mis au pluriel mais ne seraient pas marqués. Envisager deux classes reviendrait à charger le concept d’une séparation des traits en classement distinct, un emploi pluriel, Mrph:Prop/Inva/EmPL. Les rares formes lexicalisées par un nombre fixe possèdent soit PL « décombres », soit SG comme « chair de poule », il faudrait rajouter cet aspect à l’étiquette, NF.

Le genre peut servir à résoudre une séquence : « Tu ouvres la bouteille et la bois sans trinquer ? » aiguille « bois » comme verbe, puisque le nom, qui est masculin, ne peut être précédé d'un déterminant au féminin. De même que le genre, la marque du nombre devient une marque de catégorisation : « [...] les recherche [...] », sauf erreur du texte, « recherche » est un verbe et « les » un pronom.


 5.2.      IV.2.5.2.  accord

Les accords fonctionnent de manière relativement limitée et, comme la résolution des mots inconnus, ne sont pas une priorité dans le travail de catégorisation. Pour être complète, la chaîne de traitement nécessiterait une fonction de correcteur grammatical et orthographique en amont.

L’accord opère pour le genre dans la combinaison simple Dét + Nom, et Dét + Adj + Nom. Il peut résoudre l’ambiguïté sémantique en spécifiant le genre du nom : « mousse », « La *le Dét:Arti/Défi+Fém+SG /amb mousse *mousse Nom:Fém+SG /amb et le *le Dét:Arti/Défi+Mas+SG /amb mousse *mousse Nom:Mas+SG /amb ». Les traducteurs en ligne ne prennent pas en compte cet indice, accordant « foam », tandis que « cabin boy » est ignoré, sauf pour im @prompt qui retient « ship's apprentice ». Demeure au féminin la polysémie entre l’écume et le végétal.

Le trait IN ne peut distinguer la signification, « les mousses » ne révèle rien des différences. Il est à relever que l’on préfèrera employer le partitif pour le végétal ou l’écume dans la notion pluriel : « Il y a de la mousse sur le pont. » plutôt que « des mousses », impossible pour l’écume, entrant donc dans la logique des indices de catégorisation pour un mot, lequel fait peut-être partie d'un système de partitifs.

Les participes et adjectifs s’accordent en nombre avec celui du verbe s’ils s’orthographient de la même façon au pluriel et singulier. Ex : « L'honneur et la sécurité sont ainsi mis en péril. » (La Lettre volée) : « mis *mettre Ver:PPas+Mas+PL /amb », la forme est fixe, la classe varie.

Une partie de notre dictionnaire devrait être modifiée si l’on tient compte de la question de l’accord. Les participes passés en «-is » possèdent dans la base les traits pluriel et singulier, et sont donc susceptibles d’accords, ce n’est pas le cas pour les adjectifs de même terminaison qui possèdent seulement le trait invariable en nombre : « occis *occis Adj:Mas+IN *occire Ver:PPas+Mas+SG *occire Ver:PPas+Mas+PL » ou en genre : « large *large Adj:Inv+SG ». Il s’agirait de présenter un lexique en situation d’être employé pour le discours, et non une référence lexicographique.

La distinction peut se compliquer toujours à cause du pluriel : « les lunettes » ne précise pas s’il s’agit d’une seule paire de lunettes de vue ou de plusieurs paires, tandis que celles d’astronomie admettant les deux nombres seront forcément plusieurs. Non seulement le pluriel masque la distinction en genre, mais il possède parfois une valeur lexicologique qui s'oppose à une logique du discours : « des ciseaux » pour un seul objet. Le principe est tantôt déprécié : « Mon ciseau coupe bien. » tantôt présent : * « Je suis myope sans ma lunette. »

Il peut arriver que le nom conserve ses deux étiquettes de genre : « On cherchait à sonder l' *le Dét:Arti/Défi+Ing /amb espace *espace Nom:Mas+SG *espace Nom:Fém+SG /amb . » L'impossibilité ressort du « l' » apostrophe qui ne conserve plus ses marques de genre. D'autres considérations pourraient peser pour déterminer ce trait. L'emploi féminin de « espace » est un terme musical, signifie aussi un blanc placé entre mots en typographie, appelé aussi cadrat, ou encore la synecdoque d’un modèle de voiture, et ceux-ci nettement moins fréquents que le lieu/volume.


 5.3.      IV.2.5.3.  casse

La casse des caractères est marquée par le trait Maju, pour majuscule, c'est-à-dire toute forme commençant par une lettre majuscule suivie d'une lettre minuscule et non précédée d’une ponctuation forte : «[...] comment il fallait s' y prendre pour saluer Sa *sa Dét:Pose/Sing/Maju+Fém+SG+P3 /amb Majesté *majesté Nom:Maju+Fém+SG /amb ; si on se jetait à genoux ou ventre à terre ; » (Candide).

Un deuxième trait, Capi, pour capitale, pointe une forme amorcée par une lettre majuscule et suivie d'une autre lettre majuscule, (a priori terminée de même) : « LA *le Dét:Arti/Défi/Capi+Fém+SG /amb LETTRE *lettre Nom:Capi+Fém+SG /amb VOLÉE *volé Adj:Qual/Capi+Fém+SG /amb ».

Le trait majuscule concerne toutes les formes, et les capitales seulement les noms, les adjectifs et les déterminants. Cette limitation découle de la complication à ajouter des traits, particulièrement pour les mots outils, déjà chargés. Un développement appellerait une segmentation, Mrph:Capi ou Grph:Capi selon que l’on considère le trait comme ayant une incidence dans la chaîne de catégorisation, donc morphologique, ou un simple rapport graphique, prenant sa place en fin de traitement.

Ces traits sont ajoutés en début de traitement, puis fusionnés à l'étiquette. Ils sont toujours situés en fin de trait, et avant le genre et nombre.

La majuscule permet de distinguer nom de lieu, de personne : « Les jeunes gens, cet hiver-là, ne devaient point quitter les Peuples, pour achever de s’installer […] c’était un peintre de Bolbec, nommé Bataille […] » (Une vie, Maupassant), titres de noblesse, de paragraphe, ou encore, personnifications : « Seul l’Esprit s’il souffle sur la glaise, peut créer l’Homme. » (Terre des hommes).

Le trait va soit se conserver, soit servir à aiguiller les noms propres, par exemple de ville : « Une fois, à Vienne, D... m'a joué un vilain tour » (La Lettre volée), ici pour écarter le subjonctif présent de « venir ».

Seuls les aspects de base de la mise en page, comme les sauts de lignes sont pris en compte. Les mises en forme de caractère comme l’italique, le souligné et le gras sont ignorées. Ce qui peut se révéler une carence dans le cas du récit de La Lettre volée, ou du procédé chez Julien Gracq, (voir le chapitre sur le cadre culturel).


 6.      IV.2.6.  ponctuation

 6.1.      IV.2.6.1.  format

 
 
 
       
 
 
 
 
 
 
 
    A. Couverture du journal L'Aurore    

La ponctuation se divise traditionnellement en deux grands groupes : les faibles, Pob, et les fortes, Pof. Il est rajouté Pon, pour ponctuation nulle, et deux traits supplémentaires : liante, Pon:Ponc/Lian, et de dialogue, Pof:Ponc/Dial. Comme pour les abrégés, le lemme fournit sa dénomination, « ; Pob *poin_virg ». Tout autre signe typographique, atypique ou spécialisé, ® @ ~ = € etc. est considéré comme forme à part entière.

Changée en majuscule, la forme « à » se voit parfois supprimer l'accent, ce qui crée une ambiguïté avec « A » verbe avoir. Une règle considère que tout « A » en début de phrase est une préposition. Il faut éventuellement envisager de modifier le texte avant l’étiquetage en remplaçant la forme par « À » : « Dans le souci d’être clair et complet, on a, aujourd’hui, adopté l’habitude d’accentuer les capitales. » (Doppagne, 1998 : 9) : « J'Accuse ...! [à la ligne] LETTRE AU PRÉSIDENT DE LA RÉPUBLIQUE [à la ligne] Par ÉMILE ZOLA » (L'Aurore, 13.01.1898), et pourtant, cette considération n’est guère appliquée à la préposition majuscule. L'idée de seconder le catégoriseur par un correcteur ou un formatage plus poussé du texte se précise.


 6.2.      IV.2.6.2.  traits

Les ponctuations faibles sont , : ; . La norme typographique implique d'utiliser une minuscule après chaque double ponctuation, type deux-points et point-virgule : « Mais tout cela n'était rien : il en souffrait seul, on est toujours seul dans la vie... Geneviève excédée se détournait : il la ramena face à lui » (Courrier Sud).

Les deux ponctuations liantes sont - ‘ . L'apostrophe n'est pas étiquetée car elle demeure accolée à la forme. Du côté du code de programmation, elle est problématique puisqu’elle ferme et ouvre les chaînes. La solution classique a consisté à la remplacer temporairement par un autre graphème. La ponctuation liante fonctionne comme une ponctuation nulle, sans incidence syntaxique.

Les quatre ponctuations de dialogue sont " – « » . Le tiret peut donc être une ambiguïté, selon qu'il est trait d'union, marque de dialogue ou d'encadrement. La ponctuation de dialogue fonctionne comme ponctuation forte.

Huit autres ponctuations fortes sont ! ? . ... ( ) [ ] . Le point pose des difficultés, pouvant être de suspension et inclus dans les abréviations, jusqu'aux dates intentionnellement incertaines « 183. » . Leur repérage est facilité par le fait que les abrégés ont souvent la forme majuscule + point « R.T.F.», « M. » (voir chapitre suivant).

Ces ponctuations ne sont pas toujours présentes, dans le cas d’un titre. Ce blanc est compensé par un saut de ligne, équivalent d'une ponctuation forte, ce qui par ailleurs modère la définition typographique de la phrase.


 6.3.      IV.2.6.3.  difficultés

Dans certains cas la ponctuation peut s'accumuler : « deux mots d'un texte obscur apparurent dans le poste de Trelew : « ... rien voir...» » (Vol de nuit) « Un surveillant (est-ce un surveillant ?...) » (Pilote de guerre) sans guère poser de problèmes de découpages, sauf si cette ponctuation agit au niveau lexical : « notre vieille connaissance , à M. G... , le préfet de police de Paris » (La Lettre volée), ce qui fournit à la catégorisation : « M. *monsieur Nom:Abré /amb G... *g... Nom:Inco/Abré /amb ».

L’incipit pose un décor qui se manifeste par certaines conventions assez spécifiques, allant des noms propres aux repères temporels. Ceux-ci parasitent fortement la clarté de la catégorisation et augmente considérablement le taux de d’erreur en amorce du texte, dont la lecture suggèrerait une mauvaise catégorisation. Parmi ces constructions se trouvent les dates incertaines, relevées dans le chapitre précédent : « Il arriva chez nous un dimanche de novembre 189... » (Le Grand Meaulnes, Alain-Fournier).

Les deux points peuvent apparaître comme ponctuation forte pour rapporter des paroles ou un écrit, sans usage des guillemets : « Le vieux Palais serait encore debout avec sa vieille grand'salle ; je pourrais dire au lecteur : Allez la voir ; et nous serions ainsi dispensés tous deux, moi d'en faire, lui d'en lire une description telle quelle. » (Notre-Dame de Paris, Victor Hugo). Le problème est semblable pour les points de suspension : « Ma petite Geneviève, ne pensez pas à cette nuit... Pensez à bientôt... Pensez à... à l'Espagne. » (Courrier Sud) « Heu... oui... mon Capitaine... ça va. » (Pilote de Guerre) et pour les points d'interrogation : « - Où me mènes-tu ? où allons-nous ? que ferons-nous sans Cunégonde ? » (Candide).

Le début de la chaîne du traitement se charge de séparer les ponctuations lorsqu'elles se suivent, bien que les nombreuses possibilités de combinaisons augmentent les risques d'erreurs de découpage. Il peut aussi en début de catégorisation allouer la classe Pob:Ponc/Faib à la ponctuation forte, si elle est suivie d'une minuscule, afin de marquer la différence dans des cas comme : « [...] l'avion, hélas ! ne tarde guère à en faire autant. » (Terre des hommes).

La forme – se partage entre marque d'incidente, de dialogue, d'énumération ou de liaison. Pour cette dernière, elle entre dans la chaîne du découpage des séquences Ver + - + Pro, mais aussi dans le saut de ligne avec une justification tronquant le mot. Certains textes devront donc être soit préalablement formatés, soit traités par des règles de reconnaissance, qui prennent pleinement en compte les difficultés du fractionnement d'une forme : « vol » et « taire » dans : « [...] tous les grands hommes du siècle : Rousseau, Vol-[à la ligne]taire, Condillac, Marmontel, Turgot, Helvétius, etc. » (Le français dans tous les sens, Henriette Walter, dans l’édition poche, Laffont, 1988, page 123).


 7.      IV.2.7.  forme

 7.1.      IV.2.7.1.  abrégé

L'existence de mots abrégés est très variable selon les textes mais demeure un fait de langue, fréquent avec les institutions, « S.D.N. *Société_Des_Nations » ou les terminologies, « n.f. *Norme_Française », et jusqu’à devenir un mot lui-même, « 2cv ». Il est applicable essentiellement aux noms, aux numéraux « 21ème », « 2nd », ou aux adverbes « c.q.f.d. ».

L'abrégé peut varier dans sa casse, marqué ou non par des points, « xml » et « H.T.M.L. ». Il peut n'être plus perçu comme tel, par exemple le mot valise « modem » pour « modulator demodulator » et l'acronyme « laser » ou bien formé de deux manières « Unesco » et « UNESCO ».

Le sigle est à différencier de l'acronyme du point de vue phonétique. Le premier saisit les premières lettres des mots et les épelle : « c.o.s. » pour « complément d’objet second », le second les prononce d'un bloc, « cos », [k  s] « coefficient d’occupation des sols », ou récupère les premières syllabes, « Interpol » « organisation INTERnationale de POLice criminelle ». L'acronyme sert parfois à désigner tous les types de construction à l'écrit, y compris les sigles.

Il peut apparaître sous une forme différente, ce qui en simplifie la différenciation : « Ca » pour « calcium » et « C.A. » pour « chiffre d'affaire » et s'il est peu susceptible d'ambiguïté, il n'échappe ni à la polysémie : S.S. « Sa Sainteté », « Sa Seigneurie » et « Schutz-Staffel », ni au contexte : « Maigret regarda - en comprenant - les initiales SS tatouées sur la main du colosse : Sing-Sing ! » (Le chien jaune, G. Simenon), pas plus qu’aux cas particuliers comme les diacritiques supprimés : « Ca t'intéresse ? ».

Le lemme, (et dans ce cas la forme complète), se rapporte souvent à un emprunt à l'anglais, « F.A.O. *Food_and_Agriculture_Organisation » particulièrement en informatique, mais l’on peut aussi en trouver des plus éloignés comme les devises latines, « S.P.Q.R. *Senatus_PopulusQue_Romanus ».

La mot abrégé prendra la marque Abré. S'il appartient à la base des mots abrégés, la forme sera identifiée dans une forme avec ou sans point « cv », « c.v », « c.v. » *Curriculum_Vitae Nom:Abré et lettres capitales CV *Curriculum_Vitae Nom:Abré/Capi.


 7.2.      IV.2.7.2.  inconnu

Toute forme qui n’est pas répertoriée dans un des dictionnaires se verra étiquetée Nom:Inco. Cette classe peut varier selon la casse, et s'accoler le trait Maju ou Capi. Une forme inconnue commençant par un caractère, suivie d'un point et d'un autre caractère est considérée comme une abréviation, Nom:Inco/Abré, avec les mêmes variantes de casse que ci-dessus, Nom:Inco/Abré/Maju pour « C.C.C.C.P. ».

L’origine des mots inconnus peut être des fautes d’orthographes, des néologismes, des graphies anciennes, des emprunts, autrement dit, tout manquement à la base. Le traitement des mots inconnus est limité, et quatre hypothèses ont été rédigées.

Le programme applique une hypothèse morphologique pour déduire une forme construite avec un préfixe en « re » « non » « sur » « in »... avec et sans trait d'union, et lui applique la forme correspondante. Exemple : « clairement déduit de la nature du document et de la non-apparition de certains résultats » (La Lettre volée), non-apparition *non-apparition Nom:Fém+SG /inc déterminé sur « apparition ».

La reconnaissance va opérer pour la forme inconnue avec trait d'union, en le comparant à la base des formes non composées. Ce qui permettra de reporter une classe sur un mot a priori inconnu, comme « Toulouse-Dakar », forme absente de la base mais déductible grâce à « Toulouse » ou « Dakar », secondés par la reconnaissance des formes en « quasi- » ou « demi- », assez productives.

Une hypothèse sémantique élémentaire considère qu'un mot inconnu ou non, commençant par une majuscule et précédé d'un mot du champ lexical de l'agglomération (rue, faubourg...) est un toponyme. Ex : « je veux vous parler de l'affaire de la rue Morgue *morgue Nom:Prop/Topo /inc » (La Lettre volée), (Toponymie dans les ontologies, § IV.7.3.)

Une autre hypothèse sémantique appose le trait Lang, pour une autre langue, à un mot inconnu ou issu de la base des noms propres, si le mot est pris dans une série de formes inconnues. Ex : « Nil *nil Nom:Lang/Inco /inc sapientioe *sapientioe Nom:Lang/Inco /inc odiosius *odiosius Nom:Lang/Inco /inc [...] » (La Lettre volée) « Nil » était dans la base des prénoms, le reste des formes est inconnu.


 7.3.      IV.2.7.3.  composé

D'un point de vue graphique, il existe deux sortes de mots composés : ceux séparés par des blancs et ceux liés par une ponctuation. Le blanc est inclus dans les expressions, les locutions, les idiotismes ou des syntagmes ordinaires : « pomme de terre ». La ponctuation est parfois la traditionnelle apostrophe combinée avec le blanc : « pomme d'api », et fréquemment, le trait d'union : « terre-à-terre ». Le mot composé à trait d'union intervient aussi dans certaines constructions syntaxiques type Ver + Pro, « avons-nous ».

Le mot composé à blanc ne possède par définition aucun indice graphique comme marque de frontière. La question du mot composé à blanc est donc un problème tout autant lexicologique qu’informatique.

La raison du figement d'une séquence relève de son comportement comme mot simple, il faut donc s'attacher à la description du mot et entrer dans de multiples dimensions linguistiques comme la morphologie, la sémantique, le contexte et la syntaxe, où les tests de commutation peuvent s'appliquer. Les traits seront Locu pour les conjonctions subordonnées circonstancielles, et Cmps pour le reste.

L’appellation de mots composés se confond avec celui de « lexie composé », de « locutions toutes faites », « patrons réguliers », « conglomérés »... Cette terminologie variée, qui révèle la difficulté à cerner le problème, est le sujet du chapitre suivant, sur le syntagme.



 8.      IV.2.8.  bibliographie

     DOPPAGNE Albert, Majuscules, abréviations, symboles et sigles, Duculot, 1998, 92 p.
     FUCHS Catherine, Les ambiguïtés du français, Ophrys, 1996, 183 p.
     GARDES-TAMINE Joëlle, PELLIZZA Marie-Antoinette, La construction du texte, Armand Colin, 1998, 184 p.
     GARY-PRIEUR Marie-Noëlle, De la grammaire à la linguistique, l’étude de la phrase, Armand Colin, 1985, 165 p.
     MULLER Charles, Principes et méthodes de statistique lexicale, Champion, 1992, réed. Hachette 1977, 205 p.
         SAUSSURE Ferdinand de, Cours de linguistique générale, Payot, 1916, rééd. 1995, 520 p.

 9.      IV.2.9.  liens

     Codes des catégories grammaticales, « lexique 3 »
http://www.lexique.org/outils/Manuel_Lexique.htm#_Toc108519024

     Étiquettes grammaticales de M.Thibeault utilisées sur « WinBrill »
http://www.theses.ulaval.ca/2004/22225/apb.html




     La convention grammaticale, pour Notule 1.1   IV.  
     Le récapitulatif des balises en usage dans Notule 1.1
     Adjectifs, noms et déterminants
     Adverbes et pronoms
     Prépositions et conjonctions
     Verbes conjugués et infinitifs
     Participes passés et présents
     Syntagme
     Forme
     Subordonnée
     Ontologie
     La page d’accueil
     Le sommaire des pages

       Site       motte 0.5  
       Imprimer  
     Rédaction : 01.04.2004      Publication : 01.07.2003     Révision : 25.11.2005
      http://cadrat.saynete.net2003 - 2018