c
a
d
r
a
t






  Entrée  
   Études    
    Catégorisation  
     Convention  
 
+  Des ressources en corpus, isotopies et programmes
+  Des articles d’ études sur le traitement automatique de la langue
+  Les pages du site pour des recherches, informations, résumés...



     les ontologies ou listes de mots     §IV.7. 
Des listes de mots, pour un passage du palier grammatical au palier sémantique

 1.      IV.7.1.  définition

Le terme d’ontologie est d’origine philosophique, adopté par l’informatique, et pour résumer, une définition s’essaierait à : « Groupe de mots dont le rapport est mis en évidence par des similarités de caractères. », ou plus simplement : « Famille de mots. ». Ces caractères sont essentiellement sémantiques, mais l’application à l’informatique peut s’appuyer sur d’autres considérations, comme l’extraction des radicaux, ou la reconnaissance des terminaisons pour l’aspectuel des verbes. Si le groupe de mots traité ne repose pas sur un accord sémantique, dès lors que la liste de mot est qualifiée d’ontologie, l’objectif demeure de mettre en évidence la dimension sémantique.

.

 2.      IV.7.2.  description

La dimension sémantique dont il est fait usage dans la catégorisation consiste en une liste de mots entrant dans une règle. Le mot est reconnu comme lemme, forme, composé ou pas, et cherché dans une proposition, une phrase ou un paragraphe. Seize listes ont été établies à l’intérieur du programme, comme base de données interne, étant donné leur valeur de variable. Le reste est externe, constitué par l’intégration des dictionnaires ontologiques tels que les pays, villes et prénoms.

Contrairement aux noms communs et mots-outils, les noms propres et leurs traits seront plus marqués par les traits hiérarchiques, Nom:Prop, Nom:Prop/Prén, mais pas toujours Nom:Prop/Vill, Nom:Prop/Topo. Une relation implicite détermine le lien entre les traits de l'étiquette, qui est celle de l'hyperonymie, et le lien entre les mots, qui est celle de la similarité des attributs ou sèmes (bâtiments, habitants... pour les villes), de la différence des référents (géographie, taille... pour les villes ou les pays) et de la morphologie.

La liste peut être soit une aide grammaticale comme les opérateurs diviser additionner multiplier soustraire + / - * utilisée pour distinguer « a » Nom dans « a + c », soit une précision sémantique, avec la toponymie, « Corte *corte Nom:Prop/Topo », décrite ci-dessous. L’implication des champs lexicaux dans un système en tant que simple objet, sans marque, pour le premier exemple, ou bien en tant que rôle, avec une étiquette, pour le second, implique l’usage du terme d’ontologie. Il est préféré à isotopie, qui laisse une part importante aux relations entre sémèmes, trop ambitieux pour notre programme, de même pour champ sémantique, en attendant de préciser la terminologie. Le terme de vocabulaire ne conviendrait pas non plus parce que ces listes sont non exhaustives et tiennent de la langue et pas du discours. Celui de lexique pourrait alors convenir mais il ne souligne pas assez l'importance de la relation elle-même, implicite ou pas, ainsi que sa briéveté et sa dimension métalinguistique, grammaticale, explicite avec les verbes d'état et de modalité. Par conséquent, il sera employé le terme neutre de liste de mots pour généraliser, celui de champ lexical pour envisager sa structure, et enfin d’ontologie pour le relationnel et l’informatique.

Une des difficultés de l’appropriation du sens provient de la distance qui sépare deux domaines fondamentaux du discours, et dont un seul est directement traité par la machine : « Il est bien connu que la syntaxe est insuffisante pour révéler, à elle-seule, la structure sémantique des langues et donc du lexique verbal. » (Desclés, 1998 : 29). Toutefois l’obstacle commence à être levé à peine débute l’enrichissement de l’étiquette et dès lors qu’est formalisé un objectif : « Or, la distinction massif/comptable est une distinction morphosyntaxique que l’on retrouve parmi tous les noms communs. » (Nicolas, 2002 : 45). Ainsi, la stratégie pour une résolution consiste à conserver la continuité grammaire/signification.

Se concentrer sur chaque ontologie représente un travail colossal pour une finalité de traduction, et un atout en terme de veille ou de syndication, ceux-ci fonctionnant avec une liste circonscrite de mots-clefs. Cependant, en accord avec la méthode de catégorisation, § III.1.4.2., plus les ontologies sont nombreuses et proches, plus elles permettent de s’épauler pour se résoudre.

L’établissement de listes relève de simples associations, § 3. la toponymie, de l’acquis grammatical, § 4. les verbes d’état, d’une ébauche de classification, § 5. les verbes modaux. L’exemple de la forme « philosophe » § IV.4.1.3., et puis « boucher » § IV.4.1.3.1. mettent en lumière l’intérêt de posséder des bases, par exemple de la profession pour nos deux formes.


 3.      IV.7.3.  toponymie

La toponymie comprend deux listes réunie en une base des noms propres : celle des pays, Pays, et des villes, Vill, comme décrite dans le chapitre sur les noms propres, IV.4.1.2.2 . Après lecture attentive, le concept du pays apparaît national plutôt que géographique, peut-être entre les deux. L’on trouve le « Proche-Orient » et l’ « Europe » mais pas la « Tasmanie » ni la « Réunion ». Pour cette dernière, outre l’ambiguïté avec le nom commun, il existe une ville dans la base : la_réunion. Elles ne sont pas non plus complètes, avec la présence de la « Macédoine » mais pas de la « Serbie ».

L’application à un corpus de textes de Saint Exupéry pointe rapidement les limites du trait Pays, en raison du décalage d’époque, ou, pilotage oblige, se mettent sur le même plan nations et zones. L’on peut donc y saisir le trait Topo, comme terme générique, englobant aussi bien les « Andes » que la constellation d’ « Andromède ».

Dans cette sphère des pays, les ambiguïtés devraient se révéler moindres que les mots-outils ou noms communs. Mais décrivons trois cas au chapitre XXVI de Candide : « Corse », royaume, mais qui aurait pu désigner l’habitant, « Europe », nom d’une princesse antique de Sidon, puis « France », prénom d’une chanteuse de variété. Pour résoudre ces ambiguïtés entre nom commun, nom de pays et prénom, il est possible de commencer par écrire une règle où intervient la préposition « en » précédant la forme. Mais il est aussi possible de trouver : « Il chante en corse. », sous entendu en « langue corse ». L’indice dans ce cas sera la majuscule : « Il chante en Corse. », c’est-à-dire « dans l’île ».

L’on peut établir une règle cette fois au niveau du cotexte, dans le cas d’une énumération : « Europe, Io, Callisto, toutes furent convoitées par le dieu des dieux. », « Europe, Asie, Amérique, tous sont des continents. ». Elle va signifier que la présence d'un champ lexical de lemmes, baptisé contree, à savoir pays ambassadeur ambassade voyager Nom:Prop/Pays ... de part et d’autre de la forme sur une distance de quinze éléments, aiguille sur Pays. Cette règle est à cheval entre l’aide grammaticale et la précision sémantique, puisque le choix concerne une ontologie de la base, elle ne la crée pas. Son intérêt expérimental réside surtout dans le fait qu’elle va chercher l’information dans le cotexte, en dépassant le niveau du syntagme.

Une autre règle considère qu’un nom avec majuscule précédé d’un mot du champ lexical de l’urbain, rue faubourg chemin boulevard lui rajoute le trait Topo. Il ne s’agit pas d’une aide grammaticale mais d’une précision à apporter, en ajoutant le trait. C’est un champ lexical à valeur proprement sémantique. Cette règle ramène au chapitre IV.2.7.2. sur les mots inconnus.

Une règle impliquant les aspectuels concerne le niveau syntagmatique. Celle des modaux, le niveau de la phrase. L’ontologie des pays s’applique au paragraphe et revient à une approche du concordancier. C’est cette stratégie qui nous intéresse dans la résolution des questions sémantiques. Dans ce cas le traitement du cotexte est simple.

Pour résumer, cette ontologie est essentiellement constituée par une très importante mais fragile base de données. Un ensemble de règles, avec les marques en, Maju et la liste contree, éclaire l’ambiguïté de Pays. Une seconde approche avec une règle grammaticale élémentaire, crée le trait générique Topo, sur la base d’une liste urbain.


 4.      IV.7.4.  verbes d’état

Peuvent être appelés verbes d'état tout verbe ou locution verbale pouvant commuter avec « être » : « Je suis grand », « J'ai l'air grand », être sembler paraître... Cette liste va intervenir pour traiter l’attribut et aiguiller une combinaison comprenant l'adjectif et ceux issus d'adverbes « bien », de noms « neuf », et de participes passés. D’autres applications explicitent les verbes d’état au chapitre IV.5.9. pour reconnaître « comme » adverbe de comparaison et au IV.5.29. pour « tel » adjectif qualificatif.

La liste etat dans les règles, étend donc le verbe « être ». Toutefois elle n’est plus une classe homogène dès lors que l’on approche le détail de l'adjectif, « neuf » oscillant entre le numéral et le qualificatif. « Il a l’air neuf. » marque clairement la qualification et « Il reste neuf. » fait hésiter avec la quantité, ?« Il demeure neuf. » est insolite. Quant au verbe « être » lui-même, il ne peut a priori distinguer les deux sens au pluriel, sauf indice : l'adjectif numéral étant invariable, tout cas de pluriel non reporté implique le numéral : « Ils sont neuf. », la règle d'accord débrouille un cas sémantique.

Un verbe d’état, contenant la valeur d’identité est employé pour l’ontologie de l’habitant, Habi, « Il est annamite. » désigne le peuple, tandis que la forme peut aussi évoquer la langue asiatique, avec ses limites, notamment pour les termes connotés : « Je suis un fainéant, bohème journaliste, » (Rêverie de Charles VI, Nerval).

Dans notre logiciel cela nous donne la variable etat, et par exemple une règle pour déduire l'adjectif. Celle-ci est courte, elle dit que toute ambiguïté comportant un adjectif pointe sur celui-ci dès lors qu'elle est précédée d'un verbe d'état. Étant peu sélective, elle se situe en fin dans de parcours.



amb="[adj"
amb_r="adj"
sui=[[etat,adv_l,"?"]]
corp=Regle(corp,amb,amb_r,sui)



etat=["(*être(*sembler(*apparaître(*paraître(*devenir(*demeurer(*rester(|*être|*considérer|@comme(|*avoir|@l#|@air(|*passer|@pour"]

 5.      IV.7.5.  verbes modaux

Les verbes modaux espérer ; répliquer ; parier ; avouer ; répondre ... vont accompagner la complétive, permettant de distinguer la circonstancielle « bien », de différencier le subjonctif de l'indicatif pour les verbes du premier groupe, enfin d'aiguiller la forme « que », (voir § IV.4.4.1.4.).

Les volitifs exiger désirer vouloir ... orientent le verbe sur le subjonctif, et les épistémiques sur l'indicatif savoir connaître ignorer ... tandis que les verbes de paroles sont plus variables, dire crier chanter ... notamment par la modalité qui y est consacrée dans l’énoncé.

Certains verbes de parole ne fonctionnent pas avec la complétive, ayant le sens d’une circonstancielle : « Je parle que je ne suis pas d'accord. » pour «  parce que je ne suis pas d'accord. », « Il bavarde que c'est un moulin à paroles. » égal « à ce point que c'est [...] ». D’autres comme la plupart des performatifs n’admettent pas le « que », *« Je baptise qu’ils naissent. » mais « Je pardonne qu’il parte si tôt. » et « J’avoue qu’il part à l’aube. ». Les verbes suivis de « que » n'étant pas susceptibles d'entraîner une complétive, la liste modal se révèle en fait déterminante lorsque l'énoncé contient une incise, (§ IV.6.8.).

Pour un développement, cette distinction laisse considérer leur modalité comme un trait. Outre les considérations énonciatives (certitude, statut, engagement...) et sémantiques (institutionnel, moral, intellectuel...) un premier classement des modaux retiendra des critères grammaticaux comme l'emploi du mode et l'association au « que ». Le test consiste à juger si le verbe modal fonctionne avec l'énoncé : « Il modal que tu prennes le train. », « Il modal que tu prends le bateau. ». Des verbes entraînent un complément « Il communique au chef de quai que tu prends le bateau. », devient fragile par ellipse : ?« Il communique que tu prends le bateau », et un détournement rhétorique avec le subjonctif : « Il communique que tu prennes le bateau. », compris comme un ordre implicite.


 6.      IV.7.6.  bibliographie

     DESCLÉS Jean-Pierre, « Catégorie grammaticale » in Dictionnaire des sciences cognitives, Armand Colin, 2002, 336 p.
     NICOLAS David, « La catégorisation des noms communs : massifs et comptables » in Catégorisation et langage, p. 29 à 51, Hermès Lavoisier, 2002, 230 p.


     La convention grammaticale, pour Notule 1.1   IV.  
     Le récapitulatif des balises en usage dans Notule 1.1
     Adjectifs, noms et déterminants
     Adverbes et pronoms
     Prépositions et conjonctions
     Verbes conjugués et infinitifs
     Participes passés et présents
     Étiquette
     Syntagme
     Forme
     Subordonnée
     La page d’accueil
     Le sommaire des pages


       Site       motte 0.5  
       Imprimer  
     Rédaction : 01.04.2004      Publication : 13.10.2006     Révision : 06.11.2006
      http://cadrat.saynete.net2003 - 2018