c
a
d
r
a
t






  Entrée  
   Études    
    Catégorisation   
     Ambiguïté 
 
+  Des ressources en corpus, isotopies et programmes
+  Des articles d’ études sur le traitement automatique de la langue
+  Les pages du site pour des recherches, informations, résumés...



     un état des ambiguïtés   
L’exposition du taux d’ambiguïté déduit à partir d’un texte littéraire de langue française étiqueté

 1.  présentation

Décider de ce qui est ou non une ambiguïté relève en partie de la norme des étiquettes. Plus celles-ci seront détaillées, plus les formes ambiguës seront nombreuses. Ce constat vaut jusqu'à la ponctuation dès lors que le trait d'union se différencie du tiret de dialogue.

Pour cette étude, le texte de Candide a été étiqueté par Notule version 1.0 sans être catégorisé. Le résultat permet d'esquisser un panorama de l’ambiguïté grammaticale pour un corpus donné, révélant pour chaque combinaison : sa quantité, son degré de complexité et, pour l'ensemble, la récurrence d'apparition d'une catégorie.

Les balises choisies sont les catégories de base, qui ne tiennent pas compte du détail, sauf verbal (ver pour verbe conjugué, vpp pour participe passé, vii pour infinitif et vrr pour participe présent). Les mots inconnus étant classés dans la balise du nom.

Le graphique dessine la répartition des formes ambiguës sans inclure le rapport aux formes non ambiguës, afin de s'attarder à la seule sphère de ce lexique.


 2.  commentaire

 A.  graphique de répartition


L'association la plus importante est celle de deux mots-outils, l'article défini et le pronom personnel complément, c'est à dire Det Pro. En second lieu une combinaison de mots pleins, Adj Nom, qui met en évidence avec la précédente combinaison le poids capital de la résolution de la séquence déterminant + nom. Le troisième quartier est le cas Nom Pre, pour l'essentiel représenté par « de », en tête des hautes fréquences des formes, peu encombrant puisque le concurrent de la préposition est la simple particule d'un nom propre. À ce niveau, le premier tiers des cas ambigus est relativement bien délimité et moyennement complexe.

Poursuivons la rotation pour constater que les deux quartiers suivants Nom Ver et Adj Det Nom Pro (numéraux) nous amènent à des combinaisons plus délicates ou multiples. Pourtant, les numéraux sont faciles à manier comparés à la forme suivante, à savoir l'emblématique « que », Adv Coj Pro. Avec cette dernière nous avons basculé au coeur de la difficulté. Celle-ci se prolonge avec la tranche Det Nom Pro, pour le seul « la », pronom, déterminant et note de musique, puis surtout le pavé des formes particulièrement ambiguës, pouvant devenir Adj Nom Ver comme « ferme ».

Le nom « la », d'apparition forcément moins fréquente que ses homographes mots-outils oriente d'emblée cette étude dans une perspective lexicographique. En effet, si la forme est problématique, d'un point de vue statistique elle concerne surtout le duel pronom déterminant. Et dans notre corpus, le nom n'apparaît pas.

À ce stade ne sont apparues qu'une poignée de mots-outils et une part importante des mots pleins, pour lesquels le nom est présent à toutes les combinaisons. La suite des associations, observées dans le tableau, révèle une persistance de la problématique du nominal/verbal avec Adj Nom Ver Vpp, Adj Nom Vpp soit cumulé tout de même 7,33% et la difficulté parfois insoluble des Nom Vii, confusion avec les noms de métier, « boucher » (voir § IV.4.3.1.).

Les autres associations sont assez nombreuses mais individuellement peu importantes, et représentent un tiers des ambiguïtés. Certaines simples comme Coj Pro pour « s' », d'autres chargées Adj Adv Coj Det Int Nom pour « bien », ou anecdotiques avec Nom Pob du « t » euphonique et Det Ver quand « importe » est pris entre « n' » et « quel ».


 3.  conclusion

L'on peut dégager du tableau de cette étude un groupe initial, à savoir douze ou treize des quatre-vingt-huit combinaisons établies, soit en pourcentage les deux tiers des ambiguïtés. Dans celui-ci la problématique des mots pleins paraît plus chargée que celle des mots-outils malgré la présence du subordonnant. Le substantif est le pivot des relations de presque chaque combinaison et l'adjectif semble peser plus lourdement que le verbe conjugué ou les participes. Enfin, la problématique adjectif/verbe/nom est persistante.

Ce corpus possède à peu près la moitié du lexique d'ambigu. Ces ambiguïtés nous indiquent que les combinaisons présentant un fort rapport complexité et quantité ne sont pas prioritaires, mais apparaissent assez rapidement, le reste des formes montrant une variation importante entre la complexité et la simplicité.

 
                

 B.  tableau de fréquences


Mots   dans
le   corpus
Nombre %
non ambigus 23007  58,13 
ambigus 16570 41,87
Total 39577 100
 
 
Mots
non  ambigus
Nombre %
nom
4634
20,14
pro
3509
15,25
ver
3251
14,13
pob
2784
12,10
pof
2603
11,31
det
1469
6,39
coj
1032
4,49
pre
1025
4,46
adv
979
4,26
vii
625
2,72
adj
484
2,10
pcd
293
1,27
vpp
262
1,14
vrr
57
0,25
Total 23007 100
Mots ambigus Nombre %
det pro 2203 13,30 adj adv coj det int nom 126 0,76 adv coj det nom pre
19 0,11
adj nom 1769 10,68 adj pre
126 0,76 pro vpp
19 0,11
nom pre 1468 8,80 int nom
108 0,65 adj coj nom
18 0,11
adj det nom pro 1163 7,02 adj det pro
97 0,59 int ver
18 0,11
nom ver
1029 6,21 adv coj int pre
69 0,42 adv coj ver
17 0,10
adv coj pro 790 4,77 adv det pro
68 0,41 int nom ver
14 0,08
det nom pro 699 4,22 adj nom vrr
66 0,40 adj adv coj pre vrr
13 0,08
adj nom ver 466 2,81 adv nom ver vpp
57 0,34 adv nom ver
13 0,08
adj nom ver vpp 406 2,45 coj det int pro
49 0,30 adj coj det nom pro
12 0,07
det pre
383 2,31 adj adv coj nom pre pro
48 0,29 adj nom vii
12 0,07
adv pre pro
379 2,29 adv coj nom pro
47 0,28 adv nom pre
11 0,07
nom vii 354 2,14 adv nom pro
45 0,27 adj adv int
9 0,05
adj nom vpp 343 2,07 adj ver vpp
44 0,27 adj adv nom ver
8 0,05
adv nom
289 1,74 adv int nom
43 0,26 adj coj nom pre pro
8 0,05
adv coj pre
281 1,70 coj nom
40 0,24 adv ver
7 0,04
adj adv nom
263 1,59 adj pre vpp
39 0,24 adj int nom
6 0,04
adv coj
261 1,58 nom vrr
37 0,22 adj nom pre
6 0,04
adv det
249 1,50 coj int nom pro
35 0,21 adv nom pre vrr
6 0,04
pcd pob pof
240 1,45 nom ver vpp
35 0,21 coj pre
5 0,03
adj vpp
210 1,27 adj adv
33 0,20 adj nom pre vpp
4 0,02
nom pro
205 1,24 adj adv int nom
33 0,20 adv coj nom pre
4 0,02
adv pre
193 1,16 adv int
33 0,20 det nom ver
4 0,02
adv coj nom pre ver
176 1,06 adj vrr
31 0,19 adj adv vrr
3 0,02
nom vpp
169 1,02 adj adv coj int nom
27 0,16 adj int
3 0,02
det nom 160 0,97 adv coj det
25 0,15 det ver 2 0,01
adv det nom pro
150 0,91 adv nom pre ver
22 0,13 adj coj nom pre vrr
1 0,01
adv coj nom
146 0,88 adj ver
21 0,13 adj vii
1 0,01
coj int
145 0,88 nom pob 20 0,12 adv coj vpp 1 0,01
nom pre ver
145 0,88 pre ver
20 0,12 Total 16570 100
coj pro 138 0,83 ver vpp
20 0,12


     Toutes les balises  en usage dans Notule 1.0
     La page d’accueil
     Le sommaire des pages
       Imprimer  
     Rédaction / Publication : 01.07.2003     Révision : 01.02.2005
      http://cadrat.saynete.net2003 - 2018

       Site       motte 0.5