.1. Introduction | 0.1. Résumé | ||
.0.2 Abstract | 0.3. Mots-clefs | ||
.2. Changement de sujet } | A. B. |
Graphique des phrases dans Hamlet Tableau des tirades dans Hamlet |
|
.3. Continuité du discours } | C. D. |
Graphique des phrases, Terre des hommes Tableau des paragraphes de Terre des hommes |
|
.4. Autres figures | E. | Graphique des phrases dans Pilote de guerre | |
.4.1 Constance | F. | Tableau sur la continuïté, Pilote de guerre | |
.4.2 Déclin | G. | Tableau sur le déclin pour Pilote de guerre | |
.4.3 Accroissement | H. | Tableau sur l'accroissement, Pilote de guerre | |
.4.4 Chute | I. | Tableau sur la chute pour Pilote de guerre | |
.4.5 Superposition | J. | Tableau sur la superposition, Pilote de guerre | |
.5. Application d’un nuage de bulles aux mots-outils | K. | Graphique sur les mots-outils, Le Petit Prince | |
.6. Conclusion | |||
.7. Une bibliographie indicative sur le longueur des phrases |
.A. | Graphique en secteur du volume de l'œuvre |
.B. | Graphique du volume de l'œuvre avec Citadelle |
.C. | Tableau du relevé des occurrences pour l'étude |
.D. | Tableau du relevé des occurrences dans Frantext |
.A. Mots commençant par e | |
.B. Prénoms, pays et communes fr. | .F. Caractères spéciaux |
.C. Abréviations | .G. Interjections |
.D. Mots-outils et assimilés | .H. Dictionnaire des catégories |
.E. Mots composés | .I. Dictionnaire des noms propres |
Décider de ce qui est ou non une ambiguïté relève en partie de la norme des étiquettes. Plus celles-ci seront détaillées, plus les formes ambiguës seront nombreuses. Ce constat vaut jusqu'à la ponctuation dès lors que le trait d'union se différencie du tiret de dialogue.
Pour cette étude, le texte de Candide a été étiqueté par Notule version 1.0 sans être catégorisé. Le résultat permet d'esquisser un panorama de l’ambiguïté grammaticale pour un corpus donné, révélant pour chaque combinaison : sa quantité, son degré de complexité et, pour l'ensemble, la récurrence d'apparition d'une catégorie.
Les balises choisies sont les catégories de base, qui ne tiennent pas compte du détail, sauf verbal (ver pour verbe conjugué, vpp pour participe passé, vii pour infinitif et vrr pour participe présent). Les mots inconnus étant classés dans la balise du nom.
Le graphique dessine la répartition des formes ambiguës sans inclure le rapport aux formes non ambiguës, afin de s'attarder à la seule sphère de ce lexique.
A. graphique de répartition![]() |
L'association la plus importante est celle de deux mots-outils, l'article défini et le pronom personnel complément, c'est à dire Det Pro. En second lieu une combinaison de mots pleins, Adj Nom, qui met en évidence avec la précédente combinaison le poids capital de la résolution de la séquence déterminant + nom. Le troisième quartier est le cas Nom Pre, pour l'essentiel représenté par « de », en tête des hautes fréquences des formes, peu encombrant puisque le concurrent de la préposition est la simple particule d'un nom propre. À ce niveau, le premier tiers des cas ambigus est relativement bien délimité et moyennement complexe.
Poursuivons la rotation pour constater que les deux quartiers suivants Nom Ver et Adj Det Nom Pro (numéraux) nous amènent à des combinaisons plus délicates ou multiples. Pourtant, les numéraux sont faciles à manier comparés à la forme suivante, à savoir l'emblématique « que », Adv Coj Pro. Avec cette dernière nous avons basculé au coeur de la difficulté. Celle-ci se prolonge avec la tranche Det Nom Pro, pour le seul « la », pronom, déterminant et note de musique, puis surtout le pavé des formes particulièrement ambiguës, pouvant devenir Adj Nom Ver comme « ferme ».
Le nom « la », d'apparition forcément moins fréquente que ses homographes mots-outils oriente d'emblée cette étude dans une perspective lexicographique. En effet, si la forme est problématique, d'un point de vue statistique elle concerne surtout le duel pronom déterminant. Et dans notre corpus, le nom n'apparaît pas.
À ce stade ne sont apparues qu'une poignée de mots-outils et une part importante des mots pleins, pour lesquels le nom est présent à toutes les combinaisons. La suite des associations, observées dans le tableau, révèle une persistance de la problématique du nominal/verbal avec Adj Nom Ver Vpp, Adj Nom Vpp soit cumulé tout de même 7,33% et la difficulté parfois insoluble des Nom Vii, confusion avec les noms de métier, « boucher » (voir § IV.4.3.1.).
Les autres associations sont assez nombreuses mais individuellement peu importantes, et représentent un tiers des ambiguïtés. Certaines simples comme Coj Pro pour « s' », d'autres chargées Adj Adv Coj Det Int Nom pour « bien », ou anecdotiques avec Nom Pob du « t » euphonique et Det Ver quand « importe » est pris entre « n' » et « quel ».
L'on peut dégager du tableau de cette étude un groupe initial, à savoir douze ou treize des quatre-vingt-huit combinaisons établies, soit en pourcentage les deux tiers des ambiguïtés. Dans celui-ci la problématique des mots pleins paraît plus chargée que celle des mots-outils malgré la présence du subordonnant. Le substantif est le pivot des relations de presque chaque combinaison et l'adjectif semble peser plus lourdement que le verbe conjugué ou les participes. Enfin, la problématique adjectif/verbe/nom est persistante.
Ce corpus possède à peu près la moitié du lexique d'ambigu. Ces ambiguïtés nous indiquent que les combinaisons présentant un fort rapport complexité et quantité ne sont pas prioritaires, mais apparaissent assez rapidement, le reste des formes montrant une variation importante entre la complexité et la simplicité.
Mots ambigus | Nombre | % | ||||||
det pro | 2203 | 13,30 | adj adv coj det int nom | 126 | 0,76 | adv coj det nom pre |
19 | 0,11 |
adj nom | 1769 | 10,68 | adj pre |
126 | 0,76 | pro vpp |
19 | 0,11 |
nom pre | 1468 | 8,80 | int nom |
108 | 0,65 | adj coj nom |
18 | 0,11 |
adj det nom pro | 1163 | 7,02 | adj det pro |
97 | 0,59 | int ver |
18 | 0,11 |
nom ver |
1029 | 6,21 | adv coj int pre |
69 | 0,42 | adv coj ver |
17 | 0,10 |
adv coj pro | 790 | 4,77 | adv det pro |
68 | 0,41 | int nom ver |
14 | 0,08 |
det nom pro | 699 | 4,22 | adj nom vrr |
66 | 0,40 | adj adv coj pre vrr |
13 | 0,08 |
adj nom ver | 466 | 2,81 | adv nom ver vpp |
57 | 0,34 | adv nom ver |
13 | 0,08 |
adj nom ver vpp | 406 | 2,45 | coj det int pro |
49 | 0,30 | adj coj det nom pro |
12 | 0,07 |
det pre |
383 | 2,31 | adj adv coj nom pre pro |
48 | 0,29 | adj nom vii |
12 | 0,07 |
adv pre pro |
379 | 2,29 | adv coj nom pro |
47 | 0,28 | adv nom pre |
11 | 0,07 |
nom vii | 354 | 2,14 | adv nom pro |
45 | 0,27 | adj adv int |
9 | 0,05 |
adj nom vpp | 343 | 2,07 | adj ver vpp |
44 | 0,27 | adj adv nom ver |
8 | 0,05 |
adv nom |
289 | 1,74 | adv int nom |
43 | 0,26 | adj coj nom pre pro |
8 | 0,05 |
adv coj pre |
281 | 1,70 | coj nom |
40 | 0,24 | adv ver |
7 | 0,04 |
adj adv nom |
263 | 1,59 | adj pre vpp |
39 | 0,24 | adj int nom |
6 | 0,04 |
adv coj |
261 | 1,58 | nom vrr |
37 | 0,22 | adj nom pre |
6 | 0,04 |
adv det |
249 | 1,50 | coj int nom pro |
35 | 0,21 | adv nom pre vrr |
6 | 0,04 |
pcd pob pof |
240 | 1,45 | nom ver vpp |
35 | 0,21 | coj pre |
5 | 0,03 |
adj vpp |
210 | 1,27 | adj adv |
33 | 0,20 | adj nom pre vpp |
4 | 0,02 |
nom pro |
205 | 1,24 | adj adv int nom |
33 | 0,20 | adv coj nom pre |
4 | 0,02 |
adv pre |
193 | 1,16 | adv int |
33 | 0,20 | det nom ver |
4 | 0,02 |
adv coj nom pre ver |
176 | 1,06 | adj vrr |
31 | 0,19 | adj adv vrr |
3 | 0,02 |
nom vpp |
169 | 1,02 | adj adv coj int nom |
27 | 0,16 | adj int |
3 | 0,02 |
det nom | 160 | 0,97 | adv coj det |
25 | 0,15 | det ver | 2 | 0,01 |
adv det nom pro |
150 | 0,91 | adv nom pre ver |
22 | 0,13 | adj coj nom pre vrr |
1 | 0,01 |
adv coj nom |
146 | 0,88 | adj ver |
21 | 0,13 | adj vii |
1 | 0,01 |
coj int |
145 | 0,88 | nom pob | 20 | 0,12 | adv coj vpp | 1 | 0,01 |
nom pre ver |
145 | 0,88 | pre ver |
20 | 0,12 | Total | 16570 | 100 |
coj pro | 138 | 0,83 | ver vpp |
20 | 0,12 |