.1. Introduction | 0.1. Résumé | ||
.0.2 Abstract | 0.3. Mots-clefs | ||
.2. Changement de sujet } | A. B. |
Graphique des phrases dans Hamlet Tableau des tirades dans Hamlet |
|
.3. Continuité du discours } | C. D. |
Graphique des phrases, Terre des hommes Tableau des paragraphes de Terre des hommes |
|
.4. Autres figures | E. | Graphique des phrases dans Pilote de guerre | |
.4.1 Constance | F. | Tableau sur la continuïté, Pilote de guerre | |
.4.2 Déclin | G. | Tableau sur le déclin pour Pilote de guerre | |
.4.3 Accroissement | H. | Tableau sur l'accroissement, Pilote de guerre | |
.4.4 Chute | I. | Tableau sur la chute pour Pilote de guerre | |
.4.5 Superposition | J. | Tableau sur la superposition, Pilote de guerre | |
.5. Application d’un nuage de bulles aux mots-outils | K. | Graphique sur les mots-outils, Le Petit Prince | |
.6. Conclusion | |||
.7. Une bibliographie indicative sur le longueur des phrases |
.A. | Graphique en secteur du volume de l'œuvre |
.B. | Graphique du volume de l'œuvre avec Citadelle |
.C. | Tableau du relevé des occurrences pour l'étude |
.D. | Tableau du relevé des occurrences dans Frantext |
.A. Mots commençant par e | |
.B. Prénoms, pays et communes fr. | .F. Caractères spéciaux |
.C. Abréviations | .G. Interjections |
.D. Mots-outils et assimilés | .H. Dictionnaire des catégories |
.E. Mots composés | .I. Dictionnaire des noms propres |
Le présent travail repose sur une conception de la combinatoire des données et l’application vise à la réécriture en ligne de code d’un système de la langue. L’adaptation d’un système suppose la vérification de sa validité par la compréhension de son mécanisme, ne pouvant s’en remettre à son seul héritage. La grammaire est utilisée ici à une fin précise et n’est étudiée pour elle-même qu’en second lieu. Il n’y aurait donc aucune objection quant à une remise en question. Cette éventuelle refonte est motivée par les perspectives, comme elle pourrait l’être sur le fond.
Une démarche consisterait à justifier le découpage grammatical de la langue par analogie avec des catégories de pensée, en observant : « la correspondance des essences logiques et des anciennes parties du discours. » (Damourette, 1927 : 108). L’établissement d’un lien conceptuel n’est pas chose nouvelle puisque déjà Aristote s’y penche, (Topiques, I,9), mais le philosophe ferait une référence aux sous-catégories et non aux bases mêmes du découpage. Cette approche est naturellement intéressante car le problème n’est pas pris du côté linguistique, mais philosophique. La récente psycholinguistique apporterait certainement son éclairage à ce domaine, tant par exemple la distinction entre nom et verbe paraît élémentaire et précoce. La grammaire générative, dans sa perspective propre, réduit les catégories à un schéma à quatre éléments : « NP pour syntagme nominal (noun phrase), VP pour syntagme verbal (verb phrase), AP pour syntagme adjectival (adjective phrase) et PP pour syntagme prépositionnel (prepositionnal phrase) » (Ruwet, 1972 : 10), mais à ce sujet une critique évoque plutôt un « essai de définition » (Lagarde, 1988 : 10). Ne pouvant guère explorer ce lien entre la pensée et le langage, qui relève d’une spécialisation, et nous ramène à la sphère cognitive, il convient de se servir des points d’ancrage des travaux existants.
Un découpage s’est perpétué à travers les siècles : « liste [...] qu’on retrouve d’ailleurs à peu près identique dans toute l’histoire de la grammaire française [...] Le grammairien latin Varron (IIème siècle après J.-C.) démontrait huit parties du discours : - le nom - le pronom - le verbe - le participe - l’adverbe - la conjonction - la préposition - l’interjection » (Gary-Prieur, 1985 : 76-77). La grammaire étant un domaine d’étude aussi riche qu’ancien, reste à savoir si à l’avènement des sciences du langage, les catégories ont été conservées ou si elles ont été remises en question.
En fait, les parties du discours ont non seulement une vieille histoire mais reposeraient sur des fondements solides : « il est très rare [qu’] on soit arrivé à découvrir autre chose que les catégories traditionnelles, du moins pour les langues à l’intention desquelles elles avaient été définies, et, quand on a cru y parvenir, il s’est révélé que les catégories traditionnelles étaient supérieures. » (Milner, 1995 : 66). Dans le cadre de la traduction anglais français, ce sont précisément les catégories de base qui sont employées afin dans un second temps de « permettre leur regroupement sous une forme plus rationnelle. C’est ainsi que les espèces nominales comprennent le nom et le pronom ; les espèces adjointes, l’adjectif et l’adverbe [...] » (Vinay, 1977 : 94). La traduction se pose en terme d’équivalence, comme de différence dès que les deux langues s’éloignent : « le système des parties du discours [...] s’il s’appliquait bien aux langues indo-européennes pour lesquelles il avait été conçu, était en revanche inapproprié à la description des langues amérindiennes. » (Bourdeau, 2002 : 17). Toutefois, quand bien même un autre découpage rendrait mieux compte d’une langue, toutes : « expriment, d’une façon qui ne nous est pas trop « étrangère », ce que nous plaçons dans les catégories grammaticales données ci-dessus - noms, verbes... » (Malherbe, 1995 : 51).
De quelque côté que l’on se place, nous relevons qu’il existe une base incontournable : « Le verbe et le nom sont comme les deux pôles d’un champ magnétique à l’intérieur duquel les catégories oscillent, subissant l’attraction soit de l’un soit de l’autre. » (Hagège, 1986 : 182) ce, quelque soit la langue, encore que de manière plus ou moins pertinente. D’une façon plus efficiente, cette polarité se manifeste à travers différents points de vue sur le texte : thème et rhème, participant et procès, sujet et prédicat, ou actant et action. Puis une observation neurolinguistique inclinerait à la confirmer : « Les personnes avec des lésions de la région périsylvienne antérieure [...] retrouvent plus facilement les noms que les verbes, on suppose que des régions cérébrales différentes traitent ces deux classes de mots. » (Damasio, 2001 : 14), ce qui ne signifie pas pour autant que la distinction soit inhérente ; induite par la différence de structure ou autrement motivée, le traitement en demeure clairement spécifique.
Le fait de se servir de catégories dejà existantes pour expliquer l'ensemble du groupe ressemble fort à un raisonnement récursif et doit susciter une part d'humilité. Un article de dictionnaire de sciences cognitives modère la polarité : « l’opposition verbo-nominale, transparente dans les langues indo-européennes, ne traverse pas la diversité des langues » (Desclés, 2002 : 56), tandis qu’un autre dictionnaire, de linguistique, la tient pour acquise : « des catégories syntaxiques telles que verbe, nom existent dans la structure de toute langue ; » (Dubois, 1999 : 500). Le flottement tient à la difficile séparation entre partie du discours et syntaxe, à distinguer la parole de sa structure, qui fait supposer une faiblesse de la terminologie, et surtout que, sur ces questions « Il s’agit là d’un débat encore ouvert. » (Gil, 1996 : scd).
En conservant le découpage légué par la tradition, l’on peut d’une part observer les constantes : « toutes les langues possèdent des pronoms, et dans toutes on les définit comme se rapportant aux mêmes catégories d’expression (pronoms personnels, démonstratifs, etc.) » (Benveniste, 1974 : 251) et d’autre part les différences : « Les catégories de mots sont loin d’être également réparties : beaucoup de langues n’ont pas d’adjectifs, de nombreuses autres possèdent des morphèmes de classes [...], d’autres encore disposent de noms spéciaux utilisés pour les relations de parenté, et dont le comportement syntaxique est différent de celui des noms ordinaires. » (Hagège, 1986 : 72).
Il apparaîtrait donc que le pronom soit une catégorie universelle. Il est certain que ses propriétés saillantes sont aisées à déterminer et à classer, or : « Les pronoms sont parmi les éléments grammaticaux qui sont traités avec le plus de variété dans les différentes langues du monde. » (Malherbe, 1995 : 64), si bien qu’il pourrait s’agir d’un effet de surface du phénomène de l’énonciation, en relevant par exemple que : « Certaines langues, telles que le bulgare, le kwakiutl et le hopi usent de procédés morphologiques spéciaux pour indiquer des événements qui ne sont connus du sujet parlant que par le témoignage des autres. » (Jakobson, 1963 : 177). Il en découle l’idée d’un lien très relatif entre un classement et le concept qu’il prolonge : « Il y a des langues comme le hopi où le verbe n’indique absolument aucune modalité temporelle [...] et d’autres comme le tübatulabal (du même groupe uto-aztec que le hopi) où l’expression la plus claire du passé appartient non au verbe, mais au nom » (Benveniste, 1974 : 153). Par conséquent il faudrait interroger le concept, voire l’intérêt d’un aspect, comme le temps, puis décrire ses articulations telles que le passé ou la modalité. Le but est d’établir ou confirmer les rapprochements lexicaux, de mesurer si les liens sont courts et manifestes ou distendus et troubles, en quelque sorte de quantifier les exceptions. Si tant est que ce soit le lexique qui prolonge la propriété.
La question de l’affixe attire l’attention d’abord sur l’importance accordée dans les langues au lexique. L’effet de correspondance entre la catégorie et le mot connaît des exceptions : « Dans l’idiome chimariko (idiome indien de Californie), la position des affixes pronoms dépend du verbe : les pronoms sont des préfixes pour certains verbes, des suffixes pour d’autres. » (Sapir, 1923 : 68). Cette correspondance est parfois aussi trompeuse dans la mesure où la notion de mot peut être assez floue : « dans certains cas particuliers, surtout en ce qui concerne les idiomes fortement synthétiques des indigènes d’Amérique, il n’est pas toujours facile de dire si tel ou tel élément du langage doit être classé parmi les mots indépendants, ou parmi les parties d’un mot. » (Sapir, 1923 : 35). S’il est reconnu que le concept même de « mot » est partout courant, son découpage, amorce de toute appropriation informatique, demeure pour partie lié à la norme.
Cette norme aurait vraisemblablement pu poser autre chose qu’apostrophe, tiret, ou blanc. Notons que ce dernier est amené lors du passage du volumen au codex. Et il nous faut distinguer les conventions héritées du classement proprement dit : « Si le verbe est usuellement représenté par son infinitif comme entrée de lexique pour nombre de langues, c’est pure convention ; l’infinitif en langue est tout autre chose que l’infinitif de la métalangue lexicographique. » (Benveniste, 1974 : 255). Enfin tout regard critique se doit de juger de la distance avec les époques et écarter les prolongements possibles de quelques redoutables images d’Épinal : « Ne faut-il pas craindre que Saussure, malgré sa qualité de Romand, et la clarté pénétrante, indéniablement toute française, de son esprit, n’ait jusqu’à un certain point subi les inconvénients du bilinguisme : » (Damourette, 1927 : 96).
De cette énumération de confirmations et d’objections se dégagent l’importance et la prééminence du découpage en mots, la faculté de certaines catégories à être des points d’ancrage, une quantité de fonctionnements parallèles peu prégnants ou au contraire un seul aspect saillant, et donc la question de la priorité à donner à une notion pour rendre compte d’un classement.
Une fois assuré de la relative universalité et stabilité du découpage grammatical, et en filigrane sa pertinence pour le français, il convient de se demander si le rapprochement avec le lexique y sera toujours juste, comme de l’exactitude de la définition à donner à la catégorie. La difficulté étant de déterminer si telle ou telle forme va entrer ou pas dans un groupe : « [...] tous les grammairiens ne proposent pas la même classification des unités d’une langue. » (Gary-Prieur, 1985 : 73)
Si, comme nous venons de le voir, les classifications se posent avec suffisamment de solidité, leur distinction par les grammaires varie : « L'identification de l'infinitif, d'un point de vue morphologique ne pose pas de problèmes. En revanche, il est source traditionnelle de débats quand il s'agit de définir sa catégorie : verbale ou nominale. » (Maingueneau, 1999 : 197). Le point de vue courant est connu, et tout approfondissement entraînera à nouveau une réflexion sur les catégories elles-mêmes, pour l’heure vouée à l’impasse ; sur l’intérêt d’un classement rigoureux, discutable selon sa finalité ; sur les critères de classement, supposant un système complexe. L’instabilité n’est d’ailleurs pas spécifique du niveau lexical : « [les] propositions subordonnées [à savoir] les infinitives et les participiales [...] n'étant pas centrés autour d'un verbe à un mode personnel, ces groupes ne méritent même pas d'être appelés propositions, et sont des compléments du verbe ou de la phrase en particulier. » (Gardes-Tamine, 1998 : 48). Relevons tout simplement que Larousse étiquette « rien » comme pronom indéfini et Le Robert, nom indéfini, dont la partie commune serait fragile puisque plus généralement l’appellation « indéfini » n’est : « absolument pas justifiée » (Wagner, 1991 : 113). Autrement dit, le découpage proposé par les grammaires françaises est l'objet d’un consensus sur la terminologie, mais peu propice à une taxinomie.
Une forme est associée à une catégorie parce qu’elle présente des similitudes avec un groupe déjà homogène. Ce sont trois critères principaux, la sémantique, la syntaxe et la morphologie, qui sont présentés comme déterminisme au cheminement d’un mot dans telle ou telle catégorie, de même qu’ils vont décider du destin d’une grammaire : « Les regroupements de Wagner-Pinchon sont généralement fondés sur des critères formels ou fonctionnels [...] la présentation de Bonnard est plutôt fondée, elle, sur des critères morphologiques et/ou sémantiques. » (Gary-Prieur, 1985 : 76).
Partant du principe qu’une forme possède un, deux ou trois aspects dominants et d’autres de moindres importances, la dimension du discours est en mesure de faire varier la hiérarchie des attributs, ou d’en créer d’autres. C’est souvent, à première vue, le sens qui se transmet et le fonctionnement syntaxique qui se modifie. L’on entrevoit les potentialités de glissement d’une catégorie à l’autre aux lots d’exceptions ou de complications qui accompagnent chaque définition d’une catégorie : un nom n’est pas nécessairement précédé d’un déterminant : « Il parle avec gentillesse » ; la morphologie veut que l’adverbe soit invariable, sauf pour « tout » ; la sémantique du pronom dit qu’il représente un nom, excepté l’impersonnel : « Il pleut ».
Dans les grammaires, la question du glissement fait partie d’un développement annexe à la définition de la catégorie. Notons que par le passé elle semblait incluse : « Adjectif qualificatif épithète, attribut, employé comme nom, comme adverbe. » (Dussouchet, 1910 : 192). Les manuels de nos grands-parents étaient nettement plus prescriptifs. Déroulant de longues listes d’exceptions et de cas particuliers, nos aïeux étaient de cette manière plus sensibles aux fonctionnements en marge d’un classement.
Le glissement est tantôt enraciné dans la langue, (voir les prépositions § IV.4.3.1.), tantôt pris dans le discours, (la substantivation d’un adjectif, § IV.4.1.1.1.) et opère aussi lors du basculement d’une langue à l’autre : « la transposition [...] est un procédé qui consiste à remplacer une partie du discours par une autre sans changer le sens du message. » (Vinay, 1977 : 96), suggérant en regard de la quantité de transpositions possibles, la volatilité catégorielle face à la permanence conceptuelle, déjà illustrée au chapitre 2.2., et par conséquent les difficultés idiomatiques.
Les mots-outils sont peu nombreux par rapport aux mots pleins mais d’une fréquence d’apparition proportionnellement plus élevée. Ils contribuent comme leur nom le suggère davantage à la syntaxe. Ils ont des usages variés, où le glissement catégoriel est en définitive assez aigu. Il conviendra de proposer un découpage plus important que les mots pleins, d’autant que ces derniers sont essentiellement mus par des déterminismes sémantiques moins proches de nos préoccupations et de nos priorités.
La taxinomie existante en grammaire est l’objet de discussions : « Le reproche que l’on peut faire ici à la grammaire traditionnelle n’est donc pas d’avoir cherché à définir le signifié de telles marques et d’avoir voulu en tenir compte dans sa terminologie, mais plutôt - de s’être contentée d’une définition qui rend compte tout au plus de certains emplois de ces marques, et qui est manifestement inapplicables à leurs autres emplois. » (Creissels, 1979 : 41,42). Des nouveautés ou un remaniement permettrait d’éclairer son contenu mais attenterait à ce qui est déjà moyennement robuste, et recèle de toute façon l’instabilité inhérente à l’emploi du terme.
Pour exemple de terminologie qui s’amplifie au gré des évolutions, opérant de nouveaux classements, la classe du déterminant, qui « ne remplace aucun terme ancien ; il regroupe un ensemble de mots qui, à l’intérieur du GN, ont le même comportement. » (Bescherelle, 1997 : §203) Elle est un aspect du phénomène plus général de « "familles" de termes dont les membres appartiennent à des catégories différentes. » (Le Goffic, 1993 : §21).
Il nous faut tenir compte des divers aspects de l’héritage grammatical, en reprenant le classement de façon à l’adapter au mieux aux nécessités de la catégorisation. Mais un plafond informatique à la norme existe, toutes les considérations ne peuvent être prises en compte. La norme en cours est calquée au mieux afin d’éviter une distanciation entre les deux types de grammaire. Il ne s'agit pas ici de présenter un nouveau format de découpage, mais bien de s'efforcer de formaliser au mieux celui existant. Tous les travaux sont les bienvenus, de la grammaire scolaire aux études beaucoup plus ciblées, en se réservant des espaces innovants.
Un déterminisme agit en filigrane, il s’agit de la démarche normative elle-même, c’est-à-dire de la nécessité de classer les mots en groupes aux caractéristiques semblables. La norme en linguistique devient douteuse si son découpage est trop rigide et compliquée si les classements opèrent une hiérarchie trop importante.
L’on sait qu’au niveau syntaxique, l’énoncé d’une règle a de fortes chances d’être modifiée d’un contre-exemple, que la morphologie est bâtie autour d’un florilège d’exceptions et que les catégories sont loin d’être étanches. Si bien que l’on va trouver une méthode d’enseignement de la grammaire basée précisément sur la compréhension des « insuffisances » d’une règle (Bouix-Leeman, 1993). Pour dire vite, la méthode développe une réflexion sur l’interactivité et la terminologie, et donc de souplesse de la norme, dépassant par ailleurs le cadre un peu conflictuel du prescriptif/normatif. Il est évident que la convention informatique est une couche supplémentaire de normalisme, mais que les choix terminologiques et les possibilités de combinaisons doivent la rendre dès le départ aussi claire et modulaire que possible. Il faut permettre au système informatique de pouvoir évoluer afin de répondre à des problématiques plus complexes. La description détaillée des divers paramètres comme les balises utilisées, la base de données, les principales règles séquentielles, et leur accessibilité de façon claire et ergonomique sur un site dédié sont autant de portes ouvertes aux modifications.
Les questions grammaticales s’étendent progressivement à d’autres domaines linguistiques, sans prétendre échapper à cette : « accusation d’être partiel, ou, ce qui est plus grave, de déformer la réalité [d’un phénomène de la langue] en la compartimentant - » (Ducrot, 8 : 1972), difficulté exposée dans la conception de la programmation (§ I.4.). Les textes à catégoriser sont une réponse, puisqu’en quelque sorte empiriques, et d’un intérêt à hauteur de leurs caractéristiques linguistiques ou stylistiques.
Notre catégorie ne s’encombre pas de trop de précisions, n’incluant une hiérarchie que parce qu’elle aurait des difficultés à se faire comprendre de manière implicite. Chaque changement de terminologie ou chaque rajout est effectué de façon simple, et dans la base et dans les règles. La suppression d’une règle ne fait qu’affaiblir la qualité de la catégorisation, au pire la parasite, les formes étant solidaires et non pas dépendantes. C’est aussi en observant le fonctionnement de la convention adoptée et des résultats obtenus que s’éclaire la pertinence du découpage.
À court terme, l’exposition selon un canevas pédagogique des ressources générées par le catégoriseur fait une part importante à la clarté des articulations et laisse de côté la transparence des raisonnements. Poursuivre dans le sens d’une observation scientifique risque d’affaiblir sa crédibilité à cause d’un déterminisme initial, à savoir la proportion de convention, et de mal cadrer avec sa finalité, la vulgarisation. Par articulation s'entend la dimension graphique et interactive, et par raisonnement, la description du fonctionnement, dans ses potentialités et ses connexions.
À moyen terme, l’exposition du code du programme avec commentaires complèterait la démarche de souplesse. Elle s’inspirerait de la politique du logiciel libre, comme la licence GPL, visant à protéger la possibilité d’accéder au code. Elle envisage un travail collaboratif.
L'oralité déclenche des interrogations sur les critères de classement et le découpage lexical : « les tons, ou comme certains les appellent, les tonèmes, [...] ont une fonction distinctive [...] ils modifient habituellement, non pas une voyelle en tant que telle, mais un noyau syllabique, souvent composé de deux ou de plusieurs phonèmes. » (Martinet, 1969 : 48) ; toute polarité dûment constatée comme celle des mot-outils/mots pleins entraîne en toute logique des distinctions à un autre niveau : « dans le cadre des répétitions à l'oral [...] si les fragments de mots sont le plus souvent des mots lexicaux, les répétitions elles, concernent au contraire surtout des mots-outils. » (Pallaud, 2006 : 708). Cette dimension discursive, les balbutiements, suppose soit d'être la conséquence de la triade sémantique/morphologie/syntaxe, soit d'être acceptée comme un autre déterminisme, lequel est plus évident pour les intonations. Si déterminisme il y a, il est alors soit une couche supplémentaire sur la triade, soit une potentialité qui suppose un mécanisme inhérent à la langue, que l'écrit n'exploite pas, qui se retrouverait par exemple sous la forme de tropes ou de ponctuation, un constituant incontournable de la communication, comme l'insistance pour les balbutiements, ou la délimitation pour l'intonation. Le fait est que ces dimensions n'apparaissent pas pertinentes pour notre découpage en mots du texte, qu'elles modifient pourtant, étant un niveau à part, intermédiaire entre le morphème et le mot pour les deux exemples, dans la mesure où le catégoriseur est cantoné aux corpus écrits. Il faudrait introduire d'autres déterminismes comme nous allons l'amorcer avec la pragmatique, l'étymologique et l'informatique pour sortir concrétement des catégories traditionnelles tout en restant dans notre logique du découpage en mots.
Le critère syntaxique s’exprime moins dans sa face logique et fonctionnelle que distributionnelle. La résolution de l’ambiguïté doit beaucoup à la structure de la phrase, et comme il a été vu, les possibilités d’un mauvais aiguillage sont proportionnelles à ses décalages canoniques. La syntaxe compte plusieurs paliers : l’association simple de deux ou plusieurs mots, d’un groupe homogène de mots, ce qui revient à une fonction, d’un groupe propositionnel et de la phrase. C’est la fonction, appelée séquence, qui est majoritaire dans les règles de notre programme.
Par ailleurs, la méthode stochastique (argumentée au chapitre III.1.1.) pourrait intervenir à ce niveau d’analyse en repérant les constructions étiquetées comme incidente.
Le palier logique apparaît dans les chapitres concernant le « que » de même que les mots composés, qui dépassent tous deux le niveau lexical. Le palier fonctionnel se manifeste à travers les pronoms personnels, sujet et complément, mais reste peu important et pertinent. Si bien que la convention envisage effectivement la fonction, en restant sous la forme d’un trait et inclus dans les règles séquentielles.
La dimension sémantique se concrétise dans le programme par l’existence de listes de mots thématiques pour un domaine de toute façon incontournable : « Car la sémantique est toujours présente dans la réflexion sur le langage : la sémantique n’est pas à proprement parler une des disciplines linguistiques, ce n’est pas une branche de la linguistique descriptive au même titre que phonologie ou grammaire, c’est une problématique qui concerne l’ensemble des disciplines linguistiques. » (Creissels, 1979 : 39). L’exemple d’autres langues est un moyen de cerner un concept, quelques références parsèment notre étude.
Tout regroupement par famille étant l’objet d’une qualification (§ III.3.5.), les champs lexicaux ou thèmes génériques, se retrouvent avec l’ « identitaire » ou le « géographique ». Ils sont alors des ontologies, marques des noms propres (§ IV.4.1.2.2), mais aussi des noms communs et des verbes (§ IV.7.4.). C’est leur combinatoire et les différentes manières de les situer dans le texte qui vont permettre d’affiner les valeurs circonstancielles et de construire le palier sémantique.
L’aspect est plus particulièrement développé dans le chapitre suivant, sur la convention des balises. Dans l’établissement d’une grammaire la morphologie conditionne la conjugaison, le genre, le nombre et les ensembles finis, concernant par exemple les suffixes qui : « ont un certain nombre de propriétés caractéristiques, dont celle de déterminer l’appartenance catégorielle du dérivé résultant de leur adjonction. » (Huot, 2001 : 71). Il s’agit d’un critère important, comme en témoignent les verbes, mais pèse quantitativement peu dans la catégorisation, essentiellement parce qu’il se rapporte à l’orthographe, apanage de la base lexicale.
Au sein du programme, la morphologie fonctionne pour l’accord, la casse, l’écriture des dictionnaires et le format des balises. En début de chaîne de traitement certaines formes sont laissées figées comme « aujourd’hui », et une série de tests pour les mots inconnus est appliquée afin d’opérer des reconnaissances pour les mots composés à trait d’union : « France-Angleterre », et les néologismes à préfixe : « redissoudre » (voir § IV.2.7.2.).
L’intégration de la pragmatique à la catégorisation serait délicate, pas seulement pour la question insoluble de l’énonciation et de la machine, mais aussi pour le classement et la terminologie. La dimension pragmatique pourrait de plus apparaître comme secondaire, de par son développement récent, son rapport à l’oralité et la place relativement restreinte qui en est donnée dans les grammaires.
Toutes les considérations ayant trait au référent et à l’antécédent vont ramener au cadre de l’énonciation, et les formes modales, aux notions de subjectivité du locuteur, pour la complétive, le subjonctif ou l’interrogative indirecte. Son enjeu réside dans la classification des adverbes, des verbes de parole, dans le traitement des pronoms, éclairant une des épines du logiciel de traduction, le neutre anglais « it ».
Son développement serait en revanche essentiel dans la mesure où il permet de tamiser la question du contexte, problématique en soi plus capitale encore que le sens. Il apparaît paradoxal que la pragmatique n’ait pas été plus sollicitée dans le T.A.L., car elle génère précisément des listes de mots, de syntagmes et d’énoncés.
La référence étymologique se manifeste parfois dans les grammaires pour relever les formes d’une origine commune, comme la famille du « que » indo-européen, ou bien volontairement désambiguïsées par l’établissement d’une norme au XVIème et XVIIème siècle, par exemple la distinction « ou » et « où ». L’on peut ainsi suivre le glissement de catégories, s’attarder à son mécanisme, comme pour la forme « plein », initialement nom, puis préposition au XIIème siècle et adverbe le suivant, ou relever les emplois vieillis avec les prépositions « proche », « touchant » ou « dehors » et donc d’un emploi potentiellement très variable selon l’époque du corpus.
Si les premières grammaires françaises font largement appel au latin, les commentaires étymologiques du Grevisse ou les encadrés de diachronie de Maingueneau servent plus à éclairer qu’à justifier. Le classement proposé par notre travail étant clairement une affaire de synchronie et la priorité donnée à l’informatique, ce critère ou plutôt cet enrichissement n’entrera que peu dans les réflexions. Son développement serait évident pour proposer de nouvelles familles, une remise en cause de certains canons, et une rédaction plus ouverte et pédagogique.
Les références ayant trait à l’étymologie cette fois-ci envisagées comme indice pourraient renseigner le texte. Le Larousse attribue ainsi « anciennement » pour le mot « rouet », le métier à tisser. La présence de la forme dans un corpus fait appel à un contexte passé, et aiguille donc l’identité du passage dans ce sens. Il est à noter que la définition du marqueur est capitale puisque celle-ci parle de « réalité aujourd’hui disparue » (dictionnaire Larousse, 2003 : 21), tandis que l’objet est bel est bien encore utilisé ailleurs qu’en France. Il faudrait alors recadrer la référence à l'allure universaliste, en parlant de « degré technologique », voire de « rudimentaire », ou encore spécifier « domaine national ».
L’usage de la catégorisation peut déterminer la configuration des balises. La manière même d’envisager le travail va en être influencée. Une étude linguistique, en usant de relevés lexicométriques n’est pas la même qu’un développement pédagogique. Le premier va privilégier un découpage marqué, des étiquettes techniques tandis que le second va s'attacher à présenter un tout homogène, accessible, dans une continuité des ouvrages scolaires.
Ne pas associer les valeurs énonciatives ou identitaires d'une forme dans un cadre pédagogique, encore trop expérimentales, mais qui présente un intérêt pour une approche lexicométrique où le maximum de renseignements est requis, et la liberté plus grande. Faut-il proposer ou pas un format hiérarchique de traits imbriqués Adv:Circ/Temp ? Une approche technicienne ne va pas s'en encombrer, Adv:Temp, car plus aisés à manipuler.
Certains rassemblements sous forme de familles, comme les subordonnées autour du complémenteur, pour des corpus catégorisés détenant le taux d’erreur plus faible possible, l’aiguillage de « que » étant un cas complexe qui amplifie significativement le jeu d’étiquette. Une étude statistique peut tolérer un seuil d’erreur qu’un relevé lexical ne peut admettre.
La base de données joue un rôle dans l’établissement d’une norme, à travers la disposition et le choix des attributs d’une forme, comme les lemmes. Par exemple le fait de ne pas intégrer la correspondance phonétique de chaque forme n’invite pas à commenter cette dimension, peu liée à une description proprement grammaticale, mais dont l’intérêt est évident. Le même rapport informatique est abordé dans le chapitre des mots composés, IV.3., notamment pour la question des idiotismes.
Parvenir à mêler les perspectives et les aspects suppose un système souple possédant des formats facilitant les passerelles et les modifications. Ces dernières sont des travaux indispensables qui impliquent de prendre du recul, ce qui ne s’effectue qu'avec beaucoup de temps. Assouplir pour rendre compte de la variété consiste en premier lieu à s’affranchir de l’idée d’un standard. Dans les règles, l’on va classer l’utilisation d’un lemme dans la sémantique, et pragmatique si ce lemme est un modal. L’utilisation d’une section de la classe grammaticale, de loin la plus fréquente, est considérée comme un usage syntaxique, tandis que les seuls traits comme le genre et le nombre, vont relever d’une approche morphologique.
Pour parvenir à dégager les fonctionnements, le catégoriseur relève les glissements, (adjectivale, adverbial... Adje, Adve), reprend certaines étiquettes, (déterminant article, Dét:Arti), et comme l’exigent les grammaires, attribue un même trait à plusieurs catégories, amorçant la question des familles (possessif, Poss, indéfini, Indé, composé, Cmps...). L’introduction de la notion de famille est prématurée, mais rien ne s’oppose à ce qu’elle fasse l’objet d’une quatrième étape de catégorisation, où certaines questions devraient être développées comme celles des connecteur, complémenteur et modifieur, et il sera employé le terme de rupture dans notre travail.
La catégorisation ne saurait se passer d’une confrontation au discours, ni d’une approche à un palier autre que lexical : « Or, ce qui commande l’énoncé, ce ne sont pas les catégories, taxinomie variable selon les langues, ce sont les fonctions ou relations entres les termes. » (Hagège, 1986 : 180). L’actualisation génère un lot de cas particuliers et d’usages figés qu’il convient d’inclure et rassembler dans les règles.
C’est alors la syntaxe qui devient le centre des préoccupations, le reste ne faisant que l’enrichir en entrant dans sa logique, du moins dans la phase principale, celle de la catégorisation. L’explication de chaque forme amène à poser une distinction entre indice et marque. Le premier déduit par étape une classe, (en supprimant certaines classes, ou en ne sélectionnant que la catégorie), le second pointe immédiatement la solution (en sélectionnant la classe). Il n’y a pas de prédominance de l’un sur l’autre, la marque peut être une règle définitive, si elle fonctionne à chaque traitement. Plus il y a de marques, plus les règles sont courtes et pertinentes, devant tendre à la synthèse plutôt qu’à l’exhaustivité.
Il s'agit de plusieurs approches mues par plusieurs contraintes pour la rédaction de la base et des règles qui suivent : la finitude s’oppose à l’enrichissement, la structuration à l’expérimentation, le technique au traditionnel, le figé au détail et le conventionnel à la plasticité.
Le récapitulatif des balises en usage dans Notule 1.1 | La gestion de l’ambiguïté II.4. Un état des ambiguïtés |
Le groupe des nominaux adjectifs, noms et déterminants IV.4.1. Le groupe des déitiques adverbes et pronoms IV.4.2. Le groupe des liaisons prépositions et conjonctions IV.4.3. Le groupe des verbes conjugués et participes IV.4.4. |
|
La page d’accueil Le sommaire des pages |
Imprimer Rédaction : 01.04.2004 Publication : 01.06.2007 http://cadrat.saynete.net2003 - 2025 |