.1. Introduction | 0.1. Résumé | ||
.0.2 Abstract | 0.3. Mots-clefs | ||
.2. Changement de sujet } | A. B. |
Graphique des phrases dans Hamlet Tableau des tirades dans Hamlet |
|
.3. Continuité du discours } | C. D. |
Graphique des phrases, Terre des hommes Tableau des paragraphes de Terre des hommes |
|
.4. Autres figures | E. | Graphique des phrases dans Pilote de guerre | |
.4.1 Constance | F. | Tableau sur la continuïté, Pilote de guerre | |
.4.2 Déclin | G. | Tableau sur le déclin pour Pilote de guerre | |
.4.3 Accroissement | H. | Tableau sur l'accroissement, Pilote de guerre | |
.4.4 Chute | I. | Tableau sur la chute pour Pilote de guerre | |
.4.5 Superposition | J. | Tableau sur la superposition, Pilote de guerre | |
.5. Application d’un nuage de bulles aux mots-outils | K. | Graphique sur les mots-outils, Le Petit Prince | |
.6. Conclusion | |||
.7. Une bibliographie indicative sur le longueur des phrases |
.A. | Graphique en secteur du volume de l'œuvre |
.B. | Graphique du volume de l'œuvre avec Citadelle |
.C. | Tableau du relevé des occurrences pour l'étude |
.D. | Tableau du relevé des occurrences dans Frantext |
.A. Mots commençant par e | |
.B. Prénoms, pays et communes fr. | .F. Caractères spéciaux |
.C. Abréviations | .G. Interjections |
.D. Mots-outils et assimilés | .H. Dictionnaire des catégories |
.E. Mots composés | .I. Dictionnaire des noms propres |
Tous les logiciels du T.A.L. ne se ressemblent pas. L’on peut distinguer les applications (correcteur grammatical, synthétiseur de parole...) et les outils (concordancier, listeur...) c’est-à-dire des traitements plus simples, sans une réelle finalité linguistique. D’autres sont intermédiaires, sans plus de finalité, mais ils représentent un aspect du discours, en ce qu’ils sont l’étape d’un traitement ou d’une problématique. Citons la représentation factorielle en lexicométrie parce qu’elle nécessite un travail d’interprétation, et l’étiqueteur morphosyntaxique, qui suppose un traitement complémentaire.
Le type de représentation du texte est une dimension primordiale. En entrée, il est susceptible de deux approches d’interfaces, celle où le corpus est un fichier qui sera traité puis intégré, comme Tropes, et celle possédant un fichier chargé dans sa forme originelle, type Cordial, puis traité, en mode éditeur de texte ; en sortie, de la simple définition d’un mot apparaissant sous la forme d’infobulle ou de la mise en valeur du résultat d’une recherche par le coloriage des graphèmes.
Contribuant à la variété des formats du texte, l’objectif est celui de la modularité. Par exemple, le logiciel Hyperbase peut permuter une de ses listes de mot par défaut en remplaçant son fichier par un autre au format .txt . Cette option n'est pas prévue dans les menus, mais l'esprit dans lequel il a été conçu permet des adaptations de ce genre et donc des traitements variés. Du côté de la programmation il s’agirait d’une série d’objets reprenant un traitement élémentaire de chaînes ou de listes de mots.
Cinq concepts peuvent se dessiner quant à la forme de notre logiciel de traitement du texte :
- une accessibilité directe au texte ;
- un ensemble de boîtes à outils modulaires voire compatibles ;
- une proximité avec un langage de programmation ;
- un descriptif des étapes ou un tableau de bord des modifications ;
- un gestionnaire des fenêtres de résultats.
Cette approche de l’interface nous ramène à notre considération sur la différence entre le concept d’outil et de celui de traitement automatique. Il peut s’agir simplement de présenter l’interface du catégoriseur en mode éditeur où chaque résultat appelle une nouvelle fenêtre. Cette superposition peut porter à saturation graphique, d’autant que les capacités du processeur et le volume de la mémoire laissent une marge importante d’empilement ; les fenêtres issues du programme en langage Python s’élevant à plusieurs centaines avant de commencer à ralentir le système. L’idée d’un utilitaire de gestion de ces fenêtres se dégage, autrement plus ergonomique que la représentation par basculement d’icône, type ALT-TAB. L’aménagement et l’accès aux fenêtres est par ailleurs d’actualité, faisant une des force du système d’exploitation du Macintosh, une inovation du navigateur FireFox avec ses onglets repris par Explorer 7, un argument en faveur de Windows Vista avec la transparence ou la réduction/alignement de Explorer 7.0.
La variété des applications informatique en linguistique amène différents outils, dont certains se retrouvent inclus dans les logiciels généralistes, comme la bureautique (dictionnaires, correcteur, phonétique, comptage...). Utilisés par le spécialiste, ils doivent mettre à portée de main des traitements spécifiques et accroître les possibilités de combinaison.
Lors d’une première approche des manipulations, les logiciels comme Word et Excel se révèlent des boîtes à outils intéressantes. Ils permettent de rapidement mettre au point des manipulations de caractères et des opérations simples de statistique lexicale, affinées sous VBA, inspiré de Visual Basic, qui est un des langages phares de Microsoft. Il s’agit de l’acronyme Visual Basic for Applications, le langage interne de ces deux logiciels. Il est appellé « macro » parce qu'il sert à automatiser une tâche longue ou répétitive, autrement dit une macro-commande. L'initiation est aisée, le résultat est immédiat. Il peut exploiter des fonctionnalités déjà élaborées du logiciel, notamment graphiques : il est possible d’automatiser les mises en forme de texte, classer des listes de mots dans des tableaux, colorier, compter des formes et échanger des formats de texte.
Excel est couramment utilisé pour des travaux statistiques, ses manipulations de cellules permettent de travailler les listes de mots, des champs de calcul sont prévus pour être applicables au texte (et il faut formater les cellules dans ce sens pour éviter les mises en forme automatiques). Outre les macros il offre de nombreuses possibilités mathématiques et de représentations graphiques, si bien qu'il n'est pas loin d'être un langage de programmation à part entière.
Leurs désavantages sont une extrême lenteur, une limitation des possibilités de programmation, et dès que celle-ci devient complexe, une instabilité des traitements. Trois éléments qui mettent un terme à l’exploitation des macros. Il s'agit alors d'un outil consistant à traiter le texte en début de chaîne de traitement, à le démaquiser, ou à l'enrober visuellement en fin d'opération. Peu adaptés aux opérations complexes que sont les étapes intermédiaires, même pour une manipulation simple des bases de données, ils font hésiter à se lancer dans les possibilités plus vastes d’Access.
Un environnement programmation comme Windev permet de se réapproprier un logiciel de la suite Office de Microsoft, mais la rapidité ne semble toujours pas au rendez-vous, et il ne s'agit plus d'un traitement de texte contenant une possibilité de programmation, mais du contraire.
Les études sur l’eurythmie ou celle de l’accroissement du vocabulaire utilisent les possibilités d'Excel en matière graphique et de couplage texte et chiffres.
Comme exemple d’utilisation, un tableau d’affichage d’énoncés préécrits, à la façon d’un bloc numérique, est utile pour compléter une base de données expérimentale manuellement constituées.
Une autre suite bureautique comme Open Office fonctionne sur le même principe, reste à en approfondir les possibilités. Il faudrait aussi observer le pilotage de celle de Microsoft avec Visual Basic, ce qui pose la question plus générale du langage de programmation.
Bien que limité, cet usage des traitements de texte et des tableurs possédant un langage de programmation intégré met en lumière l'intérêt d'une interface de type éditeur de texte ayant un maximum d'instructions compatibles, de manière à adapter chaque nouvelle problématique, pouvoir tâtonner avant de dépasser le stade du prototype, et suivre chaque étape de modification du corpus, lesquelles sont un élément clef d’une crédibilité du résultat.
Le concept type serait celui d'un logiciel de dessin, servi par une multitude de fonctions dont beaucoup opèrent de façon complexe, modifiant profondemment son objet, la limitation n’étant pas un besoin comme les applications bureautiques, mais la faculté de création. Pour exemple, façon fabrication de site web, le logiciel Flash, qui décompose le traitement, et possède son langage, Action Script, dans le but de construire l'interactivité et amplifier l'attractivité visuelle.