c
a
d
r
a
t






  Entrée  
   Études    
    Constitution  
 
 
+  Des ressources en corpus, isotopies et programmes
+  Des articles d’ études sur le traitement automatique de la langue
+  Les pages du site pour des recherches, informations, résumés...



     l’ appropriation numérique d’un texte   
Le texte numérique, relatant son processus d’appropriation, de la numérisation à la remise en forme

 1.  méthodes d’appropriation

La numérisation s’effectue avec le scanner, en manuel ou à l’aide d’un chargeur spécifique type photocopieuse, mais l’usage de ce dernier suppose le sacrifice d’un livre par le passage au massicot. Il est toujours possible de recoller le livre à peu près proprement à l’aide de gaze d’imprimerie et de colle à bois. L’on peut aussi employer l’appareil photo numérique, au nombre de pixels suffisants, avec une bonne exposition à la lumière et un applatissement du support. Ce qui est possible pour une qualité photo est plus délicat pour la finesse du texte, que rend trouble l’éloignement de l’objectif.

La dactylographie et l’importation de textes de bases existantes sont naturellement les deux méthodes les plus simples. La première est longue, mais, avec rigueur, la plus sûre. L’importation est relativement hasardeuse dans la mesure où il n’y a guère d’assurance sur sa validité. Le problème est différent en ce qui concerne les documents numérisés sans reconnaissance de caractères, comme les livres anciens, type de ceux disponibles sur le site de la Bibliothèque Nationale.

La reconnaissance vocale n’a pas été testée. Elle n’était pas tout à fait au point dans le commerce lors du commencement des travaux sur le corpus Saint Exupéry. À titre indicatif : « en moyenne, les taux d’erreur, en mode indépendant du locuteur, peuvent aller jusqu’à 0,3% (pour des suites de chiffres), à 5% (pour un vocabulaire de 20000 mots en parole continue), puis à 8% (pour des lettres épellées) et jusqu’à 55% pour des conversations téléphoniques spontanées ! » (Haton, 2000 : 273). Reste les aficionados de la méthode et les progrès constants dans ce domaine.

Il ressort des expériences menées que l’option du chargeur est la plus rapide pour l’acquisition, même si elle implique réduire le livre à ses feuilles, de préférence neuves, en espérant que le bourrage papier ne soit pas trop répétitif. Pour la numérisation manuelle, les éditions de poche contiennent quelques erreurs (voir chapitre suivant § 2.) et présentent surtout plus de pages qu’une édition comme la Pléiade, qui se révèle alors être un support intéressant pour peu que l’on ait la patience du moine copiste. Les erreurs des OCR sont heureusement récurrentes, l’on peut repérer et corriger certaines d’entre elles une fois pour toute, par exemple pour une reproduction de la Pléiade la césure au saut de page.

Loin d’encourager un paire-à-paire de l’édition littéraire, il faut reconnaître que la réalisation de la bibliothèque universelle n’est pas particulièrement en phase avec le droit de propriété. Rappelons sa durée : 70 ans ; auteur ou traduction ; 1939 à 45 peut compter double. L’on peut voir le détail de la loi française sur le site de LegiFrance ; un tableau synthétique sur l’INPI et sur la durée, le site des Universités numériques. Cette législation pourrait fort bien changer dans le futur, soit par les nécessités d’harmonisation au niveau des autres médias ou d’autres pays, soit un alignement dans le cadre du brevetage, soit par la perturbation de nouvelles conceptions de l’accès à la source, comme Google.print.


 2.  erreurs sur support papier

Dans une édition Folio Gallimard de Terre des hommes est relevée à la page 70 une absence dans la phrase : « [...] à des coffrets enfouis, à des louis d’or » avec la disparition du point final. Le déplacement d’une virgule dans un énoncé peut modifier son sens. Le cas a été décrit (Oliver : 1993) lors de la parution de L’école des femmes d’André Gide dont les éditions postérieures répètent l’erreur. À ce sujet, l’on peut aller dans la description de la ponctuation, dans le cadre du développement de la convention sur le format des balises de Notule.

Pour exemple d’erreurs plus lourdes, dans la même édition Folio de Terre des hommes : « [...] balloté d'un bout de l'Europe à l'autre [...] » page 180 ; dans Vol de nuit : « [...] une clartée pâle d’astres. », page 111. Relevons que même l’édition de la Pléiade peut diverger d’une édition de la Nouvelle Revue Française. Dans le chapitre I de la septième partie de Terre des hommes : « [...] je goûte une gaieté légère. », page 238, comparée au Terre de l’édition de la N.R.F. : « [...] je goûte une gaîté légère. » page 130. Si le substantif est indexé des deux manières dans le dictionnaire, le bon usage ne va pas jusqu’à contrarier l’écrivain dans son écart : « Les lampes à arc, toutes à la fois, luirent. » dans Courrier Sud, page 80, pour « luisirent », relevé par le Dictionnaire des difficultés de la langue française de Larousse comme « incorrect ».

Statistiquement peu élevés ces faits sont tout de même gênants dans la mesure où, selon certains traitements, la petite erreur ne sera pas noyée dans le tout mais au contraire saillante. D’où l’importance de disposer d’un corpus le plus propre possible en gardant à l’esprit les potentialités de particularités non corrigées et d’erreurs non débusquées.

La notion d’approximation et de relatif est donc un des facteurs d’appréciation du corpus. Même vérifié lettre à lettre, il peut difficilement être parfaitement conforme à l’original, d’une part parce que, comme vu, la vigilance peut être trompée, d’autre part parce que l’intégrité des données est un problème crucial et purement informatique lorsqu’une base entre dans une chaîne de modification.

L’instabilité du corpus peut provenir de sources inattendues, cette fois-ci de l’ordre du contexte historique : la censure régnant en France sous l’occupation avait fait effacer une seule phrase de l’édition Pilote de guerre, peu avant qu’il ne soit interdit : « Ils sont tous des imbéciles. Celui qui ne sait pas trouver mes gants. Hitler qui a déclenché cette guerre démente. Et l’autre, de l’état-major, avec son idée fixe de mission à basse altitude. » Phrase présente dans l’édition de la Pléiade de 1999, mais absente par exemple d’une édition Folio du 6 avril 1972 comme de la base informatique Frantext qui a reproduit la précédente édition de la Pléiade. Ainsi, une étude de concordance autour de l’occurrence « Hitler », pour les écrivains d’avant-guerre, serait parasitée.

Les commentaires sont en moindre mesure faussés s’ils envisagent le relatif, l’erreur ou l’incertitude. La prise en compte consiste à éviter un commentaire au style péremptoire, au profit de celui de piste ou d’éclairage, ce qui n’enlève rien à la qualité de l’étude ni à la pertinence du questionnement.

La problématique de la chaîne des traitements informatiques que subit un corpus est une question sérieuse, et d’autant plus délicate que, comme nous venons de le voir, un texte numérisé est à la base une chose fragile. Pour une étude de corpus, l’on peut se rendre à l’étude lexicométrique de l’œuvre de Saint Exupéry.


 3.  remise en forme

Comme tout corpus informatique, l’élagage du paratexte, des titres, des citations en début de textes, de dédicaces ou des notes restent à l’appréciation de l’utilisateur. Dans le corpus de Saint Exupéry ont été conservés le titre de l’oeuvre, les numéros de chapitre, les dédicaces de Terre des hommes, du Petit Prince, de Pilote de guerre et les titres de Terre des hommes. La dédicace de Vol de nuit : « À M. Didier Daurat », opérant une rupture de la fiction, n’a pas été conservée.

En résumé ce travail de longue haleine nécessite :
- de rassembler dans un même fichier toutes les pages issues de l’œuvre (paires et impaires par exemple) ;
- de supprimer ou de marquer les titres, sauts de pages, paratextes autres, numéros de pages et de chapitres ;
- de soumettre le document au correcteur orthographique, éventuellement grammatical ;
- de remettre en page tabulations et marges ;
- de saisir au clavier les caractères disparus ou illisibles ;
- d’effacer les caractères épars qui ne sont pas d’origine ;
- d’harmoniser la typographie de tout le corpus comme les guillemets et les tirets ;
- d’envisager un tirage papier pour une relecture ;
- le soumettre à des traitements statistiques comme un relevé de fréquence de la ponctuation, révélant par exemple des juxtapositions ou un nombre différent d’ouvertures et fermetures de parenthèse.

Les incohérences qui peuvent être détectées sont :
- des caractères suspects tels que ~ > ² ^, pouvant provenir d’annotations ;
- des caractères isolés, tels que qu’un espace suivi d’une apostrophe ou au contraire juxtaposés .., --;
- une ponctuation prise entre deux caractères, « franc,ais », confondu avec la cédille ;
- des caractères ressemblants (le chiffre « 1 » pour la lettre « l » minuscule « 1es », le « 0 » pour « O » ) ;
- des majuscules sans diacritique, « A Londres, le 18 juin. », ignoré du correcteur orthographique, fréquent sur le support écrit, et pouvant parasiter une catégorisation ;
- des caractères comme l’apostrophe ' ou le divisé / ou le divisé inverse \ : générant une erreur si le texte est pris comme chaîne de caractère dans un programme, ou une expression régulière ; l’apostrophe : codé dans un ASCII rigide ; les signes supérieur inférieur > < pour des formes dans le format XML ; et l’esperluette & pour les entités HTML.

 4.  bibliographie

     OLIVER Andrew, « Revue de critique et de théorie littéraire - Du bon usage des textes électroniques : Lesquels ? » Texte et informatique, 1993, 13/14, Trinity college, Toronto.
     HATON Jean-Paul, « Reconnaissance Automatique de la Parole » in Techniques et science informatiques, volume 19 n°1/2/3/2000, Hermes Science, pp.269-276.
         Terre des hommes, Édition Folio Gallimard, date d'impression le 1er mars 1999.
     Vol de nuit, Édition Folio Gallimard, date d'impression en septembre 1992.
     Terre des hommes, Édition de la Pléiade, Tome I, 1994.
     Terre des hommes, Édition de la N.R.F. impression janvier 1963, n° d'édition 9258.
     Courrier Sud, Édition de la Pléiade, Tome I, 1994.


     La page d’accueil
     Le sommaire des pages

     Les ressources lexicales   II.1.  
     Des tests de catégorisation et de traduction   II.5.  
     La base de données lexicale   III.2.  
       Imprimer  

       Site       motte 0.5  
     Rédaction : 01.04.2004      Publication : 01.04.2005     Révision : 12.01.2010
      http://cadrat.saynete.net2003 - 2024