c
a
d
r
a
t






  Entrée  
   Études    
    Réflexion  
     Perspective  
 
+  Des ressources en corpus, isotopies et programmes
+  Des articles d’ études sur le traitement automatique de la langue
+  Les pages du site pour des recherches, informations, résumés...


     les agrégateurs      §V.3. 
Le catégoriseur, outil permettant de désambiguïser grammaticalement un texte. Il confère un filtrage élémentaire, salutaire pour gérer le classement des flux d’informations.

 1.      V.3.1.  format des flux RSS/ATOM

La lecture des actualités grâce aux formats RSS (Really Simple Syndication) et ATOM est devenu courante. Ce format est facilement lisible et utilisable. Pour le générer, rien de plus simple avec l'ouverture d'un blog ou d'un webzine, dont la plupart permettent de transformer ses articles en flux. En cliquant simplement sur l'icone RSS bien connu, visible dans la barre d'adresse de FireFox et les favoris de Internet Explorer 7, n’importe quel utilisateur peut s'abonner au flux d'information de ce site. Le résumé, titre, date... apparaissent dans son navigateur ou son logiciel au côté d'autres flux, et réalise ainsi un recueil personnalisé d'informations. Le flux n'est pas seulement récupérable le navigateur lui-même mais aussi par d'autres sites : soit un blog qui se fait le miroir des articles, soit des agrégateurs comme Wikio, Yahoo Actualités ou Flooby qui récupèrent des centaines de sources et laissent l'utilisateur y puiser comme un moteur de recherche.

Il s'agit d'une ontologie XML élémentaire qui ne souffre, a priori, d'aucune ambiguïté, étant donné leur spécificité : date, source, adresse et résumé, pour ne citer que les balises les plus courantes. Deux types de contraintes brouille cette parfaite représentation de la communication électroniques : l'informatique et la linguistique. Il existe deux standards et plusieurs versions. Pour contenir ce classique de l'informatique, il suffit de poser plusieurs programmes, comme aux temps où les navigateurs différaient un peu trop quant à la leur langage de programmation et obligeaient à deux codes ressemblants, puis se préparer à de nouvelles versions, à des essais de standardisation, d'interopérabilité etc. Une autre de l'ordre de l'informatique, se trouve dans les balises elles-mêmes puisque nombre d'entre elles contiennent de la mise en page, et même du code. Un simple strip_tags en PHP devrait faire l'affaire, mais il se conserve parfois tout le reste, et le texte perd sa lisibilité. Enfin, pour la linguistique, si l'ambiguïté s'estompe dans la promiscuité des balises, la redondance ferait office de concision, et mêle tantôt un titre et une date, tantôt une source dans le début d'un résumé.

Dès lors que la sélection s'opère sur le contenu se pose la question des ambiguïtés.

 2.      V.3.2.  ambiguïté dans les agrégateurs

Courant de l’été 2009 Google Actualité France introduit la possibilité de personnaliser directement sa page d'accueil sur l'actualité avec un mot-clef. Cette possibilité de mot-clef pour générer un flux RSS est présente depuis plusieurs années déjà, mais sa mise à disposition sur le même plan que les autres titres suppose une fiabilité de l'information. Or le problème de l'homographie du mot-clef reste posé. Il est toutefois possible d'élaguer les ambiguïtés parasites en considérant les plus fréquentes d'entre elles, et en selectionnant celle qui se lève de façon simple, sur une construction grammaticale, comme exemple dans le chapitre suivant.

L'application du catégoriseur aux flux RSS présente deux avantages majeurs : les flux sont courts et permettent donc un traitement quantitatif important, et ils sont parfois spécialisés, ce qui permet d'approfondir le qualitatif.

 3.      V.3.3.  règles de filtrage

La développement prend pour exemple deux ambiguïtés apparaissant dans l'agrégateur thématique d’Annudà :

- Corse : la forme est facilement identifiable grâce à sa majuscule pour éviter de le confondre avec le verbe corser. Celui-ci est repérable avec un marqueur formalisable sans même l'aide d'un catégoriseur, puisqu'il est un pronominal : « l’histoire se corse. ». La difficulté se situe au niveau de l'adjectif, « montagne corse » et montre l'intérêt du catégoriseur grammatical pour mettre de côté cette ambiguïté. La langue rendant compte d'autres langues, les sujets fort variés et internationaux de la toile devraient amener des homographies, dont le verbe « courir » en italien, qui apparaît facilement dans des sites mêlant des mots-clefs de plusieurs langues, et reprend même une majuscule avec une écurie : « AF Corse ». Si celle-ci est parfaitement identifiable, elle oblige à la considérer comme mot composé, et ne peut faire l'objet d'aucune règle grammaticale pertinente, de type Maj + Maj + Corse, sauf à considérer qu'il s'agit d'un indice pour une problématique d'ontologie institutionnelle, Nom:Abré + Corse. La forme est plus développée dans le chapitre IV.7.3..

- Environnement : la disctinction entre le terme écologique et le spatial relève de la sémantique. Dans ce cas le catégoriseur peut s'essayer à une règle ontologique et retient le comportement syntaxique. Ce dernier opère puisque le premier sens se comporte comme un nom propre, sans article et sans adjectif, « Des questions d'environnement. », « dans un environnement propice à l'épanouissement ». Il convient donc d'user des deux approches pour établir un résultat, un critère ontologique de l'écologie (pollution, catastrophe, météo, citoyenneté, nature, énergie...), un autre qui le situe en position focale ou sans amplification syntaxique.


 
 
     Les  traducteurs    V.1.  
     Les  moteurs de recherche    V.2.  
     La page d’accueil
     Le sommaire des pages

       Site       motte 0.5  
       Imprimer  
     Rédaction : 01.12.2007      Publication : 01.02.2008     Révision : 10.08.2009
      http://cadrat.saynete.net2003 - 2018