c
a
d
r
a
t






  Entrée  
   Études    
    Réflexion  
     Perspective  
 
+  Des ressources en corpus, isotopies et programmes
+  Des articles d’ études sur le traitement automatique de la langue
+  Les pages du site pour des recherches, informations, résumés...


     les moteurs de recherche      §V.2. 
La question des moteurs de recherche, d’une intégration possible de la grammaire et du rôle éventuel du catégoriseur dans son fonctionnement

 1.      V.2.1.  moteurs

La prolifération médiatique du siècle écoulé, des journaux à la radio, puis à la télévision, posait il y a une vingtaine d’années une question : « La surabondance du signe entraîne-t-elle la pauvreté du sens ? » (Lhermitte, 1981 : 93). Sa réponse appelle non seulement de multiples développements, mais elle se pose désormais de manière évidente avec les moteurs de recherche sur internet.

L’ordinateur encyclopédie est désormais perçu comme une réalité et la galaxie incline à piocher ou suivre des chemins déjà balisés. L’on sait pourtant qu’en matière de possibilité multimédia et de richesse d’information, la fonction crée le besoin. Au milieu d’une ère du quantitatif, répertoriant toujours plus de pages ou projetant de numériser de gigantesques fonds universitaires, la bibliothèque virtuelle se concrétise, tandis que la question pratique de l’accès à l’information est loin d’être résolue. Même s’il est délicat d’imaginer un moteur de recherche parfait, étant donné qu’il n'est jamais évident que la requête soit correctement posée et que la réponse existe en l’état, l’expérience de tout à chacun révèle que la pertinence est loin d’être au rendez-vous, confirmée par une étude quantifiée : « Les notes globales sont extrêmement basses, puisqu'aucun moteur n'atteint la note moyenne de 2,5. » (Véronis, 2006 : 7).

La première étape, la requête par mot clef, paraît désuète face à la masse des textes sollicités. Un même principe se retrouve sur les Universalis, Encarta ou Larousse, ou bien dans les sites spécialisés type quotidien d’actualité. Il s’agit du concept dictionnaire : une entrée générique, une lecture sélective. Tout questionnement doit se reformuler en une requête : transformation d’une phrase interrogative conceptualisée en un syntagme plus ou moins décousu au clavier. Les réponses s’y enlisent à hauteur de la complexité initiale, et celle-ci subit une restriction préalable si l’on ne souhaite pas s’engager sur un mode d’enquête.

Toute la force d’un moteur actuel réside en premier lieu dans sa rapidité, sa fiabilité, sa cohérence et son exhaustivité, ce n’est pas rien et c’est même capital, mais la forme de classification, le rendu des résultats, n’est pas à l’ordre du jour. Il est vrai que le contenu, souvent, ne se prête guère à être trié ou structuré. Le principe ergonomique des moteurs consiste en un jeu d’options pour ordonner la demande et des balbutiements lexicaux pour réaiguiller la saisie. Les plus élaborés ne sont pas exposés sous la forme d’une boîte conviviale et intuitive, mais oscillent entre un panel de questions booléennes et une entrée quasi-brute recelant un langage plus ou moins efficace d’affinage. Afin de débusquer cette information, l’appréhension d’un vocabulaire susceptible d’avoir servi d’ancrage dans un texte est plus utile que la connaissance du paramétrage. Une astuce ne consiste pas tant à trouver l’information, mais le bon site susceptible de contenir l’information avec des requêtes connexes. En dehors de classiques, ou de coïncidence d’un extrait de phrase, toute sollicitation qui appelle une précision converge vers le site salvateur, le catalogue de ruses, la croyance en la toute puissance de l'algorithme.

Qui songerait à interroger : « Que sont devenus les otages de Moscou contaminés par le gaz ? », ou imaginerait naviguer sur la toile comme on navigue sur un graphique, à l’aide de la seule souris ? Les mappemondes virtuelles et le dialogue avec la machine sont encore très ambitieux, au regard de l’actuelle technologie en ingénierie linguistique. Les moteurs de recherches graphiques et en langage naturel ont déjà été réalisés, respectivement Kartoo et ask jeeves, mais ce qu’on appelle agents intelligents demeurent une machinerie élémentaire, et les produits cités, des tentatives. Le portail assouplissant et accompagnant les interrogations de l’internaute sera vraisemblablement celui de l’avenir. Il serait trop simple de croire que l’usage du mot mémento va persister, du moins sans un environnement différent. L’apparition de suggestions lors de la saisie et de propositions du type « essayer avec l’orthographe », en est l’illustration, ou « articles connexes », dans les moteurs de site, qui tendent à accompagner la recherche.

La réalisation de Kartoo, qui cessera en 2010, était spectaculaire car visualisation ne rimait pas avec confusion, elle apparaissait même graphiquement efficace en interne en ciblant les informations, dès lors que le champ lexical était restreint et que des informations simples y étaient associées, exemple pour des locations de villas, Corsevilla. Elle était peut-être trop en avance sur son temps, proposant un tableau des résultats direct et non un cheminement vers la représentation du dit résultat, malgré l’intention matérialisée par les topiques. L'idée même du cheminement était absente de l'interface graphique, puisque durant le temps de recherche, trop long, aucune mise en place par étape du résultat n'était réalisée, même par le procédé courant de transprarence progressive, comme pour Wolframalpha, ce qui permet de tamiser le temps d'attente, quitte à le rallonger. Même si Kartoo avait des défauts, comme la lenteur, son application locale est un exemple de technologie réussie tombée dans l'oubli. L'on retrouve des innovations graphiques en Flash alliées à mots-clefs dans les modules pour blog, sans que ceux-ci semble-t-il ne dépasse le stade du widget.

Un degré de complexité dans la requête en langage naturel fonctionne avec Powerset, non pas sur la toile mais le vaste corpus propre et structuré de la Wikipédia. Quelques tests permettent de se donner une idée, notamment à l’aide d’un debut de phrase en « who », « when ». Toute requête commençant par « why » est vouée à l'approximation, en dehors d'articles à hypothèses comme l'assassinat de J.F.Kennedy. En revanche le rendu des résultats ne se contente pas de l'énumération mais de l'association de mots-clefs établissant une ébauche de construction syntaxique, parfois pertinente, à essayer avec un boxeur « who did boxeur defeat ?  ».

Pour l'accès textuel le moteur scholar.google propose un type de structuration se basant sur la fréquence de citation d’une oeuvre dans des sites à vocation universitaire. Celui de a9 d’Amazon offre les caractéristiques du site ; wikio et ses tags semblables aux hautes-fréquences, désormais communs ; exalead et ses multiples menus thématiques pour réorienter la recherche, que l'on retrouve sous forme de syntagmes parfois plus dans élaborés dans cuil. Le parcours de nombreux moteurs, spécialisés ou généralistes, ou du google labs et son experimental nous offrirait un éventail de critères. Mais nous sommes malgré tout encore loin d’une véritable boîte à outils, accessoires, sous forme d’infobulle ou rangée d’icones, proposant des filtres (annuaire, moteur spécialisé...), des informations (prévisualisation, fréquentation...) ou des réaiguillages (orthographe, requête connexe...), qui apparaissent de ci de là, comme le curseur de date, grokker, ou le menu déroulant de Google achevé vers 2010 qui étale toutes ses applications dans un menu. Lorsqu'on voit la facilité avec laquelle on utilise les icones de son traitement de texte favori ou lorsque l’on s'approprie rapidement un nouveau logiciel, pour peu que son interface soit bien réalisée, on devine ce qu’une ergonomie efficace peut apporter à notre simple recherche ou souci d’investigation, que cet utilisateur soit un simple internaute ou un programmeur averti.

Existe-t-il des schémas intermédiaires entre l’expression intelligible de ses idées et pagayer dans les mots en requêtes, porté par la statistique ? Une ébauche découlerait de cette conception d’enrichissement du signe, du rôle accordé au « deuxième lecteur », à la structuration des données et à l’interactivité des marqueurs de paramétrages autour d’un corpus. Elle implique le développement d’aiguillages et de générations d’informations de type paratexte. Dans cette perspective, la requête par mot clefs serait une première étape, avant l’affinage, ou plus précisément, les possibilités d’affinage linguistiques. En somme, il s’agirait de poser des carrefours plutôt que la nécessité du débroussaillage. La prise en compte d’une lemmatisation, la levée d’ambiguïtés élémentaires ou le classement thématique en sont quelques-unes. Ils se retrouvent parfois inclus dans les moteurs de recherche internes, comme les sites sur l’actualité, mais à la pertinence aléatoire, le problème demeurant la richesse et la performance de la catégorisation initiale, dont le niveau est semblable à celui des corpus annotés, § II.1.4. .

En ramenant à un degré élémentaire l’aspect linguistique, il est réintroduit l’idée du socle fragile sur lequel s’est échafaudé le T.A.L.

Car toutes sortes d’autres possibilités peuvent être imaginées, comme un paramètre de calage sur un format de rédaction : phrase, liste, titre, menu, formulaire... comme une extension de la requête type « define: » de google, dont on voit les possibilités lorsqu'elle retient les expressions, et indirectement une hiérarchie des titres, à essayer avec « sémantique ». En somme, ce qui tient de la structuration du discours à un niveau un peu plus élevé que la mise en page : brachylogie, casse, ponctuation, saut, typologie (numérique, alphabétique), longueur... En quelque sorte un « emplacement », google, ou « placés », voilà pour le texte. Il n’existe pas semble-t-il de prise en considération achevée de ces critères pour ce qui ressort de corpus importants, c'est-à-dire hors base de données de moteur interne, les critères se limitant à des marques évidentes comme le titre ou fortement structurées comme la bibliographie. Cette distinction de format peut être employée par le programmeur, séparant ce qui ressort du tutoriel, du code ou du forum, par exemple, pour différencier « php » l'extension d'une adresse et le langage lui-même, pour une règle pourtant on ne peut plus simple, mais affichant un résultat bateau dès lors que les associations sortent de l'ordinaire ; les applications interrogeables en ligne, et donc possédant un formulaire, à distinguer de leur simple description, pour aider à dégager des exercices interactifs, des quizz, des dictionnaires avec entrées... ; dans un texte, pour distinguer un type d'oeuvre, pour reconnaître un commentaire, une bibliographie, pour séparer clairement les trois, avec des règles évidentes pour la poésie et des indices solides avec les guillemets et les deux points.

Le mode de l'aiguillage et la dimension de la linguistique deviennent des nécessités, qui apparaissent dès la saisie d'un mot comme « maçon », dont le moteur ne prenant pas en compte le repère élémentaire de la cédille, va le confondre d'avec la ville ; à tester avec Google, depuis 2008, (qui présente un aiguillage), Yahoo (qui n'en tient pas compte) et Exalead (qui ne le retient que pour ses liens sponsorisés). La difficulté augmente avec la « maçonnerie », qui amène deux champs à cause d'un autre indice élémentaire, le tiret, et donc « franc-maçonnerie » ; à voir avec Google (qui mêle ciment et équerre), Yahoo (idem) et Exalead (qui le désambiguise par associations, efficace pour « franc- » ). Par ailleurs, par aphérèse le terme « maçon », est ambigu sémantiquement, et donc a priori insoluble, puisqu'il désigne aussi l'initié. Cependant, il n'est pas compliqué d'établir et différencier ces deux champs lexicaux. Ainsi, ils devraient s'intégrer comme ontologie clairement différenciées et faire l'objet d'une règle grammaticale par liste.

À notre connaissance aucun outil dans les moteurs ne structure le texte, à l’état brut, dans cette perspective, malgré les tentatives du type scholar.google. Et l’on aurait tort de considérer que ces formats sont chaotiques. Il existe des constantes pas plus difficiles à formaliser qu'une catégorisation élémentaire, comme celle vue au paragraphe précédent.

Une partie de ces possibilités est offerte par le principe du format XML :
- la norme pour le texte pris comme corpus, appelée TEI (Text Encoding Initiative). Celle-ci pose plusieurs problèmes dont celui de fond du rapport texte plein / texte structuré (II.1.2., restriction des ressources), et s’est peu développée ;
- l’usage de plus en plus fréquent des formats d’échange, les RSS, (RDF Site Summary) a connu un succès certain pour l’actualité, liés au phénomène des blogs, mais ils sont limités à quelques entrées, et concernent essentiellement la reprise de données d’un site à l’autre, et les moteurs l’exploitant (Feed search engine), tel le défunt Newstrove, ne font que montrer l’intérêt du concept, la limitation de l’actuel format, et de nouvelles possibilités dans les types de requêtes (datation, qualité/pertinence et rang de publication). Par exemple, la prise en considération thématique, comme la spécification de rubrique, n'est guère retenue : la balise RSS <category [...] term= [...]> est quasiment absente des flux d’actualité français. Elle se retrouve dans le domaine de la photo avec Flickr, qui l’utilise comme il se doit pour un générer un catalogue de mots-clefs, qui deviennent ainsi des mots-thèmes, sans toutefois être une taxinomie  ;
- le RDF (Resource Description Framework), qui devrait concrétiser la toile sémantique. Ce projet est initié par le W3C en 1999, et consiste à qualifier le texte d'un site. Il peine à voir le jour en 2006, du moins à dépasser le cadre théorique d'un « Web sémantique ». En 2010, des projets plus techniques se développent à travers les annonces de prise en considération ou l'apparition d'entêtes RDF . La complexité apparente du RDF contraint son appropriation par les webmestres, d'autant qu'il s'agit de concepts linguistiques et non de programmation. Le processus de qualification des balises est une évolution inéluctable de la toile dans la mesure où l'on considère que les sites et leur contenu s'affinent dans la perspective d'une meilleur accessibilité pour l'internaute ou d'un référencement. Pourtant la qualification thématique d'une balise, et plus encore un système de relation sémantique entre balises, tel que proposé par le RDF, n'est retenu que parce que des outils existent pour exploiter un système de balisage. Le HTML des origines possédait des balises qui allaient au delà du simple rendu, comme <cite> pour les citations, mais elles n’ont jamais été prises en compte par les moteurs de recherches, neutralisant par avance leur développement.

Il est certain que le développement de la toile sémantique va directement dans le sens d'une catégorisation sémantique sans passer par le stade de celle grammaticale. Il s'agit d'un processus collectif et donc d'une appropriation collective, et il n'est pas impossible d'imaginer un moteur ouvert, ou l'émergence de moteurs spécialisés, fédérés par un même format RDF. Si ce format commence à apparaître, et s'il existe des développement de Wiki sémantiques, des sites comme la Wikipédia ne le mettent pas encore en avant, et, si l'on tient pour critère la pauvreté, la confusion et la difficulté d'appropriation de ses flux RSS, il y a fort à parier que la Wikipédia ne sera hélas pas en tête de la généralisation de ce format.

Pour résumer, si l’on doit imaginer une échelle de l’ « intelligence » des requêtes, un tableau en quatre types d’outils d’aiguillage révèle les carences du deuxième niveau, la fragilité du troisième, et l’ambition voir l’utopie du dernier.
 

4
langage naturel, cartographie...
3
thématisation, articles connexes...
2
format d’édition, balisage type TEI...
1
suggestion orthographique, annuaire...
 A.   Le Tableau A du niveau d’investigation 
 

Le rendu des résultats, l'outillage de recherche et la prise en compte de la dimension grammaticale sont une carence des moteurs de recherche. En attendant de mettre au point l’interface qui concentrera de manière fonctionnelle et conviviale l’ensemble de ces outils, la catégorisation et le développement de son paratexte pourraient offrir de nouvelles options d’investigations sur le texte numérique, sans s’attacher à des dimensions linguistiques proprement dites.

À titre de réalisation expérimentale, le moteur de recherche interne de ce site, Motte, s'inscrit dans cette optique. En court d'écriture, il ne permet pas de trier les énoncés, les citations, les bibliographies, les titres, les définitions... et il ne possède pas encore les paramétrages classiques. Sa spécificité est de considérer l'objet paragraphe, dans un esprit du concordancier. Il affiche tous les résultats sur une même page, propose les pages trouvées puis les pages et les paragraphes trouvés, et permet d'accéder directement au paragraphe, en cliquant sur le carré de note de marge. La méthode de l'aiguillage (arriver directement sur l'information), la dimension textuelle (prendre en considération le paragraphe) et le rôle de l'icone (cliquer sur un carré) sont respectés. Techniquement, il est en porte-à-faux avec notre discours sur la catégorisation grammaticale puisque le paragraphe et son contenu ne sont pas reconnus par un catégoriseur, à savoir balisant préalablement le texte à l'aide de règles, mais Motte use de cette approche, se servant d'une balise incrémentée en PHP <? $pp++; echo $pg.$pp.$pr ?> systématiquement au côté de <p>, qui donne une numérotation du paragraphe <var id="p102"></var> en HTML.

Il ne s'agirait plus de la rédaction du seul moteur de recherche mais bien d'entreprendre une fusion avec le catégoriseur.



 2.      V.2.2.  bibliographie

     LHERMITTE Pierre, « L'informatique et la pensée de Saint-Exupéry », Athènes, Cahiers Saint-Exupéry n°2, conférence du 19.02.1981 pp. 86-97.
     VÉRONIS Jean, « Étude comparative de six moteurs de recherche », 22 fév. 2006, Université de Provence, http://sites.univ-provence.fr/veronis/pdf/2006-etude-comparative.pdf, 10 p.


     Les  traducteurs    V.1.  
     Les  agrégateurs    V.3.  
     La page d’accueil
     Le sommaire des pages

       Site       motte 0.5  
       Imprimer  
     Rédaction : 01.04.2004      Publication : 01.04.2007     Révision : 04.07.2011
      http://cadrat.saynete.net2003 - 2018