RTFlash

Les moteurs de recherche s'attaquent au sens

Il n'est pas si simple, pour un ordinateur, de s'adapter aux hommes et à leurs phrases floues et ambiguës... Tout internaute s'étant un jour frotté aux moteurs de recherche censés répondre aux questions en français courant connaît les limites actuelles de ces technologies. Les techniques de reconnaissance du " langage naturel " évoluent pourtant, et la société Sinequa - fondée il y a quinze ans sous le nom de Cora - y contribue avec un nouveau moteur de recherche multilingue appelé Intuition. La compréhension du langage repose sur plusieurs niveaux d'analyse. " Un bon moteur doit d'abord déterminer la fonction grammaticale des mots ", explique Philippe Laval, docteur en informatique linguistique et PDG de Sinequa. Une analyse du sens est ensuite nécessaire, car un terme peut changer de signification en fonction de son contexte. C'est là qu'intervient l'innovation de Sinequa. " L'idée nous est venue des dictionnaires simplifiés, raconte Philippe Laval, ces ouvrages qui n'utilisent qu'un millier de mots pour définir l'ensemble du vocabulaire d'une langue. " Chaque question ou chaque page Web soumise à Intuition est donc traduite dans un langage simplifié basé sur 800 mots seulement. Reste ensuite à l'indexer en fonction de son sens. " Imaginons un espace à deux dimensions, explique le jeune PDG . Sur l'axe horizontal, se trouve le vocabulaire juridique ; sur l'axe vertical, celui des fruits et légumes. " Le mot " juge " sera représenté par un point sur l'axe horizontal, tandis qu'une tomate figurera sur l'axe vertical. Pour chacun des mots de la phrase, Intuition va procéder de la même façon, construisant un nuage de points. Le sens général de la phrase est alors déterminé par le centre du nuage et sa distance aux deux axes. Enfin, le moteur calcule la position du texte dans son entier - donc sa signification globale. En réalité, le logiciel ne travaille pas seulement sur deux axes, mais classe les mots, phrases et documents dans un espace à 800 dimensions. Intuition s'appuie sur un dictionnaire de 400 000 termes français et anglais, couvrant l'essentiel du vocabulaire courant. De son côté, Sinequa souhaite lancer sur la Toile un moteur de recherche généraliste à la fin de l'été. En route vers les services intelligents ? " Attention, conclut Philippe Laval , le logiciel reste bête. Il interprète la question mais ne comprend pas : si la réponse ne figure pas dans la base, il n'inventera rien. " Il est des vérités toujours bonnes à rappeler.

Le Monde (article résumé par @RTFlash) :

http://www.lemonde.fr/article/0,2320,seq-2081-51079-MIA,00.html

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

    Recommander cet article :

    back-to-top