Eléments de compréhension sur la recherche d'information

Eléments de compréhension sur la recherche d'information

Google: le moteur qui déforme le monde

Google est devenu le passage obligé de tout internaute. Nouveau filtre de la Toile, le moteur de recherche ultrarapide est l’outil le plus utilisé du web, et le plus craint de ceux qui ont quelque chose à cacher.

Une information à vérifier ? Un artiste à retrouver ? Un musée à chercher ? La solution la plus simple sur Internet… Google, bien sûr. “Google a facilité la vie de millions d’internautes de manière appréciable grâce à sa rapidité, aux millions de données qu’il brasse et à sa précision. Il est devenu en moins de temps qu’il n’en faut pour le penser l’outil le plus utile, le plus évident pour naviguer sur Internet”, commente “The Boston Globe Magazine”.

Incontournable et inégalé, le moteur de recherche américain indexe trois milliards de pages, 400 millions d’images et 800 millions de commentaires de groupes de discussion. Chaque jour, le moteur recueille 150 millions de requêtes et oriente vers des milliers de sites non commerciaux. L’algorithme imaginé en 1995 par Sergey Brin et Larry Page qui a permis de créer Google du terme “googol”, ou 1 suivi de 100 zéros en 1998 est un grand pas pour l’internaute. Enfin pas pour tous…

Aux Etats-Unis, Google est devenu une véritable épée de Damoclès pour certaines personnes. Le “Globe” relate en effet l’histoire de “Michael, 34 ans, bien sous tout rapport. Le trentenaire travaille dans un hôpital de Boston. A première vue, personne ne peut soupçonner que dans sa jeunesse il se droguait et que, pour se payer ses doses, il a cambriolé des maisons… En entrant son nom sur Google, le moteur de recherche met moins d’une seconde pour lister plus d’une centaine de sites en relation avec Michael et, plus particulièrement, avec son passé trouble”, explique le “Globe”.

Briseur de couple

“Le trentenaire n’a pas vu venir la menace. Michael s’est rendu compte qu’il avait été "googlé" lors d’un rendez-vous galant quand la jeune femme lui a soudain demandé : ‘Pourquoi tu ne m’avais pas dit que tu avais fait de la prison ?’” Pis, alors qu’il recherchait un colocataire, toujours à Boston, il s’est rendu compte qu’après une ou deux conversations avec ses potentiels colocataires il se heurtait toujours à un mur. Une fois encore, il avait été “googlé”.

Le “Globe” évoque de même l’histoire d’un amour contrarié. Au bout de quelques semaines d’une idylle avec un beau brun, Amanda a reçu un mail du bel hidalgo lui demandant des comptes pour un texte érotique qu’elle avait publié quelques années plus tôt sur la Toile. Selon le “Globe”, un nombre incalculable de couples se sont défaits après une requête sur le moteur de recherche. Et “Google” est devenu aux Etats-Unis le meilleur moyen d’espionner l’autre. Il permet de connaître “les dessous plus ou moins sordides du divorce du voisin de palier, car les attendus du jugement ont été postés sur le Net…”

En fait, reprend le “Globe”, “Google s’est calmement immiscé dans nos vies, modifiant indubitablement nos attentes par rapport à ce que l’on peut et veut savoir de l’autre. Ce moteur de recherche ne nous permet pas de savoir quel degré d’information nous méritons de connaître.” Au contraire, Google va à la pêche de tout, à nous ensuite de la digérer.

Les lunettes du web

Et, justement, le moteur peut très facilement être détourné. Revenons à Amanda. Econduite, elle a décidé de se venger de son amant en usant de Google. Elle a monté un faux site parlant de l’incapacité de celui-ci à travailler, de ses maladies vénériennes et de ses manières de loosers et l’a indexé chez Google. S’il est “googlé”, son prochain rendez-vous risque de se défiler au dernier moment.

De fait, cette technologie pose aujourd’hui deux problèmes évidents. Premièrement, la protection des données privées est en cause, car, une fois sur le web, une information recensée par un moteur de recherche ne peut être supprimée que par le webmestre qui l’a postée. Comme le souligne le “Globe”, “aujourd’hui, il est plus difficile d’être anonyme que recensé sur le web”.

Deuxièmement, Google pose la question du filtre. Le moteur de recherche oriente notre façon de voir la Toile et par conséquent le monde. Selon le “Globe”, “Google s’est construit une telle réputation par rapport à la justesse de ses réponses que nous supposons que les sites indiqués après une requête doivent être ceux que nous cherchions, même si le contexte n’est pas pris en compte par le moteur de recherche”. Pis, constate le magazine américain, “si Google ne recense pas certains sites, nous supposons tout simplement qu’ils n’existent pas”…

Source: Courrier International (26/02/2003)

Google : les raisons du succès

Les utilisateurs de Google sont des adeptes de la francophonie qui plébiscitent la simplicité d’utilisation de ce moteur ainsi que l’efficacité des recherches.

Après une année 2001-2002 qui a vu la montée fulgurante de Google dans le paysage Internet Français (PIF), prenant une large avance en tête des outils de recherche avec plus de la moitié du trafic généré sur les sites web, le Panorama eStat/@position se penche sur les raisons réelles de son succès, et détaille ses utilisations.

Ainsi, Les utilisateurs de Google surfant sur les sites français sont avant tout des adeptes de la francophonie : la version française Google.fr se distingue de plus en plus et atteint 48% du total des recherches de Google. 77,4% des utilisateurs ont paramétré l’interface du site en langue française. 22% ne veulent que des sites francophones dans leurs pages de résultats et 11% souhaitent se limiter aux sites français.

Par ailleurs, même si Google est utilisé de manière basique (82,1% des recherches sont des recherches simples composées uniquement de mots clés), les résultats obtenus semblent satisfaire les utilisateurs puisque 76% d’entre eux trouvent une réponse qui leur convient dès la première page de résultats.

Les recherches s’avèrent être également précises : 51% des requêtes contiennent trois mots clés ou plus.

La simplicité d’utilisation plébiscitée par les utilisateurs est également mise en évidence par le faible taux d’utilisation des fonctionnalités avancées (1,08% des recherches). Quant à la Googlebar, elle ne génère que 3% des recherches totales.

Des thématiques de recherche ont pu être mises en évidence en fonction des horaires d’utilisation. La majorité des recherches se font après 17h. Les recherches liées aux jeux et à la musique se font plutôt en début soirée pour laisser place aux recherches liées au charme après 22h. A l’inverse, les recherches liées à l’emploi se font avant 17h avec un pic de requêtes entre 10h et 12h.

Selon le deux sociétés eStat et @position, « Le succès de Google s’expliquerait donc par sa simplicité d’utilisation, son adaptation aux spécificités d’un pays (options de langue directement accessibles) ainsi que par sa technologie de recherches optimisée et efficace. »

Source: Net Economie (09/07/2002)

La bataille des moteurs de recherche sur le web est relancée

Avec l'arrivée le 2 avril sur Internet de Teoma, le dernier né des moteurs de recherche, la bataille mondiale sur ce créneau pourtant déjà encombré et pas toujours rentable est relancée. Le célèbre moteur Google, imaginé en 1997 par deux étudiants de Stanford, est clairement visé. Les dirigeants de Google répondent aux questions de lexpansion.com.

Teoma : un nouveau moteur de recherche veut concurrencer Google

Le Web s’enrichit d’un nouveau moteur de recherche, Teoma, lancé officiellement le 2 avril dernier par le fournisseur de contenus Ask Jeeves. Face à une concurrence très vive qui va de Yahoo ! à Alta Vista sans oublier Microsoft MSN et Google, Téoma, qui signifie « expert » en gaélique, revendique d’être un moteur plus pertinent que ses concurrents. Un créneau sur lequel Google, fondé par deux étudiants de Stanford il y a maintenant 5 ans (en 1997), régnait jusqu’ici en maître.

Non content d’en reprendre le slogan, Teoma s’inspire également de la sobriété de présentation de son aîné. La principale différence tient à la technologie de recherche utilisée, l’hyper-recherche. Mise au point à la fin des années 90 dans les laboratoires de l’université de Rutgers, dans le New Jersey, cette technique consiste à examiner la façon dont les pages Web sont reliées entre elles, pour en déduire une classification par pertinence des résultats de recherche, et suggérer des « communautés sémantiques » à partir desquelles l’internaute pourra approfondir sa recherche. Ces communautés sont définies en analysant les pages de liens de références, où une page Web renvoie vers d’autres dont l’auteur aura estimé le contenu pertinent dans le contexte abordé. « C’est un peu comme si le mot clé recherché se transformait dynamiquement en répertoire thématique de sites Web », explique Chris Sherman, analyste de Search Engine Watch.

Un positionnement qui ne ferait pas de Teoma un concurrent direct de Google, plus axé sur la rapidité de recherche et doté d’un système d’évaluation de la pertinence statique. Selon Ask Jeeves, promoteur du nouveau moteur, ce n’est d’ailleurs pas réellement l’objectif visé : là où Google indexe aujourd’hui quelques trois milliards de pages Web, Teoma se limiterait à un demi milliard, privilégiant la pertinence thématique sur l’exhaustivité.

L'objectif de Google c'est d'améliorer son moteur de recherche, pas de faire un portail

Serguey Brin est l'un des co-fondateurs de Google. C'est dans le laboratoire d'informatique de l'université de Stanford qu'il avait commencé en 1997 avec un autre étudiant le développement du célèbre moteur de recherche. Eric Schmidt est le président de Google. Ancien Pdg de Novell, il a été appelé à diriger Google par les deux fondateurs en août dernier.

Comptez-vous faire évoluer votre moteur de recherche pour réagir à la concurrence ?

Serguey Brin : Pour l’essentiel, nous cherchons à améliorer la rapidité et la précision de notre moteur de recherche. Par exemple en ajoutant des fonctions d’analyse qui déterminent le taux de popularité des pages web. Plus le nombre de documents indexés augmente, plus nous devons optimiser l’architecture. Cela passe aussi par l’utilisation de mémoire vive à la place des disques durs, beaucoup trop lents. Nous réfléchissons également à la façon dont on pourrait indexer les nouveaux médias, comme la voix et la vidéo, dans le cadre d’un projet commun avec BMW.

Le grand problème des moteurs de recherche c’est la rentabilité. Comment vous y prenez-vous ?

Eric Schmidt : Nous avons aujourd’hui trois sources de revenus. Je dirais que la publicité sous toutes ses formes compte pour moitié, et que les droits d’usages de la technologie représentent l’autre moitié. Yahoo, par exemple, utilise notre moteur de recherche. Quant à la rentabilité, c’est une question d’équilibre du budget. Jusqu’à présent, nous n’avons pas eu besoin de dépenser beaucoup en publicité et en marketing par exemple. Nous sommes avant tout un prestataire technique. Cela veut dire que l’essentiel de nos efforts se tourne vers l’amélioration de notre technologie et non vers le développement de services de portail qui seraient hors de notre métier.

Avez-vous l’intention de mettre Google en bourse ?

Eric Schmidt : Pourquoi faire ? S’il y a une leçon à retenir de l’histoire récente des moteurs de recherche et des sociétés qui les ont porté, c’est bien celle-ci : Le risque, c’est de se disperser. Compte tenu du rythme de croissance que nous connaissons, nous avons beaucoup à faire pour garantir que les utilisateurs de notre moteur de recherche trouveront toujours ce qu’ils cherchent. Et pour l’instant, tout ce qui nous écarte de cet objectif n’est pas souhaitable.

Déjà trois générations de moteurs de recherche

Pendant des années, les concepteurs de moteurs de recherche sur le Web n’ont eu qu’une idée en tête : mettre au point des algorithmes mathématiques de plus en plus efficaces pour faire face à la montée en puissance du Web. Tous, d’Alta Vista à Inktomi, reposaient en effet sur le même principe : une cartographie aussi complète que possible du Web et l’analyse textuelle des résultats de cette exploration perpétuelle.

Seul problème, le niveau de pertinence de ces moteurs s’est rapidement avéré inversement proportionnel à leur exhaustivité. D’autant plus qu’avec l’apparition de l’usage commercial du Web, de nouveaux acteurs, les agences de positionnement sur le Web, sont venus perturber le fonctionnement naturel du processus de collecte pour augmenter la visibilité de leurs clients. « Lorsque tout le monde élève la voix pour se faire mieux entendre, il arrive un moment où l’on ne distingue plus rien », ironise Chris Sherman, analyste de Search Engine Watch.

La seconde génération de moteurs, basée elle sur le taux de fréquentation des pages Web, n’a pas réellement donné de meilleurs résultats. Là aussi, les données pouvaient être facilement faussées à dessin par les agences de référencement Internet, qui ne s’en sont évidemment pas privé. La partie s’avère plus difficile avec les moteurs de troisième génération, dont le plus connu est Google, ces derniers introduisant la notion de pertinence du contenu. Le moteur de recherche ne se contente plus d’emmagasiner les références de pages mais il commence à prendre en compte les liens de pertinence qu’elles peuvent avoir entre elles.

Avec Téoma, l’internaute assiste sans doutes aux premiers pas d’une quatrième génération de moteurs, qui cessent de classifier les pages Web selon des catégories prédéfinies pour apprendre dynamiquement, à partir des requêtes des internautes, de nouvelles interactions thématiques entre les pages du Web.

Source: L'Expansion (11/04/2002)

Moteurs de recherche : 88 % des internautes trouvent la réponse

Comment se comportent les internautes lorsqu'ils effectuent des recherches sur Internet ? L'étude d'Abondance.com, service professionnel dédié à l'évolution des outils de recherche, et de ToLuna.com, société spécialisée dans l'oganisation de panels en ligne, s'est justement penchée sur cette question. En tout, 650 personnes ont répondu à cette enquête en ligne.

Si la recherche sur Internet est un réflexe quasi naturel sur Internet (la moitié des personnes interrogées indiquent en effectuer "plusieurs fois par semaine"), la première surprise vient du côté du temps de connexion que l'internaute accorde à cette activité en ligne. 39,5 % des panélistes affirment passer entre 30 minutes et une heure par session sur les moteurs de recherche. 32 % indiquent même dépasser l'heure de recherche. Mais ce temps passé est loin d'être un "gâchis" : 88 % des personnes interrogées affirment obtenir les résultats escomptés "de manière systématique ou fréquente"

"Pour moi, la plus grande surprise vient du nombre de pages de résultats consultées au cours d'une recherche", commente Olivier Andrieu, expert en outils de recherche et fondateur d'Abondance.com. L'étude montre ainsi que plus de la moitié des internautes (52,2% ) consultent "au moins quatre pages de résultats" au cours de leurs recherches, 21,2 % se limitant à trois pages.

Cette exploration poussée parmi les pages de résultats ne se retrouve pas quant au nombre d'outils utilisés par ces mêmes internautes. 51,6 % des personnes intérrogées indiquent n'utiliser que deux outils de recherche, 25,6 % ayant recours à un outil de recherche unique. Parmi les outils les plus plébiscités, le moteur de recherche Google et l'annuaire Yahoo ressortent clairement du classement. A la question "Quels outils de recherche utilisez-vous le plus souvent ?", 63,4 % des panélistes citent Yahoo et 57,2 % Google. Arrivent ensuite Voila.fr (45,2 %) et Lycos France (38,8 %).

Conclusion logique de cette "étroitesse" sur le nombre d'outils utilisés : en cas d'échec sur une recherche, 70 % des internautes indiquent persévérer sur le même outil mais en changeant de mot-clé. Ou plutôt de mots-clefs, car l'étude souligne que plus de 50 % des personnes interrogées favorisent les recherches avec deux mots clés. La même proportion déclare ne pas utiliser d'accentuation sur les requêtes. L'appréhension de l'outil semble relever d'une logique d'apprentissage individuelle : rares sont les panélistes indiquant recourir aux pages Web d'aides à la recherche. Quant à la problématique du passage au modèle payant, elle est clairement rejetée : 81,3% des internautes refusent d'être facturés pour obtenir une information plus pertinentes.

Enfin, l'étude comporte un volet consacré aux mots-clés les plus saisis sur les outils de recherche francophones. Sans surprise se retrouve dans le classement final, par ordre d'importance thématique, la catégorie sexe/charme (avec 94 mots-clés identifiés), suivie de loisirs/vie pratique (87), marques traditionnelles (37), informatique/Internet (36) et de tourisme/voyage (31).

Source: Journal du Net (12/04/2002)

Parlez la langue des moteurs de recherche

Le web ressemble à une immense botte de foin et vous cherchez désespérément une aiguille ? Les moteurs de recherche permettent de trouver les informations les plus rares... à condition de parler leur langue. Quelques astuces peuvent faciliter vos recherches.

Des dizaines de moteurs de recherche existent actuellement sur le web et chacun utilise une syntaxe particulière pour formuler les requêtes. Mais les plus populaires -Google, Altavista, Lycos et Alltheweb- fonctionnent selon quelques règles communes.

1) Trouver une page qui contient plusieurs mots à la fois

Si vous mettez des mots en vrac, la plupart des moteurs de recherche trouveront les pages qui contiennent un de ces mots (Sauf Google qui prend en compte tous les mots, même sans syntaxe particulière). Donc une requête cours anglais Paris, risque de donner des pages qui traitent de cours quelconques, de l´Anglais et de Paris, sans forcément établir un rapport entre ces trois thèmes. Pour trouver des pages qui contiennent les trois mots à la fois, il faut utiliser le signe + (précédé d´une espace et collé au mot) avant chaque mot recherché. Exemple : +cours +anglais +Paris

Le moteur interprètera ce signe comme le mot "et". Certains moteurs acceptent aussi son équivalent en anglais. Ex : cours AND anglais AND Paris. Certains moteurs, comme Google, affichent un résultat différent en fonction de l´ordre des mots. Mettez alors en premier le mot que vous considérez le plus important. Certains outils permettent aussi l´utilisation des opérateurs booléens comme OR (ou), AND (et) et NEAR (proche). L´opérateur OR vous permettra ainsi de trouver une page qui contient un mot ou un autre. Une requête sur les cours d´anglais à Paris ou à Londres sera formulée de façon suivante : +cours +anglais +Paris OR Londres.

Pour Google, parfois les + sont indispensables, car le moteur ne prend pas en compte les mots très courants (comme "le", "la", "à", "et", "avec", etc.) pour ne pas ralentir la recherche. Si vous voulez les inclure dans votre recherche, il est conseillé de les précéder d´un signe +. Plus vous ajoutez des mots ciblés à votre recherche, plus vous aurez une réponse précise. Vous risquez de vous perdre dans une masse de résultats avec une requête +formation +informatique, par exemple. Vous aurez plus de chance avec la requête +formation +Java +Paris +"cours du soir".

2) Exclure un mot d'une recherche

Vous cherchez des informations sur le cancer du sein, mais vous ne voulez pas tomber sur des sites X ? Vous pouvez exclure certains mots de votre recherche à l´aide du signe "-" qui signifie "sauf". Exemple : +cancer +sein -sexe. Certains moteurs utilisent d´autres signes pour exclure un mot, comme dans le cas d´Altavista qui préfère "!" et l´opérateur booléen "AND NOT".

3) Trouver une expression exacte

Vous cherchez des infos sur les failles de sécurité d´un logiciel précis. La formulation +sécurité +Microsoft vous donnera des centaines de résultats. Il est alors conseillé de mettre le terme exact entre guillemets. La requête "faille de sécurité de Microsoft Outlook" trouvera des pages qui contiennent exactement cette phrase.

4) Trouver des expressions rapprochées

La plupart des moteurs (à l´exception de Google) permettent de trouver des mots qui commencent par certaines lettres. Le signe * servira alors pour trouver des mots approchants. Par exemple, la requête dévelop* permettra de trouver les pages qui contiennent développement, développeur, développer, développe.

5) Trouver un mot dans un titre, une URL ou un lien

Certaines formulations (essentiellement en anglais) permettent de cibler les requêtes lorsqu´elles précèdent les mots recherchés. Pour trouver les pages dont le titre contient le mot "informatique" par exemple, vous pouvez utiliser la formulation title:informatique.

La requête url:unix vous donnera des sites qui contiennent le mot unix dans leur adresse. link:www.indexel.net trouvera des pages qui mettent un lien vers le site indexel.net. site:www.indexel.net informatique cherchera le mot informatique dans le site indexel.net. Certains moteurs comme Alltheweb permettent même de restreindre la recherche à un nom de domaine ou adresse IP.

6) Chercher des formats de fichiers

Vous avez récemment vu sur Internet une étude sur les ERP, mais vous avez perdu l´adresse du site en question. Vous vous souvenez que le document était au format PDF. Vous pouvez faciliter vos recherches en tapant filetype:pdf ERP dans Google. Le moteur trouvera alors des documents uniquement dans ce format. Les autres moteurs, dont Altavista, ne reconnaissent pas cette formulation, mais permettent de trouver des fichiers d´image, de son ou de la vidéo à l´aide des options de recherche avancée.

7) La langue, les majuscules et les accents

Les moteurs comme Google et Altavista permettent de choisir la langue de recherche. Chercher des documents uniquement en français vous permettra d´avoir une réponse plus rapide. Autre point : les moteurs prennent en compte les accents et les majuscules. Les requêtes présidentielles, presidentielles et Présidentielles ne donneront pas les mêmes résultats.

8) Pour les pages similaires et archivées

La plupart des moteurs offrent la possibilité de cibler la recherche après l´affichage des résultats : vous pouvez alors sélectionner l´un d´entre eux pour demander des réponses similaires. Vous cherchez un site qui n´existe plus ? Essayez la mémoire cache de Google : le moteur enregistre l´état de certains sites à une date définie et les présente même lorsque la page n´existe plus (ou n´est plus accessible car payante ou réservée aux membres). Pour accéder à ces "pages fantômes", il faut cliquer sur le bouton "copie cachée" à côté du résultat.

Source: Indexel (29/03/2002)

88 % des internautes trouvent l’information recherchée

Le site Abondance a réalisé, en partenariat avec la société To Luna, une étude intitulée « la recherche d’information sur le web francophone : état des lieux ».

La première partie de l’étude porte sur l’utilisation des outils de recherche. Selon les résultats de cette étude, 90 % des internautes recherchent de l’information sur le web plusieurs fois par jour ou par semaine. 88 % trouvent « toujours » ou « souvent » l’information recherchée grâce aux outils de recherche. 40 % des recherches durent entre 30 minutes et une heure.

Plus de 50 % des internautes utilisent deux outils de recherche. 70 % des internautes ne trouvant pas « du premier coup » essayent un autre mot clé sur le même outil de recherche, plutôt que de s’orienter vers un nouveau site.

Plus de 50 % des internautes consultent plus de quatre pages de résultats. Les deux outils de recherche les plus utilisés sont Google.fr et Yahoo.fr, devant Voilà et Lycos. Les secteurs d’activités les plus recherchés sont « Actualité et médias », « divertissement » et « informatique et Internet ». 9 % seulement des internautes utilisent assidûment les outils de recherche thématique.

81 % des internautes ne sont pas prêts à payer pour une recherche d’information sur le web. Toutefois, s’ils devaient payer, ils préféreraient un système d’abonnement.

73 % des internautes sont gênés par les offres actuelles de positionnement publicitaire.

La seconde partie de l’étude analyse les mots clés le plus souvent saisis.

Les 554 mots clés analysés, pour 151 551 405 requêtes mensuelles, peuvent se classifier dans 26 thématiques différentes. Premier domaine d’intérêt : le thème « sexe et charme ». En effet, près de 15 % des mots clés demandés ont trait à ce thème.

15 mots clés sont demandés plus d’un million de fois par mois sur le web francophone. Plus de 480 mots clés ou expressions sont demandés plus de 100 000 fois par mois.

Les loisirs et ce qui touche à la vie pratique (météo, horaires de train …) sont le deuxième centre d’intérêt principal des internautes. Hormis ces deux domaines principaux, neuf rubriques se répartissent chacune entre 3 et 7 % du nombre de requêtes total.

Source: Atelier BNP Paribas (25/03/2002)

Bientôt les moteurs de recherche intelligents

Demain, les systèmes de recherche sur le Net pourraient bien devenir intelligents. D’ores et déjà, les laboratoires explorent cette voie.

Pour trouver parfois le bon renseignement sur le Web et au bon moment, l’internaute dispose –outre les moteurs traditionnels et les annuaires– des métamoteurs qui proposent de lancer simultanément une requête sur plusieurs outils de recherche et éliminent les doublons. L’enjeu technique des moteurs est double: faire face au volume d’informations sur le Web qui est exponentiel, et arriver à avoir une certaine pertinence dans le milliard de documents indexés. Car, aucun outil de recherche, pour le moment, n’est capable d’exploiter efficacement l’information issue du Web et de l’analyser.

Spécialistes et chercheurs à travers le monde travaillent à supprimer les défauts habituels des moteurs actuels, qui sont essentiellement des problèmes de «bruit» et de «silence» comme le souligne Jérôme Vinesse, responsable d’une unité recherche et développement (R&D) sur le traitement des langues naturelles au centre de recherche de France Télécom de Lannion. «En recherche d’information, le bruit c’est le rapport du nombre de documents non pertinents sur le nombre de documents trouvés. Les problèmes d’ambiguïté des termes entraînent du bruit. Par exemple, le mot livre peut avoir plusieurs significations: un livre (ouvrage), une livre (poids ou monnaie), une forme du verbe livrer. Résultat, la saisie du mot livre dans un moteur va apporter du bruit,» explique-t-il. Avant d’ajouter : «Autre problème: une même idée peut être exprimée par des mots différents. C’est l’exemple des mots voiture, automobile, bagnole. L’utilisateur recherche plutôt autour d’une idée que sur des mots. Ce second phénomène, lui, entraîne des problèmes de silence.»

Entre «bruit» et «silence»

Pour résoudre ces problèmes, certains projets universitaires et commerciaux décrivent l’arrivée imminente de technologies intelligentes, dont les méthodes ne consistent plus seulement à traiter données et informations, mais à mettre en œuvre savoirs et connaissances. C’est le cas d’un prototype en cours d’industrialisation mis au point par le centre de recherche de France Télécom de Lannion. L’équipe de Jérôme Vinesse travaille sur une technologie de ce type: un système de questions-réponses qui fonctionne comme un intermédiaire entre l’utilisateur et le moteur. Ce service va très loin, puisqu’il permet de travailler sur un domaine aussi vaste que le Web et de poser des questions en langage naturel. «Concrètement, l’utilisateur pose une question en langage naturel au système qui est capable d’extraire les bonnes réponses du Web et de les lui fournir. Par exemple: quelle est la hauteur de la tour Eiffel ? explique-t-il. L’usage du traitement du langage naturel permet d’automatiser la reformulation de la question et la recherche dans une grande quantité de documents. Un gros travail de dépouillement est ainsi évité à l’utilisateur.»

Ce prototype est une technologie parmi d’autres, un sous-domaine de l’intelligence artificielle qui fait appel à des compétences informatiques et à des compétences linguistiques non négligeables. Ces technologies ne s’adressent pas seulement à l’internaute grand public. Elles sont tournées vers le monde des entreprises. Pour preuve, le centre de recherche de France Télécom de Lannion vient de mettre au point une technologie permettant d’avoir une interaction intelligente en langage naturel entre un homme et une machine (interrogation orale par téléphone ou écrite par clavier) avec tout un panel de services interactifs variés: information, transaction, assistance, annuaires, etc. A titre d’exemple, la Société Générale a mis en place une expérimentation en grandeur réelle d’un nouveau service de transactions boursières basé sur cette technologie. Les clients peuvent désormais appeler à tout moment un serveur pour passer en direct des ordres d’achats et de vente complexes, suivre l’état de leurs transactions ou modifier leur carnet d’ordre. Cette technologie pourra servir à d’autres applications comme l’organisation d’un voyage.

Source: RFI (21/03/2002)

Internet s'installe comme source d'information

Internet serait-il en train de gagner des galons en tant que source d'information ? Le sondage réalisé par Taylor Nelson Sofres (du 6 et 17 septembre derniers auprès de 1.000 internautes français) semble en tout cas confirmer que la Toile est consommée de façon courante comme un média d'information. 53% des internautes estiment ainsi que le Net est source d'information "importante" (44%) voire d'"excellence" (9%). Conséquence logique de cet engouement : 38% des internautes interrogés indiquent se connecter tous les jours au Web pour se tenir informer et 37% le font entre 1 et 3 fois par semaine.

Alors que la richesse et la complexité de l'Internet sont souvent décriées comme des frein à l'accès, les internautes estiment trouver aisément l'information en ligne. Pour 69%, la recherche d'information sur la Toile est ainsi "assez facile" et pour 14% "très facile". Cette accessibilité fait dire à 37% des internautes que le Web sera d'ici trois ans leur principale source d'information sur l'actualité. Cette montée en puissance devrait se faire aux dépens du "papier", 33% des internautes indiquant consulter plus souvent le Net que la presse pour s'informer. La radio et la télévision affichent de leur côté des scores respectifs de 26 et 19%.

Le sondage s'est également penché sur le passage au modèle payant appliqué à l'information. Les résultats font apparaître une très nette distinction entre l'utilisation privée et l'utilisation professionnelle. A titre privé, 88% des internautes indiquent qu'ils ne s'abonneront "probablement pas" ou "sûrement pas" à des services d'information en ligne, 12% y étant favorables. A titre professionnel, ce sont en revanche 42% des internautes interrogés qui estiment qu'ils s'abonneront "probablement" ou "sûrement" à des services d'information.

Source: Journel du Net (05/11/2001)

Les nouvelles tendances de la recherche d'information

Le monde des outils de recherche semble souvent assez statique. Effectivement, ces dernières années, seul Google a réellement bouleversé les habitudes des internautes dans ce domaine. Mais quelques nouveaux arrivants pourraient changer la donne dans les mois qui viennent. Une petite revue d'effectif s'imposait.

De nouveaux projets, notamment outre-Atlantique (mais aussi en France, nous y reviendrons dans un prochain article), semblent se mettre en place de façon plus intensive depuis quelques mois pour tout ce qui touche aux outils de recherche sur le Web. Google a certainement montré, depuis sa création, qu'un nouvel outil innovant avait réellement sa place sur ce marché et pouvait bousculer les habitudes des internautes. Voici un florilège de ces sites innovants qui sont parus sur le Web depuis le début de l'année. Certes, certains disparaîtront peut-être d'ici quelques mois, mais d'autres prendront leur essor dans le même intervalle. En tout cas, tous auront eu l'immense avantage d'avoir fait avancer la machine et évoluer les usages. Pas si négligeable...

Wisenut

Ce nouveau moteur, mis en place depuis quelques mois par Yeogirl Yun, qui avait déjà "commis" le comparateur de prix MySimon, utilise plusieurs techniques pour juger de la pertinence d'un document : l'analyse du texte de la page, du texte des liens qui pointent vers cette page ainsi que des termes qui entourent ces liens, mais également du contenu des pages pointant vers le document analysé. Ouf, rien que ça ! Pas si éloigné que cela de l'algorithme de Google, cependant... Wisenut annonce un index de 800 millions de pages, ce qui le placerait parmi le trio de tête des plus grosses bases de données actuelles du Web. Enfin, dans ses pages de résultats, il tente une catégorisation des liens proposés assez proches des "Custom Search Folders" de l'excellent Northern Light (voir notre précédent article sur ce moteur). Bref, de l'innovation un peu partout et des résultats intéressants. Un outil à suivre de très près.

Teoma

Teoma, lancé par la société Hawk Holdings, a été développé dans le cadre d'un projet de l'université Rutgers dans le New Jersey. Il prend, comme Google, l'indice de popularité (le nombre de liens sur le Web pointant vers une page) comme critère prédominant, mais de façon légèrement différente. Il utilise tout d'abord cet indice de popularité, donc la façon dont les pages sont liées entre elles, pour identifier des "communautés" sur le Web. Puis, à l'intérieur de ces communautés, il tente d'établir les pages qui sont les plus pertinentes par rapport à la requête demandée. Il s'agit donc du concept de Google, mais adapté à des "univers" précis et spécialisés sur certains domaines uniquement. Teoma, comme Northern Light, propose de reclasser les liens proposés dans des dossiers thématiques (en haut de page de résultats), décidemment très en vogue en ce moment ! Enfin, il propose des catégories d'annuaires ou des pages riches en liens (nommés "Expert Links" à droite) sur le thème demandé. L'index de Teoma ne comprend cependant que 100 millions de pages, ce qui est un peu faible aujourd'hui pour espérer jouer les "gros bras" dans ce domaine... Mais il ne s'agit là que d'une version Beta qui devrait "grossir" dans les mois qui viennent !

iLor

Ilor, pour sa part, utilise les résultats de Google, mais tente de les améliorer à grands coups de fonctionnalités intéressantes et intelligentes. La page d'accueil permet, par exemple, de choisir très simplement une recherche uniquement sur le titre des pages. En effet, si une page parle de façon complète d'un thème précis, il y a fort à parier que son titre contient le mot demandé. On passera cependant, dans ce cas, à côté de pages pertinentes dont le titre aurait été mal pensé, voire tout simplement inexistant. D'autre part, iLor propose, dans ses pages de résultats, un lien qui permet, pour chaque document affiché, d'obtenir toutes les pages qui pointent vers lui. Intéressant pour obtenir des documents traitant d'un domaine similaire ou connexe. D'autre part, lorsqu'on passe sa souris sur un des liens proposés comme résultat, un menu contextuel (appelé "LORLinks Menu") appara"t et propose des choix supplémentaires : archivage dans une liste de favoris, sauvegarde des paramètres de la recherche, etc. Bien entendu, le moteur propose également toutes les fonctionnalités de Google, comme la fonction "Cache" (qui permet d'afficher un document disparu du Web tel qu'il existait lors de son indexation par le moteur), des liens vers des pages similaires, etc. Enfin, côté gadget, le site est personnalisable selon plusieurs "skins" différents, pour tous les goûts et toutes les couleurs.

Tous ces outils sont réellement innovants et font bouger le landerneau des annuaires et moteurs de recherche "classiques". C'est également là un de leurs avantages majeurs, car de ce "brain-storming" incessant ressortiront certainement les grandes idées des outils de demain. (...)

Source: Journal du Net (07/09/2001)

Questions-réponses: les moteurs de recherche

Quel est le périmètre couvert par les solutions de recherche ?

Historiquement, les moteurs de recherche sont d'abord utilisés pour effectuer des recherches sur les fichiers texte stockés dans les répertoires d'un simple système d'exploitation. Au fil de l'avancement des technologies, ce type d'application s'est ensuite étendu à d'autres formats de fichiers (images, vidéos, etc.), ainsi qu'aux bases de données. Le second terrain de prédilection des moteurs arrive avec l'avènement d'Internet, qui voit apparaître des outils capables d'indexer des pages HTML stockées sur des serveurs Web distants.

Aujourd'hui, les grandes solutions de recherche englobent de plus en plus ses deux aspects. Elles proposent à la fois des modules capables de prendre en compte système local ou des serveurs d'applications sur un serveur interne et des serveurs Web accessibles via Internet.

Quelles sont les principales applications de ces solutions ?

Sur Internet, vous les connaissez. Il s'agit des moteurs de recherche, tels que Google, HotBot, etc. Ceux-ci étant généralement utilisés par de grands portails ou annuaires de recherche (Yahoo, Lycos et Altavista, etc.). A côté de ce foisonnement d'applications propres au Net, les solutions de recherche sont également en passe de se généraliser dans le monde de l'entreprise. Depuis l'assistance technique dans le domaine du CRM, en passant par les traitements spécifiques à un intranet de gestion documentaire, jusqu'aux services de veille stratégique couvrant réseau interne et sites Web, les outils de recherche sont omniprésents à tous les étages.

Quelle différence entre le mode de recherche dit "plein texte" et la recherche en langage naturel ?

Alors qu'une recherche plein texte tente simplement d'identifier les documents comprenant le plus grand nombre de mots inclus dans la requête de l'utilisateur, la technique du langage naturel traite les demandes formulées autour de structures syntaxiques complexes - telles que des expressions ou des phrases. S'appuyant sur un ou plusieurs dictionnaires et thésaurus, ce genre de méthodes prend également en compte les termes connexes et les synonymes. Ce qui permet au final à l'utilisateur d'effectuer une recherche sous la forme d'une simple question.

Dictionnaire et thésaurus ? Quelle différence ?

Un thésaurus correspond ni plus ni moins à un dictionnaire des synonymes. Les moteurs utilisent ce type d'appui si aucun terme demandé ne figure dans l'index.

A quoi correspondent requêtes booléennes ?

S'appuyant sur le modèle élaboré par le mathématicien anglais Georges Bool, une requête 'booléenne' permet d'inclure à une demande certaines conditions (sous forme d'opérateurs). Ainsi, une solution supportant cette technique peut accueillir la question suivante : "prestataires de service" and "informatique d'entreprise". Le moteur recherche alors l'ensemble des documents incluant les deux groupes de mots. Beaucoup d'autres opérateurs existent, parmi lesquels "or", "near" et "not".

Quelles techniques utilisent les moteurs de recherche ?

Les moteurs en langage naturel reposent sur des algorithmes de recherche mesurant la co-occurrence de mots (ou de sens) entre requêtes et documents. Un procédé le plus souvent enrichi par des analyseurs grammaticaux et syntaxiques, des dictionnaires généraux ou spécialisés, et des réseaux sémantiques. Une deuxième génération de moteur utilise quant à elle l'analyse multi-dimensionnelle : une technique qui s'inspire de celle des cubes OLAP (OnLine Analytical Processing) - utilisée notamment par les entrepôts de données au sein des systèmes décisionnels. Ce type d'outil permet d'effectuer des recherches croisées sur une base de données. Analyse vectorielle, théories de l'information de Shannon, inférence Baysienne, etc. Dans ce domaine, les éditeurs n'hésitent pas à faire appel aux grands théorèmes mathématiques.

Ces technologies sont-elles mûres ?

Dans le domaine de la recherche en langage naturel, les technologies commencent à faire leurs preuves. Mais, on s'est très vite rendu compte que leur fonctionnement demandait souvent un suivi quotidien des thésaurus et des dictionnaires associés. Sans compter un paramétrage important en amont des projets. Au final, les procédés les plus performants, et offrant un rapport/qualité prix optimal, semblent être ceux qui rendent à l'utilisateur une partie de la maîtrise de sa recherche. Sans imposer une technique trop complexe (requêtes booléennes, etc.), ils contribuent à affiner une demande en affichant certaines informations - le nombre de réponses disponibles ou encore l'ensemble des expressions indexées proches de celles proposées.

Existe-t-il des applications métier dans ce domaine ?

Les éditeurs se concentrent beaucoup plus sur des politiques généralistes que sur les applications métier. Mais, comme cela été dit dans la synthèse de notre dossier, certaines solutions un peu plus spécialisées commencent à apparaître, notamment dans les domaines de la veille et de la gestion des ressources humaines.

Source: Journal du Net (11/07/2001)

Agents intelligents : qui sont-ils ?

Carlo Revelli a fondé AgentLand, portail international sur les agents intelligents , et tient les rênes de Cybion, entreprise spécialisée dans la veille et la recherche d'informations sur Internet.

Contrairement aux idées reçues, les agents intelligents ne constituent pas une innovation récente. En effet, il s'agit d'un phénomène ancien qui revient à la mode à intervalles réguliers. L'ancêtre de tous les agents se nomme Eliza et son origine remonte aux années 1960, bien avant l'explosion d'Internet. Mais aujourdh'ui que recouvre précisément l'expression " agent intelligent " ?

Cette question apparemment anodine suscite de nombreuses polémiques sur et en dehors d'Internet. En simplifiant au maximum, nous trouvons d'un côté ceux qui considèrent les agents intelligents presque comme des êtres humains et de l'autre ceux qui les assimilent à de simples logiciels. De nombreux chercheurs considèrent un agent comme une "entité autorisée à agir au nom de quelqu'un d'autre". Une telle définition met sur le même plan un agent intelligent, un agent de police, un agent de sécurité ou un agent commercial… En conséquence, la distinction entre agent intelligent et simple logiciel demeure très floue. Malgré ses limites, cette vision constitue un bon point de départ pour une définition qui soit suffisamment réaliste sans être trop réductrice. On peut ainsi affirmer qu'un agent intelligent est une entité logicielle qui possède des attributs propres et qui agit dans le but d'accomplir un certain nombre de tâches au nom d'une autre entité (un autre agent ou une personne).

Le problème est maintenant de définir quels sont les attributs propres à un agent. Plusieurs auteurs ont essayé d'identifier les principaux attributs censés caractériser tout agent intelligent : autonomie, capacité de collaboration, capacité d'apprentissage, flexibilité, mobilité, etc. Faut-il qu'un agent intelligent possède tout ou partie de ces attributs? Le débat est interminable. Une chose est certaine : sur Internet aujourd'hui, aucun agent dit "intelligent" ne possède malheureusement l'ensemble de ces attributs.

Les différentes familles d'agents

Dans ces chroniques, nous allons nous intéresser aux différentes applications ou logiciels " intelligents " qui optimisent l'accès à l'information disponible sur Internet. Pour cette raison, au lieu de parler d'agents intelligents au sens large, il est préférable de parler d'agents électroniques (software agents) ou plutôt de faire référence aux tâches que ces assistants sont censés accomplir: nous nous occuperons ainsi des agents pour la recherche d'informations, des agents pour la veille, des agents pour le shopping et la comparaison des prix, des agents assistants, des agents conversationnels, etc. Chaque mois, plusieurs nouveaux agents sont introduits sur Internet. Au moment où vous lirez ces lignes, de nouveaux agents auront vu le jour. Pour cette raison, nous avons créé un laboratoire de test sur Agentland dans lequel vous pourrez découvrir les dernières nouveautés et les tester directement en les téléchargeant. En effet, un agent fonctionne exactement comme un logiciel. Normalement, il faut identifier le site du revendeur sur Internet, télécharger l'agent, l'installer sur votre ordinateur et apprendre à l'utiliser.

Dans notre laboratoire, nous avons essayé de simplifier toutes ces démarches. À partir d'une adresse unique, les meilleurs agents disponibles sur le marché sont étudiés, téléchargés et testés afin de bien mesurer leurs caractéristiques (facilité d'utilisation, procédure d'installation, fonctionnalités, points forts, points faibles…) Par exemple, nous venons de comparer les dernières versions de Copernic et BullsEye, deux agents spécialisés dans la recherche d'informations bien connus par les cyberdocumentalistes. Le principe de base de ces logiciels est très simple : interroger plusieurs centaines d'outils de recherche (annuaires, moteurs et bases de données) en éliminant les doublons et les liens morts. Ils s'apparentent donc à des simples meta-moteurs comme Metacrawler.com ou Profusion.com mais à la différence de ces outils en ligne, ces logiciels interrogent beaucoup plus de moteurs de recherche, rapatrient les résultats sur vos ordinateurs et offrent des fonctionnalités parfois très utiles. Par exemple, BullsEye Pro est accompagné d'un module de "tracking" grâce auquel il est possible de surveiller des pages Web en étant alerté par mail de chaque nouveau changement. Copernic 2001 de son côté permet de résumer quasi instantanément tout document retrouvé (à condition d'intégrer le module " Summarizer "). Les deux logiciels mettent en évidence les mots-clés choisis et facilitent aussi l'insertion de commentaires ou annotations.

Au delà de la recherche d'informations, les agents intelligents sont très présents dans d'innombrables autres domaines. Avec la banalisation d'Internet, l'ordinateur et le browser ne seront plus l'unique moyen pour obtenir des informations issues du Net. En effet, de plus en plus d'applications quotidiennes (TV, téléphone, voiture, vêtements, palm, frigo, maison, etc.) deviennent "intelligentes" grâce à l'intégration de logiciels sophistiqués qui rendent possible l'accès à des informations pertinentes issues d'Internet.

Source: Journal du Net (18/05/2001)

Decouvrez la partie immergee de l'e-ceberg

Internet est une mine d'informations précieuses pour les entreprises et les organismes, qui l'associent à d'autres sources, telles les bases de données payantes. Pour séparer le bon grain de l'ivraie, pour mettre le Net au service de votre entreprise, sachez utiliser les méthodes et les outils des spécialistes de la veille.

Telle chaîne de té-lévision surveille son image de marque en ligne, tel fabricant de produits de luxe se renseigne sur les failles de la concurrence, telle entreprise cherche à réduire le prixd'achat d'un produit afin de diminuer ses coûts d'approvisionnement. Ces quelques exemples de missions confiées par les entreprises aux cabinets de veille reflètent l'intérêt qu'il faut porter au Net comme source d'information, à des fins d'optimisation professionnelle.

Malheureusement, trouver la bonne information au bon moment sur Internet s'apparente souvent à la recherche d'une aiguille dans une botte de foin. Un constat qui est d'autant plus frustrant que l'on présume l'existence de l'objet de la recherche sans jamais parvenir à mettre la main dessus. C'est pourquoi de nombreux secteurs d'activité ont recours à des actions de veille sur Internet.

Ainsi, la recherche d'image analyse et trie les échanges contenus dans les forums de discussions, voire dans les canaux de discussion en direct (chat). La veille concurrentielle utilise également les forums et les sites Web, qui contiennent quantité de données de valeur, comme les pages d'experts, les articles scienti fiques en cours d'évaluation ou les informations alternatives.

De plus en plus de sociétés pro posent en ligne leurs services de veille, depuis la recherche d'informations jusqu'à des prestations complexes telles que la constitution de contenus à destination des portails d' entreprises via Intranet. Ces missions, qui peuvent s'étaler sur quelques jours comme sur plusieurs mois, sont effectuées en sous-traitance ou en interne par une cellule de veille intégrée à l'entreprise.

Une entreprise sur trois veille sur le Net

La confidentialité des informations qui sont confiées à ces sociétés explique qu'une relation de confiance soit indispensable. " Nous sommes les yeux et les oreilles de nos clients ", résume de façon claire et explicite Yves Michel Marti, fondateur d' Egideria, une société spécialisée dans l'Intelligence Economique et concurrentielle.

Serions-nous encore une fois en retard sur nos voisins (et concurrents) anglo-saxons, pour qui la troisième guerre mondiale, la guerre économique, est déclarée depuis bien longtemps ? À l'heure actuelle, l'activité de veille n'est encore prise en compte que par une entreprise française sur trois.

Les résultats sont parfois spectaculaires en termes de réduction de coûts. " Un de nos clients, fabricant de matériel électronique, nous avait demandé de lui trouver des composants à moins de 200 dollars pièce. Nous avons réussi à dénicher la piste d'un fournisseur européen grâce Internet, ce qui a représenté plusieurs millions de francs d'économies pour l'entreprise ", témoigne Tanguy Moal, fondateur de Sénèque, société de services en veille technologique et stratégique. Un autre exemple de prestation, cité par Cybion : un leader de la distribution perdait des parts de marché à cause d'un concurrent américain qui vendait à des clients français sur Internet. Malgré les nombreuses recherches de ses collaborateurs, personne ne parvenait à avoir une vision synthétique du problème. Grâce à des travaux de prospective réalisés en interne et à une synthèse des informations diffusées par les spécialistes américains et européens, Cybion a pu remettre à son client un rapport détaillé sur l'offre commerciale, la stratégie, les techniques de vente utilisées par les principaux concurrents directs et les nouveaux intermédiaires commerciaux d'Internet.

L'État, qui n'est pas en reste, est à l'origine de l'Adit (Agence pour la diffusion de l'information technologique). Cet organisme public, créé en 1994, emploie 60 salariés et repose sur un important réseau de 10 000 experts à l'échelle mondiale, chargé de collecter, trier et présenter l'information technologique pour les entre-prises françaises. Il s'agit, par exemple, de faire le point sur l'avancement des projets du principal opérateur japonais de télécommunications. L'Adit utilise un atelier de traitement intelligent de l'information qui met en oeuvre les techniques évoluées de recherche sur Internet et sur les banques de données infor-matiques mondiales.

Veilleur de Net, un vrai métier

" La profession de veilleur stratégique ou technologique se situe entre le métier de documentaliste et le monde du renseignement décrit Yves-Michel Marti. Nous ne sommes pas des dé-tectives ou des espions qui tra-quent l'information à la lisièrede la légalité. Nous utilisons les sources publiques comme Internet mais aussi les rapports et les journaux internes, sans oublier les données non formalisées de collaborateurs ou d'experts".

Alors que des spécialistes comme Egidéria ou Sénèque utilisent Internet en complément d'autres sources informationnelles, des start-up comme Cybion (société créée il y a maintenant cinq ans par Carlo Revelli et Joël de Rosnay, et qui a été la première société en France à traiter de l'intelligence économique sur Internet), Cybervigie ou Mediaveille utilisent quant à elles exclusivement le Web pour effectuer des prestations de veille.

Autre avantage d'Internet, auquel on ne pense pas toujours: il permet aux prestataires de veille sur la Toile de travailler en dehors de la région parisienne. C'est notamment le cas de la société Cybervigie, installé en Rhône-Alpes, ou de Médiaveille et de Senèque, présents à Rennes. La proximité géographique ne joue que pour les contacts avec les clients, indispensables en vue de la définition de la mission.

Les pièges de la recherche

L'intérêt d'Internet comme source d'information n'est plus à démontrer, sous réserve ce-pendant de mettre en oeuvre une méthode éprouvée par l'expérience pour analyser et trier la masse de données recueillies.

Un des aspects les plus importants du Réseau des réseaux est qu'il noue des liens entre les spécialistes ou passionnés d'un thème donné à l'échelle internationale. Si vous ne trouvez pas directement la réponse à une question sur Internet, vous pourrez encore la poser sur un forum ou sur un chat. Le Web consti-tue donc sans doute le moyen le plus puissant, si l'on souhaite obtenir des réponses interactives et détaillées sur un domaine précis.

Mais la recherche en ligne est loin d'être exempte de pièges et de difficultés : il arrive que certaines informations soient périmées, inexistantes, voire fausses. D'autres n'ont peut-être été diffusées en ligne que dans le but de vous induire en erreur. Quelle que soit la source, il convient donc toujours de la recouper autant que faire se peut. Autre inconvénient : le mode de navigation en hypertexte d'Internet augmente particulièrement le risque de perte de temps. Il arrrive souvent qu'au gré d'une recherche thématique, on s'arrête pour consulter une information passionnante… et totalement étrangère au sujet de la recherche initialement entreprise !

Pour pallier ces inconvénients, il existe des milliers de bases de données très spécialisées, mais bien sûr payantes. Les thèmes abordés: l'actualité, l'entreprise et les marchés, les informations financières (comptes et bilans, rapports), les sciences et tech niques (publications, produits nouveaux) ou encore la propriété industrielle, pour prendre connaissance des brevets déposés, des marques et des normes. En matière d'information, tout est possible.

Plus de la moitié du savoir humain

Mieux que la mythique bibliothèque de Babylone ! Selon certains experts, la somme d'informations qui a déjà été stockée sur les bases de données en ligne représenterait à l'heure actuelle plus de la poitié du savoir de l'humanité ! Un savoir qui, de plus, est régulièrement remis à jour par des spécialistes reconnus, garantissant ainsi la qualité et la viabilité d'un contenu immédiatement opérationnel.

Autrefois réservées aux chercheurs et aux professionnels de l'information, ces bases sont désormais accessibles à tous ceux, surfeurs comme décideurs, qui considèrent l'information comme une donnée stratégique.

En formulant une demande, quelle qu'elle soit, de manière correcte, base de données correspondant à un domaine de connaissances, la probabilité que vous parveniez à trouver une information pertinente est des plus élevées. Le revers de la médaille est que le retour d'information est inexistant : la consultation d'une base de données n'est qu'une simple lecture. Il est impossible d'établir un quelconque dialogue ou d'élargir la recherche, comme sur Internet.

Bien utilisés, Internet et les bases de données viennent apporter de nouveaux services qui permettent aux dirigeants de mieux fonder leurs décisions, sans se substituer pour autant aux consultants en stratégie.

Source: Net Surf (12/2000)

500 milliards de pages oubliées dans les abysses du Web

Il existe des centaines de milliards de documents précieux, enfouis dans des bases d'informations, qui ne peuvent être retrouvés par les moteurs de recherches.» On savait que les outils classiques de recherche ne ratissaient que la «surface» du Web, soit environ 1 milliard de pages. Mais le constat de la société américaine BrightPlanet surprend par son ampleur.

Selon elle, le Web contiendrait en réalité de 400 à 550 milliards de documents, dont la quasi-totalité reste inaccessible aux «robots» qui indexent automatiquement la Toile. La raison en est que ces documents sont abrités dans des bases de données consultables par mots clés et qu'ils ne peuvent être répertoriés que par des requêtes en bonne et due forme. Pour sonder ce Web «profond», BrightPlanet a utilisé un outil, baptisé LexiBot, qui s'est tapé le boulot à hautes doses au printemps dernier. Le logiciel a exploré ce que BrightPlanet appelle des «sites profonds», notamment ceux des grands organismes de recherches et des bibliothèques (voir ci-contre), qui peuvent héberger jusqu'à plusieurs centaines de milliers de milliards d'octets: en abrégé,