INFORMATION ET INTERNET ENJEUX ET DANGERS
|
Introduction |
Internet est souvent considéré comme une poubelle où chacun dépose, plus ou moins en vrac, ce qu’il veut. Pour d’autres, c’est le lieu de tous les dangers et de tous les vices. En résumé, Internet n’est pas un outil sérieux, n’est même pas un outil. D’ailleurs, avec la meilleure
volonté du monde, si on accepte de s’y mettre, les désagréments
se multiplient. D’abord trop d’information noie l’utilisateur, avant de
tuer l’information. De plus l’information que l’on cherche et que l’on
sait exister n’est pas toujours accessible. Enfin si on trouve quelque
chose, rien ne nous prouve qu’il n’existe pas une version plus récente
ou que l’on n’est pas victime d’un manœuvre de désinformation, volontaire
ou non. Pourtant, des ouvrages, des
articles, des revues et des logiciels ne cessent de voir le jour. C’est
bien la preuve de l’existence d’une demande non encore épuisée.
Des « gens » se servent du World Wide Web…Pour le prouver,
cette étude ne sera faite qu’à partir d’informations trouvées
sur Internet… et en français qui plus est. Avant toute chose, il semble opportun de présenter brièvement l’environnement qui sera celui de notre problématique : Information et Internet. Tout d’abord, et contrairement
à ce que beaucoup pensent, Internet n’est pas né il y a deux
ou trois ans. On peut faire remonter son apparition aux années 1960.
C’était à l’ARPA (Advanced Research Project Agency), au «
Department of Defense » des Etats-Unis. Le projet était le
suivant : il fallait mettre au point un système de communication
pouvant résister à une attaque nucléaire. Concrètement,
l’objectif était de créer un réseau de transmission
pouvant fonctionner même après destruction de ses relais.
Ainsi, ce nouveau vecteur était capable de s’auto-configurer après
avoir subi des dégâts partiels. La première réalisation
concrète s’effectua sur le réseau téléphonique
en utilisant la technologie des commutations de paquet et des éléments
d’automatisation afin que les paquets d’informations puissent aller d’un
ordinateur à l’autre par le biais d’un réseau d’ordinateurs
. Ainsi fut créé
une structure totalement décentralisée où chaque nœud
était autonome : l’impossibilité de son interruption était
acquise, selon les vœux du Pentagone. Le système fut baptisé
ARPANET (« net » signifiant réseau), en 1969. Les premières applications
furent le courrier électronique. Puis, après sa mise dans
le domaine public, des universitaires s’en servirent pour faire des conférences.
En 1972, plus de 50 universités et centres de recherche, impliquées
dans un aspect ou l’autre de la recherche militaire y étaient alors
connectés. L’année suivante, une première liaison
transatlantique était réalisée. Les études
se poursuivirent à l’ARPA, sur les protocoles de transfert, dans
un souci d’interopérabilité du système. Cependant, la croissance
déjà considérable d’ARPANET amena le Réseau
a être séparé en deux entités distinctes : MILNET
pour les site militaires et ARPANET pour les non militaires . Ces deux
réseaux restèrent toutefois liés par le procédé
IP (Internet Protocol) permettant l’échange de données d’un
réseau à l’autre Enfin, apparaît l’appellation
que nous connaissons tous d’Internet qui concrétise l’élargissement
d’ARPANET à l’ « Internet Working », les universités
américaines continuant de développer cet outil. Ainsi, dans
les années 1980, Internet ne cesse de s’étendre grâce
aux universités du globe, aux laboratoires de recherche et aux grosses
entreprises. On peut parler d’une « civilianisation ». Des
individus se sont également unis pour créer des services
privés qui deviendront les fournisseurs d’accès, c’est-à-dire
le moyen de se connecter à Internet. A partir de là, la
croissance devint exponentielle sous l’impulsion du Web (1992), conçu
par une équipe de chercheurs du Centre Européen de la Recherche
Nucléaire : le multimédia commence à être intégré
au Réseau. Enfin, en 1993, le CERN et le National Center for Supraconducting
Application américain autorisent la diffusion publique du premier
logiciel de navigation (Mosaic) et des logiciels serveurs (cf. ci-après)
permettant de créer son propre site. L’Internet a alors atteint
sa forme actuelle. C’est le World Wide Web (www)
qui peut se traduire littéralement par la toile d’araignée
mondiale. Par le Web, on peut tout faire avec, en plus, de jolies présentations
graphiques dynamiques : écouter de la musique, jouer, discuter,
obtenir de l’information, partir en vacances, s’exprimer librement, etc. Plus sérieusement,
c’est une toile d’araignée de serveurs d’informations reliés
les uns aux autres par des liens physiques (les ordinateurs et les câbles
de connexions aux lignes téléphoniques ou numériques)
et des liens logiques (cf. ci-après). De liens en liens, de clic
en clic, on se déplace presque partout où on le souhaite. En plus, d’un point de vue
technique, il n’y a pas grand chose à savoir. Pour schématiser,
le Web relie des serveurs HTTP (protocole de communication entre les navigateurs
et les serveurs basé sur le principe de l’hypertexte : « Hyper
Texte Transfer Protocol ») qui envoient des pages HTML (langage
permettant de décrire les pages Web : « Hyper Text Markup
Langage ») à des postes dotés d’un navigateur . C’est le principe de l’hyperlien
(cf. les liens hypertextes) qui vous fait passer d’une page à une
autre, d’un menu au corps d’un site, d’un phrase à un logiciel à
télécharger, d’une petite photo à une image plein
écran, etc. d’un simple clic de souris. Enfin, il faut signaler l’existence
des URL (« Uniform Ressource Locators ») qui sont les noms
données aux hypertextes. Il peut s’agir d’un serveur ftp, d’un fichier,
d’une adresse d’un serveur de Web (exemple : http://www.ifrance.com/Intelligence),
d’une adresse e-mail etc. Tout d’abord, un fait : Intelligence
Economique et Information sont intimement liées, la seconde est
littéralement la raison d’être de la première. Dans le Rapport Martre on
peut lire de façon très explicite que : «
L’intelligence économique peut être définie comme l’ensemble
des actions coordonnées de recherche, de traitement, de distribution
en vue de son exploitation, de l’information utile aux acteurs économiques.
L’information utile est celle dont ont besoin les différents niveaux
de décision de l’entreprise ou de la collectivité, pour élaborer
et mettre en œuvre de façon cohérente la stratégie
et les tactiques nécessaires à l’atteinte des objectifs définis
par l’entreprise dans le but d’améliorer sa position dans son environnement
concurrentiel » On peut distinguer principalement
quatre catégories d’information : celle-ci est ouverte ou fermée,
écrite ou orale. En fonction de cela se met en place un travail
spécifique. Schématiquement, il revient à la documentation
de recenser, d’acquérir et de classer dans un souci de meilleurs
accessibilité et diffusion l’information ouverte et écrite
(on reconnaît là les principes de la veille technologique
dans le monde scientifique, de la veille juridique et législative
des cabinets de lobbying, etc.). Par contre, c’est au réseau (cf.
les concepts anglo-saxon de « networking » et de « knowledge
management ») d’obtenir, d’enregistrer et d’interpréter l’information
orale… et, accessoirement, fermée. L’information disponible
sur Internet appartient à ces quatre catégories quant à
son origine mais, également à son traitement : on trouve
aussi bien des textes de personnes reconnues, que des rumeurs (cf. les
forums et autres chats), des informations surgies de nulle part (cf. les
sites d’amateurs), des dénonciations (cf. les sites dits «
anti » qui mènent un combat contre une société,
contre ou pour des principes, etc.), des informations sans indications
de date, d’auteur, etc. C’est ce qui fait la richesse d’Internet mais également
ses dangers. Malheureusement l’un ne va pas sans l’autre tant il est vrai
que c’est l’homme qui est à la base de toutes ses informations avec
des objectifs qui lui sont propres. B.b. Les enjeux
de l’Information Un mot résume à
lui seul l’ampleur et la prégnance de ces enjeux : l’Infoguerre.
nous dépassons là l’ancien concept de veille – par définition
passive - qui, du fait son antériorité académique
(cf. la bibliométrie) et pratique, cause tant de torts à
l’Intelligence Economique. Concrètement, l’Infoguerre
possède de multiples visages dont voici quelques principaux aspects
: la désinformation utilisant tous les vecteurs possibles dont Internet
(faux sites, manipulation de « news groups », création
de forums ad hoc, etc.) , les virus et autres « Remote Tools »(outils
furtifs d’administration à distance ; les deux plus connus sont
« Back Orifice » et « Armagedon ») qui permettent
de prendre le contrôle d’un ordinateur à l’insu de son propriétaire,
l’intimidation, le lobbying, etc. Cette courte liste n’énumère
en aucun cas l’ensemble de l’arsenal de l’Infoguerre : il n’existe
pas d’outil
spécifiquement dédié à ce combat
d’un genre nouveau ce qui n’exclut pas la mise en place de méthodologies
opérationnelles et efficaces. En fait, nous devons puiser
des éléments de formalisation et théorisation un peu
partout : dans la stratégie militaire qui s’est déjà
penchée sur la guerre de l’information, dans les méthodes
des groupuscules idéologiques pratiquant la guérilla, dans
le pouvoir de persuasion de la publicité, dans tous les endroits
où notre esprit nous conduira. Pour résumé,
l’Infoguerre est un nouvelle forme de la pensée du philosophe BERKELEY,
dans Principes de la connaissance humaine pour qui « avoir une idée
et percevoir, c’est tout un ». Cela laisse toute latitude à
l’action volontaire. Après avoir présenté
les deux élément constitutifs de notre étude, nous
allons maintenant pouvoir en envisager les modalités. C.a. Internet et
Intelligence Economique Il faut reconnaître
qu’Internet et l’Intelligence Economique ont une ressemblance flagrante
ainsi que des liens évidents. On pourrait même dire qu’ils
sont pareillement les enfants de leur temps, caractérisé
par la globalisation de l’économie et des échanges d’informations.
Presque logiquement, Internet est devenu un outil primordial et incontournable
pour l’Intelligence Economique, tandis que celle-ci est devenue une application
essentielle du premier. Leur premier point commun
est bien la mémoire : c’est une mémoire en perpétuelle
création et renouvellement qui appartient à ceux qui décident
de s’en servir et de l’optimiser. En effet, leur accès respectif
nécessite méthode, apprentissage et remises en cause de soi
et de ses acquis : c’est toute la problématique du questionnement
et de sa maîtrise. L’outil n’est pas un tout qui se suffit à
lui-même : il faut savoir l’utiliser et, accessoirement l’adapter
à ses besoins et à ses capacités. Ajoutons également
que l’un et l’autre sont un perpétuel renouvellement dont l’articulation,
la matrice, sont les questions mais, également, les aspirations. Nous sommes dans le domaine
de l’inachevé, de l’extension, des essais et des erreurs, de la
convivialité, de l’ouverture, des contacts entre des hommes de tous
horizons et de toutes formations, etc. C’est ainsi que se mettent en place
de nouveaux réseaux de compétences mais également
d’affinités. D’un point de vue technique,
le jeu des ressemblances se poursuit, dans l’objectif commun de maîtrise
de l’information qui passe par celle de l’intelligence artificielle permettant
d’élaborer de l’information à partir de l’information avant
que ne puisse être construite la connaissance. C’est le travail du
renseignement, de l’intelligence au sens latin du terme : créer
des liens, un réseau, entre des mémoires et des compétences. Pourtant, le Réseau
reste une machine à part entière ce qui n’est pas le cas
de l’Intelligence Economique. Il faut agir sur l’information véhiculée
par le Réseau comme nous avons vu précédemment. C’est
en cela qu’Internet n’est qu’un élément parmi d’autres de
l’Intelligence Economique. Pour mener à bien
notre étude, nous allons , tout d’abord nous intéressé
aux questions techniques générées par l’existence
même du Réseau. Nous l’avons vu, c’est le lieu de l’intelligence
artificielle. Pour y accéder, il nous faut nous y adapter en utilisant
des logiciels. Ceux-ci dépendent des recherches que nous avons à
faire et, plus généralement de l’utilisation que nous souhaitons
faire du Réseau. Nous n’insisterons pas trop sur ces questions :
il est impossible de définir une « trousse à outil
» infaillible : c’est un domaine en constante mutation qui ne cesse
de s’adapter aux réalités du Web. Il n’en reste pas moins
qu’il semble possible d’établir une méthodologie du choix
des outils de recherche et de leur utilisation, sans prétendre à
une quelconque exhaustivité intemporelle. Puis nous envisagerons l’utilisation
d’Internet par l’Intelligence Economique. Est-ce que ce vecteur révolutionne
la profession ? Où s’agit-il d’un luxe réservé aux
seules grandes structures. Nous tenterons d’apporter des exemples concrets
d’expériences dans ce domaine afin de crédibiliser notre
propos. En effet, trop souvent, la littérature traitant de ces questions
est par trop abstraite et décourageante. Ne peut –on, pas dès
à présent, considérer Internet comme un vecteur de
démocratisation de l’Intelligence Economique ? Enfin, nous élargirons
notre propos par son aboutissement logique : l’Infoguerre qui recouvre
une multitude de réalités qui concernent, qui menacent,
n’importe quel utilisateur du Réseau. On essaiera de faire sortir
ce concept des théories et autres délires paranoïaques
qui concourent à empêcher toute prise de conscience préventive
des dangers encourus, mais également des opportunités offertes
à tous. Pour, ce faire, notre problématique sera decrescendo
afin montrer que, finalement, il s’agit d’élément on ne peut
plus concrets. |
|
Dans cette première partie, nous allons réduire Internet à ce qu’il n’est pas exclusivement, c’est-à-dire le Web comme système d’information, au sens premier du terme. On peut ainsi utiliser la notion réductrice de « bibliothèque virtuelle ».Pourtant, Ce n’est pas une raison pour oublier qu’Internet sert aussi : - aux
communications interpersonnelles (cf. le courrier électronique); - à
l’hébergement de forums électroniques spécialisés
(sous forme de courriers électroniques ou de serveurs Usenet); - à
donner accès à des serveurs à distance (fonction telnet
nécessitant un logiciel client pour pouvoir effectuer des communications); - à
transférer des fichiers d’un ordinateur à l’autre (File Transfer
Protocol ou protocole FTP permettant d’accéder aux disques durs
montés sur un fichier); - à
accéder à des sites d’information en mode Gopher (structure
hiérarchique ou arborescente des menus et sous-menus) de moins en
moins nombreux; - à
accéder, et à créer des sites, quelqu’ils soient,
en mode World Wide Web (le W3): c’est le système dominant et qui
connaît une croissance exponentielle (il intègre les protocoles
précédents. On trouve des fichiers informatiques,
des textes, des images, du son, des films... tout ce que chacun, institutionnel
ou particulier, veut bien mettre sur le Réseau. Concernant plus
particulièrement cette notion de bibliothèque virtuelle,
on peut avoir accès à des livres, des journaux, des périodiques,
des communications scientifiques, etc. en format électronique (d’où
l’expression « virtuelle »). De façon synthétique,
Internet peut ainsi être qualifié d’espace éditorial,
dans le sens d’espace de production et de diffusion de l’information. C’est
également, de par ses caractéristiques techniques, un espace
ouvert et distribué à la fois gratuit et commercial. Et oui,
Internet n’est pas le monde de la gratuité mais peut devenir, sans
grandes difficultés, celui du moindre coût, de l’information
à moindre coût (seuls restent les « frais de déplacement
»). L’objectif n’étant
pas d’avoir accès à toute l’information, il faut se donner
les moyens de pouvoir trouver l’information pertinente - utile - et de
l’exploiter, les deux étapes étant intimement liées.
On comprend ainsi que les sites les plus visités soient ceux fournissant
gratuitement (grâce à la publicité qui pollue le Réseau)
des répertoires (cf. Yahoo) ou des moteurs de recherche, censés
indexer en texte intégral la totalité des pages Web (cf.
Altavista). Dans les deux cas, soit on ne trouve rien, soit la liste de
résultats est tellement volumineuse qu’elle en devient inexploitable.
Enfin, dernier point sur ces moyens basiques de recherche d’Information:
ils ne recensent que 16 % du Web selon les dernières estimations
en vigueur. Se développent ainsi
des outils que l’on appelle communément les « agents intelligents
» (cette dénomination n’est qu’un idéal type emprunté
aux travaux de la recherche en intelligence artificielle). L’objectif est,
là encore de rendre plus rapides et plus efficaces les recherches
sur Internet en remplissant trois critères principaux: il faut trouver
des informations qui soient les plus fiables et les plus récentes
possible. Pour appréhender cela,
nous allons, tout d’abord, dégager les principales caractéristiques
de l’Information disponible sur Internet puis nous reproduirons cette première
analyse, adaptée cette fois aux outils disponibles pour le recherche
d’Information. Enfin, nous tenterons de déterminer une méthodologie
et des moyens pour utiliser au maximum les opportunités informationnelles
du Réseau. 1.1. Typologie de l’Information
présente sur Internet 1.1.1. Une grande
liberté éditoriale: La libre diffusion
de documents et d’informations est liée à l’origine du Réseau,
à sa tradition universitaire qui ignore les frontières et
les lois du commerce . Ainsi, chacun peut être à la fois fournisseur
et client en fonction de ses envies et de ses intérêts, car
le bénévolat n’est pas seul de mise sur le Réseau
des réseaux. Il existe une relation directe entre le lecteur et
l’auteur qui peut d’ailleurs se prolonger grâce à l’utilisation
du courrier électronique qui permet, en un clic de souris, de correspondre
avec l’auteur du texte que l’on vient de lire. Cette liberté éditoriale
trouve également sa source dans les motivations des individus, des
organisations à diffuser gratuitement de l’Information: pour se
faire connaître, par altruisme, pour communiquer, pour échanger,
pour atteindre un public cible, pour choquer, pour déranger, pour
s’amuser, etc. en profitant d’une diffusion instantanée et internationale
. C’est ce qui fait d’Internet cette « auberge espagnole »
de l’Information où certains trouvent toute l’information qu’ils
souhaitent tandis que d’autres ne trouvent rien et ne trouveront jamais
rien. Ainsi, le World Wide Web
est « une entreprise de collaboration favorisant l’échange
non-marchand de services et de ressources, sous la responsabilité
de chaque réseau de base, mis à la disposition du plus grand
nombre pour l’intérêt commun ». De plus c’est
la première fois que l’Information est directement accessible par
l’utilisateur final. Cela n’exclut pas que, comme
dans la vie courante, dans la réalité non-virtuelle, des
professionnels de l’information s’installent et fassent commerce de la
diffusion de l’information en lui offrant une valeur ajoutée, de
quelque nature que ce soit. Ce sont les libraires de l’Internet, au sens
figuré, c’est-à-dire des banques de données commerciales
qui utilisent ce nouveau vecteur de transfert de l’Information (cf. Lexis-Nexis,
Dialog , Reuter, l’AFP, etc.). Ils proposent une information vérifiée,
actualisée régulièrement, synthétisée
et mise en forme enfin de faire gagner du temps et d’éviter des
recherches qui peuvent souvent se révéler fastidieuses. D’ailleurs,
on notera que ces services n’utilisent jamais exclusivement les informations
du Web! Enfin, cette liberté
a ses limites et il existe des choses que nous ne trouverons jamais sur
la Toile, sauf à se retrouver dans l’illégalité la
plus totale (cf. la troisième partie de cette étude sur l’Infoguerre).
Signalons quelques uns de ces barrages: les problèmes de droit d’auteur,
la sécurité des transferts d’information, la difficulté
d’accès aux serveurs, les coûts de création et de mise
à jour de l’Information sur support électronique, l’absence
de profits, etc. 1.1.2. Les caractéristiques
de l’Information En fait, Internet est la
bibliothèque la plus chaotique qui soit. L’absence de catalogue
ou de fichiers recensant ce qui existe est révélatrice (en
fait existent des catalogues sectoriels mais ils ne sont jamais à
jour, sont parfois difficile d’accès et ne sont pas intégrés
dans un grand registre universel de l’Internet). Seuls des outils automatiques
de recherche de services peuvent être relativement à jour:
ce sont des robots qui parcourent le Réseau pour en extraire l’information
en la répertoriant dans des bases de données interrogeables
par les utilisateurs. En fonction du prix, le travail sera plus ou moins
bien fait... Mais la recherche par sujet reste très délicate
du fait de l’absence de normes permettant une homogénéisation
qui faciliterait l’indexation automatique. De plus, alors que les ressources
existantes sont de mieux en mieux signalées (cf. les balises HTML),
les données sont quant à elles peu ou pas validées
par les outils automatiques qui ne sont que des robots, ne l’oublions pas. Il ne faut pas non plus oublier
que tout ce qui se trouve « sur » Internet est virtuel et dynamique.
Cela n’a strictement rien à voir avec les pages numérotées
d’un livre. Les site sont éphémères, changent d’adresse
et obéissent à des desseins différents les uns des
autres. Cela pose également le problème de l’authenticité
de l’Information (il n’existe pas de comité éditorial du
World Wide Web: c’est ce qui fait à la fois sa force et sa faiblesse). Cette anarchie va bien au-delà
de l’Information: elle concerne également le contenu et le codage
numérique, l’instabilité de la réalité virtuelle,
la fragmentation de la toile mondiale, le renouvellement continuel, la
déstructuration volontaire du Réseau (et, par là-même,
de ce qui s’y trouve), le multilinguisme à l’échelle planétaire,
etc. Cela n’exclut pas pour autant des grandes tendances qui évitent
à chaque Internaute d’être un programmeur confirmé. 1.1.3. Les aspects
techniques de l’Information Un des synonymes les plus
courants d’Internet est « autoroutes de l’information ». Si
nous ne l’avons pas employé jusqu’à présent c’est
afin de lui donner le sens le plus exact possible. En effet, cet expression
ne prend réellement tout son sens que si elle s’applique à
l’infrastructure matérielle de la communication. Internet n’est
pas encore l’autoroute électronique à proprement parler qui
en fera l’autoroute de l’Information que tout le monde attend: ce sera
alors l’ère de l’information en temps réel… qui n’en est
qu’à ces balbutiements (les fils téléphoniques, les
fibres optiques, les câbles intercontinentaux et les communications
par satellite). Toute ressource possède
une URL (Uniform Ressource Locator) et un format de codage. Les deux formats
les plus souvent rencontrés sont le HTML et le PDF ce qui n’exclue
pas l’existence de fichiers téléchargeables aux formats «
classiques » que sont World, Excel, etc. Pour résumer, on
peut trouver : - l’ASTI
(ou plein texte) : il est toujours lisible et de taille réduite
mais, en contre-partie, il ne permet qu’une pauvre mise en page, sans image
ni graphique (l’objectif est d’être lisible par tous ce qui explique
que de nombreux éditeurs de journaux électroniques aient
choisis ce format); - le traitement
de texte que tout possesseur d’un ordinateur sait utiliser mais qui possède
le double inconvénient d’une taille trop importante et d’une absence
de standard; - le Rich
Text Format (ou RTF) est exclusivement dédié aux échanges
de documents électroniques mais, c’est un format de Microsoft; - le Postscript
ou (PS) a pour inconvénient majeur d’être utilisé
par les systèmes fonctionnant sous Unix et de nécessiter
une imprimante spéciale; - le Portable
Document Format (ou format PDF) est le plus apprécié car
il offre une mise en page professionnelle, une protection du contenu, un
navigation hypertexte et des possibilités de recherche au sein du
document. Pourtant, il nécessite un logiciel gratuit spécialisé
(Acrobat Reader) et alourdit les documents; - le Hyper
Text Markup Language (ou langage HTML) est le standard de la communication
sur Internet ce qui ne l’empêche pas d’offrir une mise en valeur
limitée et d’être facilement modifiable. A l’origine, le but
de ce langage était de créer un moyen universel de stocker
et d’afficher de l’information en misant plus sur le contenu que sur la
forme (les nouvelles spécifications , le HTML 3.2 et ses versions
dérivées proposées par les navigateurs, permettent
de créer des effets esthétiques et de maîtriser aisément
les lignes de codes nécessaires). Les formats de fichiers mentionnés
ci-avant ne concernent que les documents textuels, les plus utilisés
en matière de recherche d’Information. Existent également
des images (en .GIF, .JPEG ou .JPG, .PNG, .TIF ou .TIFF), des fichiers
audio (en .AU, .AIF ou .AIFF, .MID, .RA, .WAV), de fichiers vidéo
(en .AVI, .MOV ou .QT, .MPEG ou .MPG, .RA, .VDO, .VIV), des fichiers compressés
(en .BIN, .EXE, .HQX, .GZ, .TAR, .UUE, .Z, .ZIP), des fichiers codés,
etc. . Ils possèdent tous leurs différents formats. Le seul
point commun qui les unit est leur terminologie: ils apparaissent tous
ainsi : « nom du fichier . type du fichier ». Nous nous dirigeons tout
de même vers une harmonisation et une facilité croissante
des interfaces homme/machine (il s’agit là d’un des grands enjeux
de cette fin de siècle car ceux qui détiennent les vecteurs
détiendront à terme le contenu même de l’Information). La recherche d’Information
demande deux compétences principales: 1/ savoir déterminer
le bon outil en fonction de l’information demandée et 2/ savoir
l’utiliser correctement. Il va sans dire que cela demande un travail régulier
pour se tenir un tant soit peu au courant des nouveaux produits et de leur
utilisation. Le plus simple, comme souvent sur Internet, est de s’abonner
à une mailing-list gratuite spécialisée sur ces questions
(cf. « La lettre actu-moteurs » , hebdomadaire en français
envoyé tous les Vendredi dans votre boîte aux lettres électronique
sur simple demande). La partie qui va suivre ne
saurait exclure quelques recommandations de base qui se révèlent
valables dans le cadre de toute recherche par le biais d’un logiciel. Tout
d’abord, il est indispensable de préparer ses questions, c’est-à-dire
de se faire une liste de mots-clés en tentant de ne pas oublier
que les autres, et plus particulièrement les concepteurs de l’outil
utilisé, ne nomment pas ce que nous cherchons de la même façon
que nous (d’où l’importance des synonymes et de l’opérateur
booléen qui y ait associé). Au moment de poser sa question,
il est conseillé de n’utiliser ni accents ni majuscules. Puis, au
cours de la recherche, il faut garder à l’esprit que tout se passe
un peu comme dans un « entonnoir »: si on obtient trop de bruit,
trop de réponses, on restreint le champ d’interrogation en s’enfonçant
plus profondément dans l’entonnoir; par contre, si aucune réponse
ne semble exister, alors, à l’inverse, on élargit le champ
de la recherche en remontant vers les bords de l’entonnoir. Nous ne nous intéresserons
pas au push qui permet, en théories, à chacun de recevoir
ce qui l’intéresse, suivant en cela les méthodes de diffusion
de la radio et de la télévision. Cette technique a été
abandonnée au profit des Intranets et des réseaux d’entreprises:
c’était un gros consommateur de ressources du Réseau et de
postes de consultation sans grande valeur ajoutée au regard de ce
que l’on trouve sur les sites Web. 1.2.1. Les moteurs
de recherche et répertoires 1.2.1.1. Les répertoires ou annuaires Les répertoires ou
catalogues constituent leur base de donnée soit par inscription
volontaire (des formulaires sont mis à la disposition des concepteurs
de sites afin qu’ils enregistrent ces derniers en en fournissant l’adresse,
le titre, les thèmes principaux, etc.) soit par une recherche à
l’aide de robots. Concrètement, il s’agit de listes ou d’annuaires
généralistes classés de la façon la plus intelligible
qui soit. On peut d’ailleurs établir un parallèle entre les
thèmes de classement choisis et ceux employés dans une bibliothèque
généraliste. Le parallèle se poursuit quand on sait
qu’existent des « lecteurs » chargés de filtrer les
sites en fonction de leur qualité, de leur pertinence et de leur
fiabilité. Ainsi, chez Yahoo, en Californie, cinquante-six indexeurs
passent de trente secondes à trente minutes à visiter les
sites qu’on leur indique . La recherche peut se faire
de deux manières: soit en allant de thèmes en sous-thèmes
soit en faisant une recherche par mots, c’est-à-dire sur les titres
de thèmes proposés. Comme on peut le constater, il faut,
avant de commencer sa recherche avoir une idée des thèmes
proposés auxquels correspond l’information recherchée. Cela
demande une certaine connaissance de l’outil que l’on utilise et des correspondances
de vocabulaires d’une langue à l’autre. Une fois ces difficultés
franchies, une liste apparaît: c’est la réponse à notre
requête. En fait, c’est une nouvelle étape pour trouver l’information
recherchée: on se retrouve face à une liste de sites qu’il
nous faut alors visiter. C’est seulement après que l’on pourra constater
s’ils correspondent ou non à notre requête. Ainsi, de par le méthode
même d’acquisition de l’Information, ces outils manquent d’exhaustivité:
ils accumulent les sites les uns après les autre, au fur et à
mesure que ceux-ci sont portés à leur connaissance. De plus,
si on veut rechercher dans le bon sous-thème, il faut savoir à
quoi celui-ci correspond ce qui signifie que l’on est tributaire des classifications
existantes: elles manquent, par définition, de la précision
nécessaire à l’obtention de l’information recherchée. 1.2.1.2.
Les moteurs de recherche Leur objectif: indexer automatiquement
le Web grâce aux logiciels robots. Ces derniers parcourent l’Internet
pour en extraire l’information et constituer des bases de données
interrogeables en ligne.
1.2.1.2.1. Les robots d’exploration Chaque robot (ou spiders,
crawlers, worms, etc.) a sa méthode de recherche et ne peut en aucun
cas être assimilé à un virus qui se meut de façon
quasi autonome au cœur des terrains qu’il infecte. En général,
il commence son parcours à partir d’une liste d’URL extraits de
pages ayant beaucoup de liens, par exemple; il peut ainsi augmenter sa
liste d’adresses. De même, les robots utilisent les listes créées
manuellement par les utilisateurs. Enfin, il est possible de récupérer
des adresses en parcourant les messages échangés dans les
Newsgroups ou dans les archives des Listes de discussion . Une fois la liste de départ
constituée, le robot visite et indexe les documents trouvés
en utilisant, comme référant, les titres HTML des pages,
les premiers paragraphes, les mots récurants des textes complets,
etc. Pour faciliter ce travail il est d’ailleurs très important
de bien remplir les « balises META » qui sont le descriptif
en HTML de la page Web (il s’agit, le plus souvent, de mettre en évidence
des mots clefs à la recherche desquels est le robot).Voici
ce que peuvent donner ces lignes en HTML (sont mis en italique les éléments
de personnalisation): <HEAD> <TITLE>INTELLIGENCE
STRATEGIQUE</TITLE> <Meta Name=«
description »Content=« Site consacré à l’information
stratégique en français »> <Meta Name= «
keywords »Content=« renseignement, intelligence économique,
infoguerre, forces armées, conflits, géostratégie,
défense, terrorisme »> Par contre, on peut
également demander aux des robots de ne pas indexer des pages et
de ne pas explorer des liens : <HEAD> <Meta Name=«
robots »Content=« nonindex, nonfollow » <TITLE>....</TITLE> </HEAD> On compte plus d’une vingtaine
de ses outils de recherche généraux sur Internet. Il n’en
existe pas deux capable de fournir la même réponse à
une question identique. De plus, d’un jour à l’autre, les résultats
peuvent varier sur le même outil , à requête identique.
Ainsi, en termes de sciences de l’Information, les performances des robots
sont plus que médiocre puisque l’objectif est de se procurer tous
les documents recherchés et seulement ceux-ci; sur Internet on se
procure en fait souvent beaucoup de silence et de bruit .
1.2.1.2.2. L’utilisation des robots par les moteurs Il s’agit de bases de données
constituées automatiquement par les robots que nous avons étudiés
ci-avant. Ils indexent mot à mot les documents qu’ils visitent permettant
ainsi à l’utilisateur de poser des questions par sujets. Selon le
moteur utilisé, l’indexation porte soit sur le titre et/ou l’entête
du document, voir les premières lignes, soit sur le document complet. Le maître mot de l’utilisation
des moteurs est la simplicité: on pose sa question en langage usuel
avec possibilité de l’affiner en fonction du nombres de réponses
correspondantes trouvées (ceci afin d’éviter un trop grand
nombre de sites à visiter). La liste ainsi obtenue est le plus souvent
classée par ordre de pertinence, reposant sur une pondération
des documents, calculée à partir des critères de recherche. On notera qu’il existe toujours
une réponse et, donc, beaucoup de bruit (il suffit que le terme
de la requête se trouve dans une des pages indexées par le
moteur, et, ce, quel qu’en soit son sens). L’idéal est là
encore de connaître le fonctionnement de l’outil que l’on utilise
mais, chaque moteur possède son propre mode d’indexation ce qui
rend difficile le simple fait de poser la bonne question. On peut également
choisir de limiter le nombre de réponses, quand cela est possible. Il est souvent très
utile de maîtriser les opérateur booléens qui
reposent sur trois principales opérations que sont l’union («
ou »), l’intersection (« et ») et l’exclusion («
sauf »). L’union permet de rechercher des concepts proches , des
synonymes, ce qui est incontournable dans le cadre d’une requête
formulée en vocabulaire libre. L’intersection, quant à elle,
impose la présence de tous les critères de la recherche dans
la réponse. Enfin, l’exclusion, comme son nom l’indique, permet
d’éliminer des notions non pertinentes. De manière, générale,
les moteurs de recherche reconnaissent le « + » et le «
- »: le premier, collé à gauche du terme, impose sa
présence dans la réponse; le second, placé à
droite, exclut les documents contenant ce terme. Un autre moyen d’affiner
sa recherche est d’utiliser des types de documents. Certains moteurs proposent
en effet de vous fournir « plus de documents comme celui-ci ».
Aussi l’utilisateur a-t-il l’opportunité de déterminer le
document le plus proche de ses préoccupations et de le soumettre
au moteur de recherche. Celui-ci, sans qu’on sache bien comment, en extrait
les termes importants et les utilise pour interroger de nouveau la base
de données. En dépit du travail
continu des robots, il est impossible, comme nous l’avons déjà
signalé, d’indexer la totalité du Web. Il est de plus matériellement
impossible d’assurer une mise à jour quotidienne des informations
recueillies. En effet, les moteurs de recherche n’interrogent pas directement
le Réseau mais leurs propres bases de données contenant les
termes décrivant chaque page Web. Une indexation fiable d’un univers
dynamique et interactif est réellement impossible (comment suivre
l’évolution de tous les sites dont les informations changent tous
les jours car tels sont leur vocation et leur intérêt). 1.2.2. Les agents
de recherche ou métamoteurs La spécificité
des métamoteurs réside dans le fait qu’ils interrogent en
une fois différents outils de recherche pour fournir, objectif ultime,
la réponse souhaitée à la question posée. La
mise en place de ces outils a posé de nombreux problèmes
(le premier de tous, purement commercial, étant la baisse de fréquentation
des bandeaux publicitaires des moteurs), aujourd’hui tous résolus.
Ainsi, ces logiciels ont des fonctionnalités relativement comparables
(tout en utilisant des techniques différentes) mais des spécificité
intéressantes qui permettent de les utiliser de façon croisée. Les cinq fonctions principales que l’on retrouve le plus souvent sont : - un fonction
de recherche visant à permettre d’effectuer des recherches de manière
la plus complète et la plus approfondie qui soit; - une
fonction de veille qui consiste, de façon schématique, a
relancer une recherche de façon régulière puis d’indiquer
à l’utilisateur les nouveautés trouvées; - une
fonction de gestion de l’information qui se traduit dans la façon
dont sont édités, sauvegardés, modifiés, etc.
les résultats des requêtes; - une
fonction de filtrage de l’information: on peut choisir un domaine de recherche
qui renvoie à des outils spécifiques, on peut choisir de
ne trouver que des documents contenant une expression exacte, etc. - une
fonction d’analyse sémantique ou statistique des documents qui peut
se matérialiser par un surlignage des mots clefs correspondant à
la recherche. La fonction de recherche
proprement dite s’effectue à partir de moteurs de recherche classique
et généralistes (souvent on peut voir les résultats
trouvés par chaque moteur ce qui autorise, ensuite, à relancer
une autre recherche sur le moteur qui a donné les informations les
plus pertinentes) mais également dans des sources spécialisées.
En général, les deux méthodes sont utilisées
de paire avec élimination des doublons lorsque les résultats
sont fusionnés. Il est également possible d’ajouter ou de
supprimer des répertoires ou de moteurs de recherche en fonction
des requêtes ou pour toutes. L’un des avantages de cette méthode
est de pouvoir intégrer les moteurs internes à certains sites
d’Information que l’on connaît: c’est un gain de temps incontestable
puisque il n’y a plus qu’une requête à faire. Enfin, certains
métamoteurs fonctionnent également, en plus du reste comme
des moteurs explorant les pages « oubliées » par les
répertoires et les moteurs généralistes. DigOut4U
arpente le Réseau en continu si un temps de recherche ne lui a pas
été imposé (on peut tout de même exploiter les
premiers résultats tandis qu’il continue de chercher... si l’ordinateur
est suffisamment puissant en termes de mémoire vive); ce genre d’outil
est d’une utilité limitée, mais incontestable, et ne peut
être utilisé à chaque recherche sous peine de perdre
tous les bénéfices escomptés des métamoteurs. La formulation de la recherche
tend de plus en plus à s’harmoniser d’un logiciel à l’autre.
En fait, c’est la simplification qui semble être de mise en autorisant
des requêtes en langage naturel. Par contre, il est toujours possible
d’améliorer les réponses en déterminant, à
sa façon, une reformulation de sa question qui permet d’affiner
les premiers résultats trouvés. Lorsque les documents sont
rapatriés sur le disque dur (ce qui signifie la perte de l’URL Internet
d’origine), on peut les interroger de différentes façons.
On se constitue ainsi une base de données interrogeable à
tout moment, en interne. On rejoint, ici, la fonction
de veille de ces métamoteurs qui permet de réactualiser une
requête sauvegardée. Dans le cadre d’une connexion numérique
(ou par cable), l’avantage est évident puisque l’opération
peut s’opérer dès que l’ordinateur ou le réseau est
actif. Par, contre dans le cas d’une connexion par modem cela se complique
d’autant qu’il n’est jamais très prudent de laisser constamment
son ordinateur en veille avec son modem allumé. Pour ce qui est de la gestion
des résultats, tous les métamoteurs permettent d’éditer
les documents en format HTML, de les trier (en en supprimant, par exemple),
de modifier la présentation de la liste de résultats (par
ordre chronologique, par ordre de pertinence, etc.), etc. Il est intéressant
de noter que la liste de résultat peut « prendre la place
» du navigateur de l’utilisateur en y intégrant ses propres
fonctions (c’est le cas de Copernic 99) ou n’être qu’une simple page
HTML avec des liens hypertextes (cf. Webseeker qui crée des bookmarks
commentés par requête). Viennent ensuite les capacité
à présenter le contenu des documents trouvés, c’est
ce qu’on appelle la fonction d’analyse sémantique ou statistique
qui se traduit, comme pour les moteurs de recherche classiques, par des
résumés à partir des textes recueillis et, certaines
fois, par une mise en avant des mots clefs. Chaque métamoteur utilise
sa méthode qui se différencie principalement dans le choix
des paragraphes utilisés pour mettre au point le commentaire. Celui-ci
tient d’ailleurs plus d’une compilation d’extraits, censés être
les plus pertinents, que d’un véritable résumé . On
peut également obtenir des tables des matières (cf. Ecosearch)
et des listes de mots-clés et/ou concepts; on fait appel à
l’intelligence artificielle avec tout ce que cela sous-entend d’à
peu près. Quoiqu’il en soit, ces métamoteurs
ne sont qu’un assemblage de moteurs dont ils restent tributaires. Pourtant,
le travail ne semble pas être beaucoup plus long qu’avec des moteurs
et, ce, pour deux raisons principales: les moteurs sont interrogés
en même temps sans qu’il soit nécessaire d’ afficher les pages
d’accueil de ceux-ci et, deuxièmement, les résultats sont
traités de façon beaucoup plus approfondie que par un moteur
classique ce qui se révèle un gain de temps non négligeable
au moment de leur exploitation. A ces deux avantages, s’ajoutent les outils
uniquement dédiés à la gestion de l’Information (constitution
de bases de données par aspiration des pages, relance d’une même
requête, choix des sources à interroger, etc.) Ainsi, ces logiciels, le
plus souvent gratuits, sont très utiles pour effectuer un travail
de veille et, ce, même s’ils n’ont rien à voir avec des outils
tels que Péricles ou Taïga . De plus ils sont en parfaite adéquation
fonctionnelle avec les caractéristiques de Web: un monde dynamique
dans lequel il est nécessaire d’avoir ses propres repères,
personnalisés en fonction de ses attentes et de ses besoins. Par
contre, là encore, il faut connaître les outils que l’on utilise
et savoir en quoi ils peuvent nous être utiles. C’est d’ailleurs
pour cela que Copernic 99 semble être le plus approprié comparativement
aux autres même si il s’agit d’un faux métamoteur client (il
met à jour ses bases de données alors que l’ordinateur n’est
pas connecté à Internet!). Autre avantage, et non des moindres,
il est gratuit en version complète. Le second serait Webseeker (on
peut très facilement choisir les moteurs et les répertoires
sur lesquels s’effectueront les recherches) mais il est offert en version
limitée dans le temps, ce qui nécessite une souscription
au bout de la trentième utilisation. Enfin, pour les requêtes
très larges ou ayant peu de chances d’aboutir, DigOut4U s’impose...
au risque de faire planter votre ordinateur et les autres applications
en cours (il vaut mieux le lancer de nuit). 1.2.3. L’utilisation
et la gestion de l’information 1.2.3.1.
Méthodologie de la recherche Nous connaissons maintenant
la structure de l’information et son évolution ainsi que le fonctionnement
des principaux outils nécessaires à la capter. C’est à
nous d’agir en fonction de ces éléments . Nous savons que, brièvement,
l’information est multimédia (textes, sons, images animées
ou fixes, etc.). De plus ses supports sont hypertextes (ce concept remonte
aux années 1945 où un auteur avait proposé une lecture
et une écriture non linéaires correspondant à la pratique
de l’esprit humain, reliant des unités d’information par des liens
; le premier hypertexte utilisant l’informatique date, quant à lui,
de 1965): l’accès à l’Information se fait par association
d’idées et de concepts contrairement au modèle hiérarchique
en vigueur et classiques fondé sur l’indexation, la classification
(cf. les dictionnaires, les annuaires ou les chronologies). A ces premiers
éléments s’ajoute l’absence d’exhaustivité qui interdit
tout recensement centralisé et à jour de ce qui se trouve
sur le World Wide Web. Cela entraîne d’indispensables requêtes
auprès de logiciels spécialisés qui nous renvoient
soit beaucoup de bruit (on croule sous l’information non pertinente) soit
du silence (absence de réponse); dans les deux cas, rien ne nous
garantit une réponse à notre question. Mais, Internet est
aussi l’interactivité, que nous n’avons guère étudiée
pour l’instant: une grande partie de l’information peut être trouvée
sur des forums de discussion, des listes de diffusion, etc. (le travail
de recherche est le même que ce que nous avons évoqué
ci-avant; seul varie le traitement de l’information car les forums sont
les vecteurs privilégiés de la désinformation). Une fois cela pris en compte,
il semble possible d’établir une méthodologie en huit points
de la recherche d’Information sur Internet qui, d’ailleurs, emprunte beaucoup
aux concepts de la recherche documentaire « classique »: - il faut,
avant toute chose, définir son sujet, ce qui revient à avoir
une idée de ce que l’on veut trouver: cela consiste à rechercher
les différentes approches possible (les siennes et celles que d’autres
pourraient avoir), à s’approprier le sujet, à le délimiter
et, enfin, à l’adresse des outils de recherche quel qu’ils soient,
à le traduire en mots clefs. Ce premier travail n’est en aucun cas
acquis et il est toujours possible de le modifier en fonction des premiers
résultats obtenus. - ensuite,
il faut déterminer les ressources pertinentes en utilisant une double
approche complémentaires: d’abord se connecter sur les site de référence
ou les sites tremplins (on parle également de pages ressources)
des domaines relevant de notre requête puis, utiliser les outils
dédiés à la recherche sur Internet. C’est une méthode
classique qui consiste à trouver d’abord des éléments
de synthèse qui nous permettront d’approfondir certains aspects
du sujet choisi. Cela se traduit également par la découverte
de l’outil adéquat et de son mode de fonctionnement; - on peut
maintenant formuler et soumettre une équation de recherche... qui
devrait se révéler efficace au regard de la liste d’URL qui
apparaîtra en réponse; - il est
maintenant temps d’accéder à la documentation primaire, c’est-à-dire
aux résultats de ces trois premières étapes; - le travail
de sélection et de hiérarchisation s’avère d’ores
et déjà incontournable en raison des bruits que ne manque
pas de provoquer la moindre requête ( des concepteurs de sites se
sont spécialisés dans le bluff des moteurs afin que leur
site apparaisse dans presque toutes les requêtes). Au-delà,
on classe les documents en fonction de ce qu’ils apportent à notre
recherche (approche qualitative). Copernic, par exemple, permet de mener
une telle démarche tout en autorisant la constitution d’une base
de donnée interne exploitable comme n’importe quel résultat
de moteur de recherche; - enfin,
vient l’issue habituelle de tout travail de recherche qui consiste en l’exploitation
des documents en fonction de l’objectif que l’on s’est fixé; - pour
finir, on fait la bibliographie de son travail, son bookmark personnel.
On y reviendra plus en détail par la suite. Comme nous pouvons le constater,
la recherche d’information sur Internet observe les mêmes étapes
qu’une quelconque recherche documentaire. Pourtant, l’erreur la plus commune
est de négliger le réflexion préalable à la
recherche et de poser directement sa question au premier moteur venu et
d’obtenir ainsi un résultat très riche mais sans grand intérêt
opérationnel. La seule différence
notable réside dans les sources obtenues: les informations trouvées
doivent être traitées avec une extrême prudence, avec
méthode. 1.2.3.2.
Evaluation de l’information sur Internet Le regard critique est la
seule chose pour laquelle les robots et autres agents dits intelligents
ne peuvent nous être d’aucune utilité. C’est l’intelligence
humaine qui prend le dessus sur l’intelligence artificielle. Aussi faut-il
répondre à un certain nombre de questions que nous allons
succinctement évoquer . Concernant, tout d’abord,
le contenu, puisque c’est le fond de notre travail sur Internet, il faut
tenter de savoir si cette information est unique aussi bien dans le temps
que dans sa teneur (il est toujours utile de croiser ses sources). On peut
également s’intéresser au site qui héberge l’information
et voir s’il est dédié à ce genre de renseignement,
ou si ce que l’on a trouvé a une présence anecdotique, etc.
En même temps, on analyse la « visibilité » de
ce site ce qui renvoie au travail de recensement (celui-ci est un gage
de plus ou moins grande officialité, même si il est toujours
possible de tricher quand on connaît un tant soit peu le fonctionnement
des robots); la mesure d’audience peut également être un bon
indicateur même si un compteur peut compter de 100 en 100 (1 visite
= 100 visiteurs). Toujours dans la conception du site on peut également
s’intéresser à la présence d’une bibliographie sous
forme de bookmark, de préférence commenté, qui renverrait
à d’autres sites intéressants (voir si les liens sont toujours
valables); il faut se méfier des échanges de bannières
qui n’ont pour seul objectif que l’augmentation des visites d’un site à
l’autre et qui ne peuvent en aucun cas être assimilées à
des références. Il est important de noter la présentation
de cette information, même si avec la technologie ASP (les pages
n’existent que lorsque l’utilisateur les génère lors de sa
requête) on ne peut pas avoir directement accès aux archives
et aux modifications. Enfin le travail classique d’analyse de l’information
en elle-même: est-elle récente, quelle est sa fréquence
de mise à jour, quel est son degrés de précision,
la langue est-elle correcte (cela indique une relecture par un tiers),
etc. ? On peut ensuite tenter de
cerner le profil des responsables qui ont mis en ligne l’Information qui
nous intéresse. Dans le cadre du site d’une université, la
question ne se pose pas en termes aussi importants que dans celui d’un
site amateur (même si apparaît souvent la mention suivante,
« ce texte n’engage que son auteur »). Dans ce dernier cas,
il ne faut pas hésiter à contacter le concepteur du site
et à lui poser toutes les questions que l’on juge pertinentes. L’absence
de réponse peut-être révélatrice! Il est également indispensable
de s’intéresser à la façon dont est organisée
l’Information. Cette étape rejoint un peu les précédentes
sauf qu’elle est uniquement dédiée au contenu informationnel
et à son appréhension par le lecteur, pour employer un terme
générique. Les questions de la navigation, du téléchargement
et de l’impression sont importantes pour identifier l’usage que l’auteur
attend que l’on fasse de ses travaux et l’importance qu’il y accorde. A
moins que celui-ci préfère que vous n’achetiez son ouvrage
dont il fournit gracieusement quelques extraits en ligne qui par définition
ne seront jamais actualisés, sauf si le livre l’est (ce qui est
incompatible avec la dynamique d’Internet). Comme nous l’avons vu, certains
sites proposent des moteurs internes qui vont, dans leurs fonctions, bien
au-delà des pages d’accueil ou des frames de navigation. Ces moteurs
sont téléchargeables gratuitement si bien que n’importe qui,
ou presque, peut en installer un sur son site. Le rendre efficace est une
autre question. Un site qui se veut dédié à la fourniture
d’informations se doit d’en posséder un ayant un mode de fonctionnement
compréhensible, tant pour la requête que pour les résultats. Un autre indicateur peut
se révéler fort utile: le prix de cette information .En effet,
celle ci peut-être gratuite, dans la philosophie d’Internet où
tout le monde agit au profit de la communauté (cela n’est pas pour
autant le signe d’un site amateur). Par contre, elle peut être gratuite
mais accompagnée de publicités sur le sujet - plus ou moins
bien séparées de celui-ci - voir être, en elles-mêmes,
un publicité sous forme d’échantillon de ce que peut vous
fournir une base de donnée payante. Les indications de copyright
peuvent compléter cette approche, surtout si elles nous renseignent
précisément sur l’auteur et l’institution, dans un sens large,
auquel il appartient. 1.2.3.3.
La constitution d’un bookmark C’est l’aboutissement en
quelque sorte de toutes les étapes et méthodologies d’analyse
que nous venons de décrire. Il s’agit de se faire son propre carnet
d’adresses recensant les étapes de nos « navigations »
(ou browsing) précédantes et dépassant les simples
signets que nous proposent Netscape ou Internet Explorer. En effet, ces
derniers peuvent disparaître lors d’une mise à jour du logiciel
d’exploitation et surtout, sauf à être en réseau, ne
serviront qu’à soi-même. L’idéal, en somme, est de
mettre ses signets en ligne afin que chacun, visitant votre site, puisse
en profiter et vous fournir d’autres adresses en rapport avec vos centres
d’intérêts, voir vous signaler quand vos liens sont périmés
ou peu valables. L’autre intérêt de conserver ces signets
est de pouvoir bénéficier de tous les avantages d’une page
Web en la consultant à son emplacement d’origine: si on se contente
de la sauvegarder, de l’enregistrer, les images et les liens hypertextes
seront perdus (sauf à l’aspirer ou à utiliser les fonctions
« modifier » ? « enregistrer sous » de Netscape
Navigator). Avant même ce travail,
il peut être utile de modifier la page d’accueil de son navigateur.
En effet, si Internet est outil dédié à la recherche
d’informations on peut choisir des pages de répertoires ou de compilations
de liens hypertextes sur les outils de recherche: - le site
(donné à titre d’exemple) http://www-scd-ulp.u-stratbg.fr/Urfist/ANNE_Sophie/class3.htm
propose un bookmark commenté sur les outils de recherche qui se
décompose en deux sous-ensembles: des analyses et méthodologies
(avec toute une partie en français) suivies de liens conduisant
directement aux outils; - le CIUF
présente tous les outils de recherche en une page (http://www.ciuf.be/bibliotheques/repertoire_ressourcesweb/ - l’INSA
propose des « Sentier d’Accès et Pistes de Recherche d’Informations
Scientifiques et Techniques sur l’Internet » (http://www.csidoc.insa-lyon.fr/sapristi/digest.html)
avec des liens en fonctions des types de documents recherchés, les
moyens pour obtenir des coordonnées en tous genres (des congrès
aux laboratoires en passant parles personnes physiques et les sociétés),
les outils de recherche, etc. - l’université
de Valenciennes a mis au point un tableau sur les outils de recherche sur
Internet, classés en fonction des recherches à effectuer
avec, là encore, des liens pédagogiques (http://www.univ-valenciennes.fr)
; - l’ADIT
a créé une page intitulée « Comment chercher
une information sur le Web? » qui est tout de même relativement
succincte au regard des travaux de certains amateurs en la matière
(http://www.adit.fr/Recherche/Rech.html); - Lnet dépasse le simple concept de bookmark pour établir une classification en fonction de ses objectifs de recherche (http://ww.lnet.fr/ie/), dans un souci d’Intelligence Economique; - etc. Nous venons de donner l’exemple
d’un bookmark simple mais insuffisant. En effet, à force d’explorer
le Web, on rencontre souvent les mêmes sites ou, à l’inverse,
on tombe par hasard sur des sites qui nous apportent beaucoup d’informations
mais qui sont très mal référencés. Certes,
le principe des signets est un bon réflexe mais se constituer son
site, puisque c’est de cela dont il s’agit, permet de travailler beaucoup
plus efficacement sur Internet. L’idéal pour mener
à bien ce projet est d’utiliser les options de son navigateur, voir
des deux navigateurs. Netscape Composer permet de faire du HTML sans en
faire: le clic droit et la barre des tâches suffisent amplement à
construire une page complète sans avoir à apprendre les lignes
de codes adéquates : comme pour les métamoteurs, les options
sont exprimées en langage usuel (un peu à la façon
d’un traitement de texte). La seule règle à respecter est
de tout inscrire dans un tableau (invisible en choisissant des bordures
de 0 pixels) dont les dimensions seront exprimées en pourcentage
de la page (ou de la cellule) afin que la présentation s’adapte
aux tailles de tous les moniteurs. Netscape permet de visualiser son travail
en langage HTML mais sans qu’on puisse le modifier sauf à passer
sur le bloc-notes après un copier-coller. Par contre, avec Internet
Explorer, on peut directement modifier le HTML ce qui est très utile
lorsque l’on veut ajouter des compteurs, des bannières, des lignes
Java, etc. en faisant attention de ne pas alourdir ses pages. Le contenu consistera en
un classement, en fonction de ses propres critères, de toutes les
sites rencontrés et utilisés. Le plus simple est de mettre
le titre du site ou du document sous forme hypertexte (avec un lien vers
son URL) et un petit commentaire de quelques lignes. Cela peut paraître
fastidieux au premier abord. Mais, un fois le plan du document HTML déterminé,
il suffit de l’enregistre au « bureau » pour pouvoir facilement
l’atteindre. Lorsque l’on trouve une page intéressante, on réduit
la fenêtre du navigateur (il occupe, idéalement, la moitié
de l’écran), puis on ouvre son bookmak dans la partie restée
libre de l’écran (il faut faire cela sous Netscape afin de bénéficier
du Composer pour modifier directement la page). On entre le titre et le
commentaire du nouveau document, on surligne le titre avec la souri ? on
« insère un nouveau lien » (fonction de Netscape) en
faisant un copier-coller de l’URL du document choisi (cette méthode
évite de nombreuses erreurs). Lorsque le site est composé
de multiples frames (ou bordures), il est indispensable de les «
supprimer » car ils créent une adresse unique pour toutes
les pages du site ce qui rend impossible de trouver la localisation exacte
de celle qui nous intéresse. Pour ce faire, avec Netscape, on place
le curseur de la souris sur la page choisie ? clic droit ? choix de l’option
« ouvrir le cadre dans une nouvelle fenêtre » ? on obtient
alors l’adresse exacte de la page sélectionnée (on peut utiliser
également cette méthode pour imprimer ou enregistrer ce genre
de pages; il ne faut pas hésiter à modifier une page si on
veut en garder une trace correcte et sans oublis). La dernière étape,
la plus intéressante, consiste à télécharger
un logiciel FTP, à trouver un hébergeur et à mettre
ses pages HTML en ligne. Selon les sujets traités, il est conseiller
de mettre des « mouchards », gratuitement disponibles sur le
Web, (ils vous renseignent sur vos visiteurs: numéro IP, heure et
jour de visite, nationalité, navigateur, chemin de connexion, etc.).
Enfin, il ne faut pas hésiter à indiquer clairement ses (ou
des) coordonnés électroniques pour être tenu informé
des liens périmés et des liens que l’on ne connaît
pas (pourquoi ne pas créer un forum relié à son site
dédié à la recherche d’information dans son secteur
d’intérêt?). Si on a du temps, on peut
enfin s’essayer au référencent pour comprendre le fonctionnement
de tout ce que nous avons étudié dans cette première
partie. C’est un excellent moyen de comprendre et d’analyser le travail
effectué sur les sites que l’on visite dans sa recherche d’information. Pour résumer, sur
Internet, l’abondance et la carence , le meilleur et le pire, le vrai et
le faux, l’utile et le futile se côtoient au quotidien, sont, même,
intimement liés . Nous avons tenté d’en prendre conscience,
en analysant l’Information du Web, et de développer des méthodes
de travail adaptées. Maintenant, nous allons passer à l’application
concrète de cette première méthodologie en examinant
les liens unissant l’Intelligence Economique à Internet : le travail
d’Intelligence Economique utilisant Internet. |
|
Comme nous l’avons indiqué
en introduction, le problème de l’information s’inscrit dans le
concept plus vaste de l’Infoguerre… où tous les moyens sont bons
que ce soit la manipulation, la désinformation ou l’intrusion .
Ainsi, le Sunday Time du
02/06/96 s’est intéressé aux intrusions subies par des institutions
financières… qui se sont tout bonnement fait rançonnées
pour un butin total de 400 millions de £ : le marché était
simple : vous avez été pénétrés et nous
pouvons effacer tous vos fichiers, sauf si vous nous payez. Internet, c’est
aussi la « Cyberdélinquance ». Internet permet à
chacun de s’exprimer et de dénoncer ce que bon lui simple. Mais
s’agit-il toujours de simples citoyens ou d’associations de gentils écologistes.
On peut, par exemple, se demander qui est derrière la guerre subie
par Total contre son chantier en Birmanie… Il s’avère que les
méthodes de recherche ne sont pas tout. Ce ne sont que des modes
d’emploi mécaniques pour utiliser une machine ; pour schématiser,
il s’agit de machines communiquant entre elles grâce à l’intelligence
artificielle. Cela ne peut pleinement nous satisfaire dans la mesure où
nous ne fonctionnons pas par le biais de cette intelligence. On comprend alors la nécessité
d’adopter une vigilance critique, une méthodologie du soupçon
appliquée face à l’information obtenue sur le Web. Nous savons
que chacun est libre d’y mettre ce que bon lui semble sans qu’il existe
la moindre autorité de contrôle, surtout en ce qui concerne
la partie écrite du « Réseau ». Aussi peut-on
dire qu’ « il y a dans les canaux de communication une logique équilibrée
qui nous présente à la fois le oui et le non, l’amour et
la haine (…), bref ce que disait Esope quand il disait que la langue est
la meilleure et la pire des choses » . C’est en cela, également
que réside la richesse, au sens valeur ajoutée de l’Internet
: le pour et le contre qui s’y trouvent, qui s’y retrouvent permettent
d’avoir, automatiquement, une approche croisée de l’information
recherchée, ou à défaut, une approche multiformes.
Il faut l’accepter comme tel et non le rejeter au nom d’une trop grande
complexité. Il ne viendrait à l’idée de personne de
cantonner à une seule source après avoir décrété
que c’est elle et elle seule qui détient la vérité
urbi et orbi. L’avantage du Web est que lorsqu’on lance une recherche,
par le biais d’un métamoteur par exemple, tous ce qui contient les
mots clefs de notre recherche nous est indiqué : inutile de chercher
des versions alternatives d’un élément : elles le sont toutes,
par définition, les une par rapport aux autres. L’Internet est a
la fois le lieu et le vecteur de l’information alternative. Au delà, il est indispensable
de prendre conscience des enjeux sous-jacents. Ceux-ci peuvent aussi bien-être
économiques, politiques que sociaux ou culturels. Comment le savoir
? C’est impossible. C’est une question de principe pourrait-on dire. Rien
ne nous prouve que la page que nous visitons n’a pas été
détournée par un hacker qui lui a fait subir de subtiles
modifications dont le webmaster n’a pas eu conscience. Rien ne nous prouve
que des coquilles ne se sont pas glissées dans le corps du texte
comme cela peut arriver à n’importe quel support papier. On peut
également se trouver sur un site miroir dont l’adresse nous a volontairement
induit en erreur (il existe un marché florissant des noms de domaines
: il suffit de déposer tous les adresses possibles relatives à
une marque x ou y avant de les monnayer quand celle-ci se décide
à créer son site… ; il est d’ailleurs indispensable de déposer
toutes les adresses pouvant être celle de son site afin d’éviter
ce genre de parasitage) et dont le contenu pourra faire bien pire… Dans l’absolu, le Net n’est
en aucun cas le moyen ultime pour approfondir ses connaissances. D’ailleurs
si on n’en connaît pas assez sur le sujet recherché, il sera
impossible de poser les bonnes questions nécessaires pour une recherche
rapide et efficace. Pour note, on peut citer
des sites spécialisé dans la désinformation et qui
revendiquent cette lutte contre la désinformation. Ainsi, il en
existe un (http://www.esf.ch/ben/colere3.html)
qui s’insurge chaque fois que les propos tenus à la télévision
lui semblent mensongers ; un autre (http://home.worldcom.ch/~aderam/)
sur lequel on trouve des articles refusés par la presse suisse.
Les exemples pourraient ainsi se multiplier à l’infini surtout si
on commence à se tourner vers les sites « anti » (cf.
ceux des ONG, ceux des salariés en colère contre leur entreprises,
etc.) qui concourent à donner à l’information tirée
du Web sa valeur ajoutée à moindres frais. Pourtant, face à la
désinformation et à la difficulté de s’informer, cela
ne suffit pas : il vaut vraiment être un professionnel pour y voir
clair. |