dimanche 19 septembre 2004, par Marc-Alexandre Cartiant
L’exploitation des informations brutes comporte certaines difficultés pour un citoyen. Aussi le recours à d’autres sources d’information disponibles sur le Web semble indiquée.
Cette recherche obéit à des règles particulières : elle s’effectue potentiellement sur un nombre très élevé de documents très hétérogènes tant qualitativement que quantitativement. La logique de recherche et surtout d’indexation doit donc être différente de celle utilisée par une recherche limitée à un site.
Deux types de recherche sont disponibles : l’annuaire et le moteur de recherche.
L’annuaire classe les pages Internet par thèmes (le classement est ici plus abstrait que pour la « recherche thématique »). Ce classement est réalisé « à la main ». Le mode d’indexation a pour avantage de mieux cibler la recherche : un travail de contrôle de qualité est parfois réalisé et évite ainsi les pages Internet comprenant peu ou pas d’information.
Au cours des années récentes, le référencement dans les annuaires a coûté de plus en plus de temps et d’argent. En effet, il existe deux manières d’avoir son site affiché dans l’annuaire : soit dépenser une certaine somme afin d’avoir la garantie que le site Internet est référencé, soit « suggérer » le site Internet à l’annuaire...et le référencement n’est pas garanti et/ou prend beaucoup plus de temps qu’un référencement payant.
En revanche, au vu de la quantité de pages Internet existantes et du temps matériel nécessaire pour le contrôle par un être humain, les annuaires peuvent difficilement indexer aussi rapidement un nombre de pages Internet aussi grand qu’un moteur de recherche...ce qui exclut nombre de sujets d’actualité politique.
Les « moteurs de recherche » sont au cœur de la société de l’information : ils doivent trier, en théorie « objectivement », parmi un nombre croissant de sites Internet, une masse d’informations conséquente et présenter les résultats avec pertinence.
Par le passé, les moteurs de recherche indexaient les sites Internet de façon « naïve » : l’indexation se basait sur les titres, les mots clés indiqués par le site Internet, des termes trouvés sur la page indexée, ainsi que quelques règles statistiques.
L’ère des moteurs de recherche « intelligents » a réellement commencé avec Google. En effet, l’indexation des sites ne se base plus uniquement sur le contenu même des pages, mais sur leur « popularité » auprès des autres sites.
La popularité se définit ici par le nombre de sites Internet ayant établi un lien vers une page Internet associée à un titre ou mot clé. Plus une page se fait « pointer » par des sites Internet avec un titre associé identique, plus elle a des chances de paraître dans les résultats d’une requête.
De plus, les sites Internet ont une certaine pondération dans le pointage au niveau des moteurs de recherche : il suffit qu’un site connu pointe vers une page Internet pour que celle-ci apparaisse en première position dans les résultats.
Cet algorithme, trivial à première vue, a fait de Google le premier moteur de recherche utilisé : les résultats des requêtes de recherche sont, avec ce système, plus pertinents.
Bien entendu, d’autres subtilités sont appliquées pour l’indexation, mais dépassent le cadre du présent exposé.
Ce système d’indexation a néanmoins une contrepartie : les sites Internet (individuels ou associatifs) ayant une faible notoriété sont classés les derniers, quand ils ne sont pas purement et simplement exclus des moteurs de recherche...Ce qui n’est pas sans conséquence sur le degré de pluralisme que présente l’information trouvée. Internet se rapprocherait ainsi du monde réel : pour être connu, il faut faire de la « promotion » et avoir une approche entreprenariale offensive... avec toutes les obligations qui en découlent.
Un autre inconvénient, plus grave, résulte de ce système d’indexation : le risque de « google bombing ».
Ce terme désigne un groupement de sites Internet (lobbies et groupes de pression par exemple) voulant « forcer » des résultats du moteur de recherche google sur certains mots clés. Dans le cas de la LEN, un certain nombre de sites Internet, eux même référencés sur google, ont créé des liens vers le site Web du rapporteur de la LEN, Jean Dionis de Séjour, avec comme titre du lien « Député liberticide ». Le résultat est à la hauteur de l’espérance (ou de la perversité) des auteurs : lorsque l’expression « Député liberticide » est cherché avec google, le site Web du député (www.jeandionis.fr) arrive encore aujourd’hui (fin août 2004) en 1ère position dans les résultats...
Cet exemple illustre comment l’information peut être manipulée : il suffit qu’un groupe suffisamment déterminé « prenne » possession de certains mots clés pour aiguiller le citoyen vers des sites Internet où l’information est biaisée.
L’exploitation de l’information (à des fins participatives) présente d’autres et nombreux travers. Le principal est que l’information disponible, en amont de la promulgation de la loi, est déficiente et sous-exploitée, rendant dès lors difficile une participation effective du citoyen ordinaire.
Quant au pluralisme, il est vulnérable aux pressions (volontaires ou involontaires) résultant de la « sur-participation » de groupes dont la motivation n’est nullement un gage de représentativité et moins encore une mesure de l’intérêt général.
Le point de vue du citoyen « utilisateur » d’information ayant été évoqué, quid du citoyen « producteur d’information » ?
Aller à la suite : expression du citoyen sur internet