Accueil > Articles juridiques > Droit des nouvelles technologies > La démocratie participative > Démocratie participative >> I. E-démocratie >> B) Exploitation de l’inform

Démocratie participative >> I. E-démocratie >> B) Exploitation de l’information par la recherche >> centrée sur un site Web

vendredi 17 septembre 2004, par Marc-Alexandre Cartiant

Recherche centrée sur un site Web

Recherche orientée document

Dans le cas des documents contenant une information dense, il est nécessaire
d’avoir des outils de recherche suffisamment précis pour parvenir à un résultat
pertinent, en d’autres termes éviter « le bruit ».

La précision se définit par le fait que les documents
présentent des caractéristiques topiques (date, titre, mots-clés, catégorie,
occurrence de groupes de mots dans le texte) exploitables et combinables avec
un outil de rcherche textuelle.

La recherche textuelle peut être réalisée de deux
manières : soit par accès à une unité documentaire prédéterminée (décision
de justice par exemple), soit par la sélection de textes
contenant des mots situés à une certaine proximité les uns des autres.

La proximité peut se limiter à un paragraphe, un alinéa,
une phrase ou un intervalle de mots. Aussi la recherche de proximité doit-elle
être correctement jaugée selon le texte et sa nature : si l’intervalle est
trop restreint, il n’y aura pas ou très peu de résultats. Dans le cas
contraire, il y aura du « bruit ».

Ce type de recherche est très sensible aux différences de
mise en page : la distinction entre un paragraphe et un alinéa n’est pas
triviale. De plus, la proximité limitée à un intervalle de mots peut donner des
résultats se chevauchant sur deux paragraphes et / ou aliénas...créant ainsi du
bruit.

L’unité documentaire correspond à un découpage analytique
d’un document en groupes de mots. La proximité n’est donc plus basée sur des
mots, mais sur des groupes. En théorie, la recherche sur les unités
documentaires est plus appropriée : elles peuvent reprendre fidèlement la
structure du document et affiner ainsi les résultats. Toutefois les unités
documentaires sont définies uniquement au moment de l’indexation et sont
immuables par la suite.

L’unité documentaire peut être un attendu d’arrêt, un
considérant du Conseil constitutionnel, un article de loi ...Il est aussi
possible de qualifier une unité documentaire en lui attribuant des
mots-clés, rendant plus performante la
consultation, mais aussi et surtout la recherche d’un document (notions
implicites, synonymies...).

Pour que la recherche « orientée document » soit
efficace, l’appréciation de la valeur informative d’un document est donc
nécessaire pour mieux la structurer.

 

La recherche « orientée document » est possible
grâce au site Internet legifrance.gouv.fr, site officiel offrant une diffusion
très large des règles de droit.

 Legifrance.fr propose
notamment une proximité variable de la recherche sur documents (phrase et
intervalle de 9 mots).

Il demeure que le site legifrance.gouv.fr n’intègre les
informations qu’en aval du processus législatif.

En amont, la recherche « orientée document », notamment sur les site
des assemblées, est beaucoup plus difficile.

 

Recherche thématique des documents

Lorsqu’un site Internet comporte un grand volume
d’informations, un classement thématique à plusieurs niveaux est généralement
réalisé. Les thèmes créés sont rattachés à plusieurs mots clés.

Le site legifrance.gouv.fr a par exemple réalisé un
classement thématique s’appuyant sur diverses règles de droit. On a une relation 1 (le thème) à N (les
sources)...mais, on l’a dit, ces fonctionnalités ne sont malheureusement
disponibles que sur les textes juridiques en vigueur. 

En amont, pour les projets ou propositions de loi, la
relation est différente. On a une relation N (thèmes) à 1 (la source, le projet
ou proposition). La thématisation des projets et
propositions de loi est inexistante. Il en est donc de
même de la recherche thématique à ce niveau.

 

Présentation des résultats

La présentation du résultat est aussi importante que la recherche elle-même :
l’internaute doit pouvoir juger par lui même de la pertinence des résultats.
Le titre, l’extrait, les références, une mise en évidence des termes cherchés...
sont autant d’éléments dont la présentation doit être suffisamment évocatrice
pour aider l’internaute à choisir l’information qu’il souhaite consulter.

Les résultats proposés doivent tenir compte du niveau
d’abstraction des termes recherchés. Sur le site des assemblées, la recherche
sur un mot générique (« informatique ») devrait privilégier des
dossiers thématiques plutôt que des documents spécifiques. En revanche, si la
requête contient des mots précis tels que « loi de financement de la
sécurité sociale pour 200X », les documents spécifiques (projets de loi...)
devraient a priori être privilégiés parmi les résultats.

 

Aller à la suite : recherche sur l’ensemble des sites internet

Table des matières du chapitre

Table des matières générale


Remerciements et téléchargement de la version intégrale

SPIP | Se connecter | Plan du site | Suivre la vie du site RSS 2.0