ServiceDoc Info
Accueil du site > Articles juridiques > Droit des nouvelles technologies > La démocratie participative > Démocratie participative >> I. E-démocratie >> B) Exploitation de (...)

Démocratie participative >> I. E-démocratie >> B) Exploitation de l’information par la recherche >> centrée sur un site Web

vendredi 17 septembre 2004, par Marc-Alexandre Cartiant


Recherche centrée sur un site Web

Recherche orientée document

Dans le cas des documents contenant une information dense, il est nécessaire d’avoir des outils de recherche suffisamment précis pour parvenir à un résultat pertinent, en d’autres termes éviter « le bruit ».

La précision se définit par le fait que les documents présentent des caractéristiques topiques (date, titre, mots-clés, catégorie, occurrence de groupes de mots dans le texte) exploitables et combinables avec un outil de rcherche textuelle.

La recherche textuelle peut être réalisée de deux manières : soit par accès à une unité documentaire prédéterminée (décision de justice par exemple), soit par la sélection de textes contenant des mots situés à une certaine proximité les uns des autres.

La proximité peut se limiter à un paragraphe, un alinéa, une phrase ou un intervalle de mots. Aussi la recherche de proximité doit-elle être correctement jaugée selon le texte et sa nature : si l’intervalle est trop restreint, il n’y aura pas ou très peu de résultats. Dans le cas contraire, il y aura du « bruit ».

Ce type de recherche est très sensible aux différences de mise en page : la distinction entre un paragraphe et un alinéa n’est pas triviale. De plus, la proximité limitée à un intervalle de mots peut donner des résultats se chevauchant sur deux paragraphes et / ou aliénas...créant ainsi du bruit.

L’unité documentaire correspond à un découpage analytique d’un document en groupes de mots. La proximité n’est donc plus basée sur des mots, mais sur des groupes. En théorie, la recherche sur les unités documentaires est plus appropriée : elles peuvent reprendre fidèlement la structure du document et affiner ainsi les résultats. Toutefois les unités documentaires sont définies uniquement au moment de l’indexation et sont immuables par la suite.

L’unité documentaire peut être un attendu d’arrêt, un considérant du Conseil constitutionnel, un article de loi ...Il est aussi possible de qualifier une unité documentaire en lui attribuant des mots-clés, rendant plus performante la consultation, mais aussi et surtout la recherche d’un document (notions implicites, synonymies...).

Pour que la recherche « orientée document » soit efficace, l’appréciation de la valeur informative d’un document est donc nécessaire pour mieux la structurer.

 

La recherche « orientée document » est possible grâce au site Internet legifrance.gouv.fr, site officiel offrant une diffusion très large des règles de droit.

 Legifrance.fr propose notamment une proximité variable de la recherche sur documents (phrase et intervalle de 9 mots).

Il demeure que le site legifrance.gouv.fr n’intègre les informations qu’en aval du processus législatif.

En amont, la recherche « orientée document », notamment sur les site des assemblées, est beaucoup plus difficile.

 

Recherche thématique des documents

Lorsqu’un site Internet comporte un grand volume d’informations, un classement thématique à plusieurs niveaux est généralement réalisé. Les thèmes créés sont rattachés à plusieurs mots clés.

Le site legifrance.gouv.fr a par exemple réalisé un classement thématique s’appuyant sur diverses règles de droit. On a une relation 1 (le thème) à N (les sources)...mais, on l’a dit, ces fonctionnalités ne sont malheureusement disponibles que sur les textes juridiques en vigueur. 

En amont, pour les projets ou propositions de loi, la relation est différente. On a une relation N (thèmes) à 1 (la source, le projet ou proposition). La thématisation des projets et propositions de loi est inexistante. Il en est donc de même de la recherche thématique à ce niveau.

 

Présentation des résultats

La présentation du résultat est aussi importante que la recherche elle-même : l’internaute doit pouvoir juger par lui même de la pertinence des résultats. Le titre, l’extrait, les références, une mise en évidence des termes cherchés... sont autant d’éléments dont la présentation doit être suffisamment évocatrice pour aider l’internaute à choisir l’information qu’il souhaite consulter.

Les résultats proposés doivent tenir compte du niveau d’abstraction des termes recherchés. Sur le site des assemblées, la recherche sur un mot générique (« informatique ») devrait privilégier des dossiers thématiques plutôt que des documents spécifiques. En revanche, si la requête contient des mots précis tels que « loi de financement de la sécurité sociale pour 200X », les documents spécifiques (projets de loi...) devraient a priori être privilégiés parmi les résultats.

 

Aller à la suite : recherche sur l’ensemble des sites internet
Table des matières du chapitre
Table des matières générale

Remerciements et téléchargement de la version intégrale


Suivre la vie du site RSS 2.0 | Plan du site | Espace privé | SPIP | squelette