H2PTM (2007) Zaher

Une plateforme de recherche ouverte d’information

Hypertopic et Agoræ

Titre

Une plateforme de recherche ouverte d’information : Hypertopic et Agoræ

Auteurs

L’Hédi Zaher, Jean-Pierre Cahier et Manuel Zacklad

Affiliations

Tech-CICO  ICD,Université de technologie de Troyes, CNRS FRE 2848

12 Rue Marie Curie  BP 2060, 10010 Troyes Cedex

{zaher, cahier, zacklad}@utt.fr

Dans: actes du colloque H²PTM 2007 Hammamet; publié dans H²PTM07 : Collaborer, échanger, inventer

Sommaire

1 Introduction
2 RI, ROI et dispositifs associés
3 ROI et caractérisation des items
4 Application : Agoræ-CogDoc, un espace de recherche ouverte d’information
5 Architecture d’un système d’information documentaire pour la ROI
6 Conclusion
7 Bibliographie

Résumé: Nous avons proposé de reconsidérer la recherche d’information comme une activité cognitive située et distribuée, et avons présenté les premières expérimentations de comparaison entre moteur de recherche et hypertexte (Zaher, 2005). Nous avons ensuite proposé le concept de recherche ouverte d’information (Zaher, 2006), mettant l’accent sur l’interaction homme/système de support à la RI et alliant une recherche par moteur, par attribut et dans un hypertexte hiérarchisé. Dans cette contribution, nous présentons les derniers éléments de réflexion sur la ROI, ainsi que Hypertopic comme modèle formel pour des hypertextes supportant la ROI. Nous présentons aussi l’architecture d’un système basé sur Hypertopic ainsi qu’un cas réel de sa mise en œuvre appuyé sur l’outil Agoræ.
Mots-clés: recherche ouverte d’information, recherche d’information, Hypertopic, hypertexte.

English description

Abstract: We presented the first experiments of comparison between search engine and hypertext (Zaher, 2005). We proposed the concept of open information retrieval (Zaher, 2006). In this contribution, we present the last breakthroughs on the OIR, and Hypertopic as a formal model for hypertexts supporting the OIR. We present also the architecture of a Hypertopic based system as well as a real case of its implementation supported on the Agoræ tool.
Keywords: Open Information retrieval, Information seeking, information retrieval, Hypertopic, hypertext

Introduction

Notre problématique générale consiste à concevoir des outils interactifs et « ouverts » de recherche d’information interactifs. Nous considérons que cette question ne peut être entièrement résolue par l’automatisation de la tâche de RI, et nous nous intéressons alors aux contributions de l’ingénierie des connaissances et des approches orientées hypertexte. Nous élaborons donc un cadre théorique ainsi que des outils autour du concept de recherche ouverte d’information. La recherche ouverte d’information (ROI) est un champ de recherche que nous souhaitons développer au carrefour de plusieurs disciplines, en liaison directe avec de multiples initiatives et concepts (Web 2.0, Web socio sémantique) qui nous apparaissent convergents. Après avoir rappelé (§2) comment nous positionnons la ROI par rapport au champ disciplinaire de la RI et du point de vue des dispositifs nécessaires, nous développons plus en détail dans cet article l’idée de l’item comme le concept-pivot fondamental de la ROI (§3). Nous montrons comment cette hybridation peut être obtenue par une plateforme de ROI (Agoræ / Argos) dont nous explicitons les principes d’implémentation utilisant le protocole Hypertopic. Nous donnons pour cela (§4) un exemple d’application avec le cas du projet CogDoc, où un réseau d’enseignants mutualise des supports de cours à l’intention d’étudiants. Le modèle Hypertopic y est utilisé pour des caractérisations concurrentes de l’item « séance de cours », à la fois par des documents des attributs standards et des thématisations heuristiques et foksonomiques. Nous détaillons ensuite (§5) l’architecture informationnelle sous-jacente à cette application.

RI, ROI et dispositifs associés

La recherche d’information (RI), (de l’anglais Information Retrieval, récupération d’information), correspond à une famille de méthodes et techniques (cf. tableau 1) associées le plus souvent à l’étude des corpus, leur indexation et leur interrogation, pour localiser des informations pertinentes dans les documents de ces corpus. Il existe cependant d’autres façons de considérer la RI comme activité à l’instar de Rouet & Tricot (Rouet, 1998) qui mettent en avant les représentations et les processus cognitifs mis en œuvre par l’humain pour mener à bien cette activité. C’est cette perspective d’activité située et finalisée que nous avons adoptée pour définir la R.O.I (Zaher, 2006). Elle correspond en anglais à la notion d’information-seeking introduite par Marchionini en 1989 (Marchionini, 1989). Elle recouvre l’étude des aspects cognitifs et l’étude des artéfacts numériques qui instrumentent les tâches intervenant dans l’enquête. L’utilisateur ne sait pas a priori quel item est en mesure de répondre à son besoin, voire ne sait pas si un tel item existe. Son objectif est donc à la fois de découvrir et de construire cet item complexe. Si on s’interroge à présent sur les dispositifs les plus appropriés pour la ROI, une expérimentation comparative de dispositifs (Zaher, 2005) a montré qu’il n’y a pas d’effet décisif du type de dispositif sur le taux de réponses correctes : les utilisateurs d’un moteur proposent plus de réponses que ceux manipulant une carte de thèmes multi-points de vue ou un thésaurus, ce qui laisse penser que la navigation est plus coûteuse en temps qu’une requête. Par contre, la fiabilité des réponses avec une cartographie de thèmes semble supérieure. Mais la taille de la population n’a pas permis de confirmer statistiquement ce postulat.

Tableau . De la R.I. à la R.O.I.

Par ailleurs, une revue des dispositifs de RI proposés dans un ensemble de sites de commerce électronique (Zaher, 2006) indique que, souvent, plusieurs de ces dispositifs cohabitent dans la même interface homme-machine avec plus ou moins d’intégration. Très souvent, il s’agit d’un hypertexte qui catégorise les différents produits et propose donc une RI par navigation/exploration, d’un moteur de recherche plein texte et, éventuellement, d’un moteur de recherche « paramétrique ». Un exemple d’intégration est un moteur de recherche qui restreint sa portée à la catégorie sélectionné par l’utilisateur. (Chiaramella, 1997) a montré l’intérêt d’intégrer des requêtes dans un moteur de recherche et navigation dans un hypertexte et en a proposé un modèle. Nous partageons cette approche et soutenons l’hypothèse qu’il est possible d’améliorer encore la fiabilité et la qualité des tâches d’enquête dans l’information par une hybridation plus poussées d’outils dans un cadre de ROI, associant la recherche dans les documents, les requêtes sur les attributs et la navigation dans un hypertexte structuré hiérarchisé favorisant de multiples points de vue sur l’item qui émerge dans l’enquête. La thématisation du domaine étant souvent le résultat d’une capitalisation, un hypertexte ainsi structuré est susceptible de mieux correspondre aux tâches d’enquête dans le domaine, de contribuer à son apprentissage et sa compréhension. Notre hypothèse inclut donc aussi l’idée que la ROI, favorisant la découverte pendant l’enquête, augmente la sérendipité (Ertzcheid, 2003) et les chances de « trouver solution » à des problèmes pertinents pour les utilisateurs, bien que ceux-ci les découvrent « en marchant ».

ROI et caractérisation des items

La ROI stipule (Zaher, 2006) que pour leur enquête, les utilisateurs mobilisent des outils et des stratégies différentes, liés à trois grands modes de caractérisation de l’item qui est le « pivot » de l’enquête (ainsi, dans l’exemple CogDoc étudié au §4, des étudiants naviguant dans une base de ressources de formation « à la carte » vont peu à peu déterminer les cycles et séances de cours dont ils ont besoin et ce sont ces séances qui constitueront les items,). Si l’hybridation des différents dispositifs que nous venons d’évoquer est justifiée, c’est parce qu’ils renvoient à ces trois modes de caractérisation complémentaires de l’item, importantes pour l’aide au choix de l’item. L’usage des moteurs de recherche fait référence à une caractérisation documentaire des items par des ressources, sans qu’une catégorisation heuristique, ou une spécification formelle n’en soit faite. Cette caractérisation documentaire est d’ailleurs indépendante des modèles sous-jacents des documents numériques comme de ceux de ces moteurs (logiques, algébriques, probabilistes ou statistiques) et de leurs technologies (clustering, TF-IDF, etc.). Chercher avec des moteurs de recherche dans un corpus laisse peu, ou pas, apparaître ces modèles. Par exemple, un fragment documentaire trouvé par le moteur de recherche dans le Powerpoint d’une séance de cours orientera l’étudiant vers le choix de cette séance. Le recours aux requêtes formelles (e.g. sous la forme de la recherche paramétrique appelée encore recherche avancée) relève de la spécification référentielle des items faisant l’objet d’un accord définitionnel a priori. Par exemple, le nom de l’enseignant, la date de la séance ou le nombre d’étudiants ayant téléchargé le cours sont des attributs également susceptibles d’orienter l’étudiant vers le choix d’une séance. Le recours aux annuaires, aux cartes de thèmes ou aux nuages de mots folksonomiques relève de la thématisation heuristique (préalable ou au fil de l’eau) des items et/ou du domaine par un collectif, un corps de métier ou encore une institution. Par exemple les étudiants et les enseignants participant au portail CodDoc peuvent contribuer à la thématisation par des tags personnels qualifiant les séances. Les moyens de recherche associés à ces modes de caractérisation sont tributaires de la standardisation et à la formalisation plus au moins avancées de l’item mis en jeu dans l’enquête, de l’inscription de la tâche de recherche dans une activité plus ou moins répétitive, complexe, ritualisée, procédurale etc. Dans un contexte de vente de produit, par exemple, on pourra ainsi opposer des critères tangibles liés aux caractéristiques matérielles de l’équipement, aux critères plus immatériels liés à ses modalités d’appropriation et d’usage. Ces critères sont mobilisés dans les négociations entre différents acteurs (fabriquant, distributeur, client, ...) et de métiers ou rôles (ingénieur, vendeur, technicien du SAV,….). En revanche si l’on est dans un contexte de présentation d’une offre de cours « à la carte », l’item « séance de cours » possède une durée, un enseignant, une place dans le calendrier (attributs standards) , tout en se rattachant à des thèmes heuristiques qui relèvent de Points de vue institutionnels (thèmes officiels et UV du cursus de l’Université pour la formation initiale) ou personnels (mots-clés que choisit l’enseignant pour présenter son UV aux étudiants visés). Pour identifier les différents modes de définition et d’accès aux items, nous utilisons le langage de représentation Hypertopic (Zacklad, 2006), qui prévoit explicitement les trois dimensions de caractérisation que nous venons d’évoquer.

Application : Agoræ-CogDoc, un espace de recherche ouverte d’information

Cogdoc est un projet de site expérimental où un réseau d’enseignants distants mutualise des supports de cours sur le thème du « document ». Ce site utilise l’outil Agoræ pour des caractérisations concurrentes de l’item « séance de cours ». Agoræ échange avec un serveur (Argos) des flux XML selon le protocole Hypertopic (cf. §5), et les met en page pour générer des interfaces en mode Web. Les thématisations concurrentes (points de vue) sont celles qui sont proposées par les enseignants contributeurs, mais aussi celles des catégories officielles des catalogues d’université et celles qui émanent des élèves cherchant des modules de formation avec Agoræ. Agorae et Argos sont des logiciels libres développés par le laboratoire Tech-CICO. Les items de séances de cours sont présentés comme dans l’aperçu de la figure 1. Y figurent l’intitulé de l’item, les thèmes qui l’indexent et qui correspondent à sa thématisation heuristique, ses attributs standards (ici la fiche descriptive avec l’auteur et la dernière modification) correspondant à sa spécification référentielle, et la liste des ressources documentaires qui s’y rattachent correspondant à sa documentation (ici les « transparents »). Il est à remarquer que cet écran inclut des onglets correspondant aux différents points de vue et (sur la droite) un nuage de mots folksonomique. Il est proposé (sur la gauche) à l’utilisateur d’annoter l’item courant par un nouveau tag. Chaque expression du nuage est cliquable donnant ainsi accès à la liste de tous les items attachés au tag considéré.

Figure 1. Agoræ-Cogdoc : écran détaillant un item (item de la fig.5.)

La figure 2 montre comment Hypertopic (spécification : http://www.hypertopic.org/) décrit cet item, caractérisé par :

son nom, son auteur, sa date de mise-à-jour comme attributs standards ;
une ressource documentaire qui correspond aux transparents accessibles sur l’url indiquée
un thème indexant l’item (« Gestion de projets 'Connaissances et communautés ») qui est un thèe du point de vue « Université

Figure 2. Flux XML (Hypertopic) correspondant à un item.

Pour atteindre cet item, les utilisateurs le cherchent dans le nuage de mots, qui se modifie à mesure de la navigation et/ou en naviguant dans les différents points de vue proposés et leurs thèmes hiérarchisés. En consultant un point de vue, ils ont accès à tous les thèmes qui lui sont directement rattachés. Ensuite en consultant un thème (figure 3), ils ont accès à tous les thèmes qui lui sont directement reliés, appelés sous-thèmes, ainsi qu’aux différents items qui lui sont associés, et ainsi de suite. En consultant un item, ils ont accès à un écran similaire à la figure 1. La figure 3 montre aussi la progression de la navigation d’un thème (en arrière plan) vers un sous-thème, qui représente une feuille (thème en fin de parcours). La liste des items change et ne concerne que les items directement reliés au thème courant - et non à tous les items de la branche-, ainsi que le nuage de mots. À tout moment, les utilisateurs ont le choix d’invoquer un moteur de recherche, ou de chercher par les attributs dans un ensemble d’items limité à ceux indexés par le thème (ou le point de vue) sélectionné (ou l’un de ses sous-thèmes de manière récurrente). A terme, un moteur de recherche situé focalisera sa portée sur les items du point de vue ou du thème présélectionné, avec une meilleure intégration des modes de recherche, en utilisant les possibilités données par Hypertopic. Ces deux modes de recherche sont situés dans un « portlet » à la gauche de l’écran.

Figure 3. Agoræ : navigation progressive dans un point de vue (vers le thème illustré par la fig.4), Remarquer la recherche paramétrique et plein texte à gauche.

Pour générer le contenu correspondant au thème Gestion de projet ‘Connaissances et communautés’, Agoræ récupère le flux Hypertopic présenté sur la figure 4. Ce flux contient, en plus de l’intitulé du thème, le point de vue auquel il appartient, le thème parent qui l’indexe, et éventuellement la liste des sous-thèmes qu’il indexe, et la liste des items qui lui sont associé

Figure 4. Flux XML (Hypertopic) correspondant à un thème.

Architecture d’un système d’information documentaire pour la ROI

Nous détaillons dans cette dernière partie l’architecture informationnelle sous-jacente à l’application. Agoræ, la plateforme Web utilisée pour cette application, facilite la ROI et la co-construction de la cartographie de thèmes et est suffisamment générique pour être adaptée, via une redéfinition de l’item et de ses caractérisations, pour d’autres applications (e.g. pages jaunes des entreprises en Champagne-Ardennes, réseau scientifique diasporique UNESCO/DKN visible à l’url http://www.dkn.tech-cico.fr/, etc.). Agoræ est un client Hypertopic, au sens protocolaire, mettant en œuvre une navigation de proche en proche dans un hypertexte. Des moteurs de recherche usuels peuvent être intégrés tout comme des recherches paramétriques sur les attributs. La figure 5 montre l’organisation hypertextuelle proposée par Hypertopic. Les items sont indexés par des thèmes (topic) organisés d’une manière hiérarchique dans différents points de vue (viewpoint), dans un effort de thématisation heuristique préalable aux éventuelles ROI. Ces points de vue peuvent être portés par des collectifs (point de vue métier, d’une organisation, d’un corps de métier…) ou par des personnes (point de vue personnel)... Les items sont aussi décrits d’une manière référentielle par un ensemble d’attributs standards (attribute). L’association de valeurs (value) à ces attributs contribue à l’instanciation d’un item donné (i.e. par des couples d’attribut-valeur). De plus, des ressources documentaires (resource) sont associées à ces items.

Figure 5. Les trois modes de caractérisation de l’item et les différentes méthode dans le protocole Hypertopic (UML, diagramme de classes)

Ainsi conçu, Hypertopic facilite la recherche d’items de proche en proche par navigation dans les différents points de vue et thèmes de l’hypertexte structuré proposé. Les ressources rattachées aux items par le biais d’URI permettent un usage des technologies et des outils documentaires de RI (e.g. moteur PHPDig). L’association d’attributs standards aux items permet une recherche paramétrique. À cette organisation correspondent un ensemble de flux XML structurés (§4) pouvant être rendus sous la forme d’un hypertexte à l’utilisateur en situation d’enquête. L’interface de cet utilisateur inclura la progression de l’utilisateur dans cet hypertexte et des outils de recherche paramétrique, plein texte. Hypertopic est à la fois cette organisation d’un hypertexte autour de la notion « fondamentale » de l’item, et un protocole REST spécifiant les formats d’échange de données XML, les différentes requêtes et réponses des tiers et la communication entre un serveur gérant ses données structurés et un client jouant le rôle d’IHM. Ces échanges se font à travers HTTP, et un serveur Hypertopic se comporte comme un service Web. Il peut être syndiqué.

Conclusion

Dans cette contribution, nous avons présenté la notion de recherche ouverte d’information. Nous avons montré concrètement comment la ROI se base sur le concept de l’item et sur l’usage mixte et hybride de modes de caractérisation complémentaires de cet item. Nous avons montré, l’exemple CogDoc à l’appui, comment on peut concevoir des applications de ROI en utilisant Agoræ et Hypertopic, et ce en explicitant l’architecture informatique nécessaire pour cela. Nous postulons que l’usage des hypertextes correspondants à des cartographies multi-points de vue, structurant des connaissances cruciales pour les acteurs, marié à des moteurs de recherche, améliore davantage non seulement la fiabilité des activités de recherche l’information, mais aussi l’apprentissage du domaine, la reformulation des problèmes métier, la sérendipité et la découverte par les acteurs menant ces activités. Ce postulat reste à étayer par des expérimentations à échelle réaliste. Une autre perspective sera une meilleure intégration des trois modes de recherche, aussi bien en matière de convergence technologique qu’en termes d’ergonomie et d’interface homme-machine. Il s’agit là de pistes intéressantes pour les applications des hypertextes, qui les concilient aussi avec des technologies documentaires de type moteur de recherche.

Bibliographie

[Baeza-Yates, 1999] ↑ Baeza-Yates R. et Ribeiro-Neto B., « Modern Information Retrieval », ACM Press, New York (NY). 1999.

[Bates, 1989] ↑ Bates M.J., « The design of browsing and berrypicking techniques for the online search interface », Online Review, 13(5): 407–431. 1989.

[Belkin, 2000] ↑ Belkin N., « Helping People Find What They Don't Know », Communications of the ACM, vol. 43, no. 8, ACM, ISSN 0001-0782, pp 58-61. 2000.

[Cahier, 2005] ↑ Cahier J.-P., « Ontologies sémiotique pour le Web socio sémantique: étude de la gestion coopérative des connaissances avec des cartes hypertopiques », Thèse en informatique de l’université de technologie de Troyes. 2005.

[Caro, 2005] ↑ Caro S., « Accélérer la recherche d’information grâce aux dispositifs d’interaction », Actes de la conférence Hypertexte et Hypérmédia, (H2PTM’05), Hermès Science - Lavoisier, ISBN 2-7462-1244-7, pp. 382-393. 2005.

[Chiaramella, 1997] ↑ Chiaramella Y., « Browsing and querying: two complementary approaches for multimedia information retrieval », Hypertext-Information Retrieval- Mutimedia, HIM’97. 1997.

[Choo, 2000] ↑ Choo C.W., Detlor B. et Turnbull D., « Information seeking on the Web: an integrated model of browsing and searching », First Monday, vol 5, no 2, February 2000.

[Ellis, 1993] ↑ Ellis D., Cox D. et Hall K., « A Comparison of the Information Seeking Patterns of Researchers in the Physical and Social Sciences », Journal of Documentation, vol. 49, n. 4, pp. 356-369. 1993.

[Ertzscheid, 2003] ↑ Ertzscheid O. et Gallezot G., « Chercher faux et trouver juste, sérendipité et recherche d’information », Atelier D2 « communication et complexité », CIFSIC, Bucarest. 2003.

[Kolmayer, 1998] ↑ Kolmayer E., « Démarche d’interrogation documentaire et navigation », Actes quatrième colloque Hypermédias et Apprentissage, p.121-134. 1998.

[Marchionini, 1989] ↑ Marchionini G., « Information seeking strategies of novices using a full-text electronic encyclopedia », Journal of the American Society for Information Science, vol. 40, no. 1, pp. 544-66. 1989.

[Melucci, 1999] ↑ Melucci M., « An Evaluation of Automatically Constructed Hypertexts for Information Retrieval », Information Retrieval, Vol. 1, Numbers 1-2, pp 91-114, Springer Netherlands. 1999.

[Rouet, 1998] ↑ Rouet J.-F. et Tricot A., « Chercher de l’information dans un hypertexte : vers un modèle des processus cognitifs », Hypertextes et Hypermédias, n° hors série, pp. 57-74. 1998.

[Van Rijsbergen, 1989] ↑ Van Rijsbergen C.J., « Information Retrieval », Butterworths, London (UK). 1989.

[Zacklad, 2007] ↑ Zacklad M., Bénel A., Cahier J.-P., Zaher L.H., Lejeune C. et Zhou C., « Hypertopic : une métasémiotique et un protocole pour le Web socio-sémantique », Actes des 18èmes journées francophones d'Ingénierie des Connaissances, Grenoble, juillet 2007.

[Zaher, 2005] ↑ Zaher L.H., Cahier J.-P. et Zacklad M., « Vers une évaluation des schémas de classification pour la gestion de l’information métier », Actes de la conférence Hypertexte et Hypermédia, (H2PTM’05), Hermès Science - Lavoisier, pp. 365-379. 2005.

[Zaher, 2006] ↑ Zaher L.H., Cahier J.-P. et Zacklad M., « Information retrieval and e-service : Towards open information retrieval », Proceedings of International Conference on Service Systems and Service Management, IEEE, pp. 41-46. 2006.

H2PTM (2007) Zaher

Sommaire

Introduction

RI, ROI et dispositifs associés

ROI et caractérisation des items

Application : Agoræ-CogDoc, un espace de recherche ouverte d’information

Architecture d’un système d’information documentaire pour la ROI

Conclusion

Bibliographie

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils