Le “Document” à l’ère de la différenciation numérique 14e colloque international sur le document électronique Auteurs / Editors :

Mostafa Bellafkih, Joël Gardes, Mohamed Ramdani, Khaldoun Zreik


Edité par / Published by :

europia Productions 15, avenue de Ségur 75007 Paris, France

Tel +31 1 45 51 26 07

Fax +31 1 45 51 26 32

Email: info@europia.fr http://www.europia.fr http://www.europiaproductions.com


ISBN13 : 979-10-90094-07-9

© 2012 europia Productions

Tous droits réservés. La reproduction de tout ou partie de cet ouvrage sur un support quel qu'il soit est formellement interdite sauf autorisation expresse de l’éditeur : Europia Productions.


All rights reserved. No part of this publication may be reproduced, stored in a retrieval system or transmitted in any form or by any means, electronic, mechanical, photocopying, recording or otherwise without the prior written permission of the publisher Europia Productions.


Le “Document” à l’ère

de la différenciation numérique

14e colloque international sur le document électronique


Mostafa BELLAFKIH, Joël GARDES, Mohamed RAMDANI, Khaldoun ZREIK


image


Présidents du colloque CiDE.14 Mostafa BELLAFKIH, INPT, Maroc Joël GARDES, Orange, France

Mohamed RAMDANI, Université Mohamadia, Maroc Khaldoun ZREIK, Université Paris 8, France


Comité d’organisation local

Mostafa BELLAFKIH, INPT, Maroc

Mohamed ERRAIS, INPT et Université Mohamedia, Maroc Ferdaous LAHMAR, CITU-Paragraphe, Université Paris 8, France Mohamed RAMDANI, Université Mohamedia, Maroc

Brahim RAOUYANE, INPT et Université Mohamedia, Maroc Karima TOUNSI, INPT, Rabat, Maroc


Comité Permanent des colloques CiDE Ghislaine AZEMARD, Université Paris8, France Mostafa BELLAFKIH, INPT, Maroc

Jean CAELEN, CLIPS-IMAG, Grenoble, France Jacques DUCLOY, DRRT Lorraine, France Patrice ENJALBERT, Université de Caen, France Mauro GAIO, Université de Pau, France

Joël GARDES, Orange, France Jean-Luc HAINAUT, Belgique

Maryvonne HOLZEM , Université de Rouen, France Madjid IHADJADENE, Université Paris 8, France Peter KING, Université de Manitoba, Canada Jacques LABICHE, Université de Rouen, France Abdelkarim MEZIANE, CERIST, Algérie

Mustapha MOJAHID, Université de Toulouse Le Mirail, France Ghassan MOURAD, Université Libanaise, Liban

Giovanni DE PAOLI, Université de Montréal, Canada Jean-Pierre RAYSZ, Jouve, France

Jean Marc ROBERT, Ecole Polytechniques – Université de Montréal, Canada Zaidi SAHNOUN, Université de Constantine, Algérie

Maurice SZMURLO, Orange, France Loïc THOMAZO, Orange, France

Eric TRUPIN, Université de Rouen, France Christophe TURBOUT, Université de Caen, France

Jacques VIRBEL, Université de Toulouse Le Mirail, France Jean VIVIER, Université de Caen, France

Christine VANOIRBEEK, EPFL, Suisse Manuel ZACKLAD, CNAM-Paris, France

Khaldoun ZREIK, Université Paris8, France (Coordinateur)


TABLE DES MATIERES

Introduction 5

Mostafa BELLAFKIH, Joël GARDES, Mohamed RAMDANI, Khaldoun ZREIK

Partie 1 - Indexation sémantique 9

« Un modèle sémantique pour l'indexation

de document arabes et anglais » 11

Taher ZAKI, Abdellatif ENNAJI, Stéphane NICOLAS, Driss MAMMAS

« Approche d’indexation automatique d’informations pédagogiques à partir de documents » 25

Boutheina SMINE, Rim FAIZ, Jean-Pierre DESCLES

« Indexation sémantique de documents textuels » 43

Fatiha BOUBEKEUR, Wassila AZZOUG, Sarah CHIOUT, Mohand BOUGHANEM

Partie 2 - Document interactif 61

« Extension d’un algorithme Diff & Merge au Merge Interactif » 63

Xuan TRUONG VU, Pierre MORIZET-MAHOUDEAUX,

Joost GEURTS , Stéphane CROZAT


« La métaphore dans les relations intermédiatiques :

quelles remédiatisations interactives ? » 83

Pergia GKOUSKOU-GIANNAKOU


« LaSuli : un outil pour le travail intellectuel » 91

Aurélien BENEL, Jean-Pierre CAHIER, Matthieu TIXIER


Partie 3 - Document participatif 107

« Analyse exploratoire d'un wiki académique :

le cas d'EFRARD 109

Kahina BELGAID

« Les références bibliographiques dans Wikipédia » 115

Gilles SAHUT

« Enrichissement sémantique

du corpus iSPEDAL » 125

Abd El Salam AL HAJJAR, Mohammad HAJJAR, Zeinab ABDEL NABI, Georges LEBBOS

Partie 4 - Aspect cognitif du document numérique 133

« Terminologie hypertexte :

dynamique temporelle d'une taxonomie » 135

Nathalie PINEDE, David REYMOND,

Benoit LE BLANC, Véronique LESPINET-NAJIB


« Un modèle d'architecture de pages web

pour une accessibilité augmentée destinée aux non-voyants » 153

Mustapha MOJAHID, Bou Issa YOUSSEF, Bernard ORIOLA, Nadine VIGOUROUX


Partie 5 - Pratique du document numérique

dans l'univers de la recherche 171


« Pratiques de lecture numérique et usages

des technologies de l’écrit chez le chercheur tunisien » 173

Abderrazak MKADMI, Besma BSIR


« Présentation de l'information

comme support d'aide à des processus cognitifs » 189

Mustapha MOJAHID, Nesrine NOUGHI, Philippe BOISSIERE


« Tendances lourdes et tensions

pour les filières du document numérique » 205

Ghislaine CHARTRON, François MOREAU


Partie 6 - Edition hypertextuelle 219

« Ré-édition de Chrestien de Lihus dans l'hypertexte » 221

Thierry DAUNOIS


« Formalisation des processus d’éditique :

Proposition d’un guide d’assistance à la formalisation

de processus d’éditique à travers la transposition contextuelle

de la notion de veille vue comme un système cybernétique » 237

Sébastien BRUYERE, Vincent OECHSEL


« Accès aux collections de presse ancienne :

une étude exploratoire » 249

Céline PAGANELLI, Evelyne MOUNIER, Stéphanie POUCHOT


Introduction

Le document à l’ère de la différenciation numérique

La tenue de CIDE à Rabat cette année revêt une valeur symbolique particulière : la première édition de notre colloque s’est tenue au même endroit à la fin du XXème siècle (1998) et, depuis, 13 ans ce sont écoulés au cours desquels le concept de document, sa perception ainsi que ses pratiques ont évolué, voire, subit des mutations.

Les bibliothèques numériques sont désormais une « réalité » en progression permanente et non plus des projets. Le succès des dispositifs collaboratifs de type Wiki confirme la nécessité et la volonté croissantes de partager des connaissances, même si la valeur éditoriale des contenus reste encore sujette à questions.

CIDE a vécu ces treize ans que l’on pourrait dorénavant qualifier les années du « big bang » des télécommunications mobiles et, en particulier, de terminaux que l’on considérait encore d’intelligents en 1998, quand on décrivait à quoi ils allaient ressembler et qui, aujourd’hui, s’appellent

« smartphones » ou « tablettes ».

Concomitamment ces terminaux ont redonné, et ceci peu paraître de prime abord paradoxal de l’écrire, une place de choix au geste. Les interfaces sont largement tactiles, non seulement pour saisir de l’information, mais aussi, pour commander le système de l’on tient au creux de sa main et pour manipuler les données affichées à l’écran.

N’y a-t’il pas ici une meilleure illustration d’une des thématiques récurrente de CIDE, à savoir, le concept de document dynamique et interactif ? En y réfléchissant, ce concept n’est rien d’autre que l’interface utilisateur de nos terminaux mobiles ainsi que des nouvelles générations d’ordinateurs personnels qui tendent à mettre à mal progressivement le concept de clavier et de souris, en offrant également la possibilité de saisir et de manipuler directement des objets graphiques ou symbolique représentant de l’information.

Bref, tout ceci avait été pressenti comme « toile de fond » du document numérique lors des différentes éditions de CIDE. Mais un aspect de plus a surgi du fait de cette banalisation de l’information numérique et de l’énorme puissance de calcul et de stockage des terminaux : l’utilisateur destinataire de l’information désire s’approprier totalement le contenu restitué et accepte de moins en moins de se plier aux contraintes de l’émetteur.

Qu’est-ce que cela signifie dans notre concept de document ?

La personnalisation de la présentation de l’information devient une problématique centrale, en ce sens que le contenu restitué doit être non seulement adapté à la nature du terminal sur lequel le document s’affiche, mais aussi, aux capacités de lecture et de manipulation du contenu de l’utilisateur en fonction de sa situation de déficience permanente

Le “Document” à l’ère de la différenciation numérique



(handicap) ou temporaire (communication « bruitée »). Tout ce travail d’adaptation fait que l’on ne communique plus l’information au travers de messages et de signaux préétabli, mais au travers d’une médiation qui se traduit par autant d’instanciation de la présentation de l’information que de situations et de contextes d’usages.

Il devient indispensable de préserver des notions d’authenticité et d’intangibilité de l’information, puisque la présentation de celle-ci n’est plus fixée a priori lors de la composition du document, à l’instar de la chose imprimée ; mais est reconstruite dès que l’utilisateur y accède par l’intermédiaire de ses propres moyens techniques.

L’extension « naturelle » de cette personnalisation est, toujours, la multimodalité. Ici, on touche aux mécanismes intimes de l’interaction homme machine en posant clairement la question de l’efficacité du

« canal de communication » qu’est le document numérique ou l’interface homme machine et du maintien de la conformité de l’information transmise par ce canal. Prenons simplement la vocalisation d’un extrait de livre. La première condition est de disposer d’un texte cohérent et conforme à la source. La deuxième condition est d’offrir à l’utilisateur une sorte de « balisage » du document audio lui permettant de se repérer et ce balisage remet en avant le récit du texte. Ce dernier, s’il est monocorde, égare l’utilisateur, alors que s’il contient une prosodie bien adaptée, permet à notre utilisateur de s’approprier la « lecture » audio du document.

Au départ : une information à transmettre en la codant. A l’arrivée, une information restituée selon de profonds critères de personnalisation tout en préservant conformité et authenticité. Ainsi, ce n’est pas l’information elle-même qui se différencie en fonction des contextes de situation et d’usage du numérique, mais sa présentation : une même information revêt désormais une large variété de présentations dont nous devons tenir compte. Cette variété dépend du codage que l’on adopte. Historiquement, ce codage, pour le document, correspondait à tout l’art de l’éditeur associé à celui de l’imprimeur. L’éditeur garantissait la conformité à l’œuvre et l’imprimeur fixait ces marques de conformité sur un support intangible. Avec le numérique, le contenu se réédite autant de fois que l’on y accède : que deviennent les marques de conformité et d’authenticité ? Par quels mécanismes peut-on préserver la conformité ? Quelle est « l’autorité » permettant de garantir l’authenticité ?

L’utilisateur « ouvrant » un document, ouvre en fait, un fichier contenant des instructions codées. Le document est devenu une sorte de « kit d’assemblage » de l’information, mais est-on certain que le « mode d’emploi », on devrait dire les « modes d’emplois » de montage de ce kit a été également fourni ?

Ainsi peut-on résumer le « cas » du document numérique. Il a conservé sa vocation historique de communication de connaissances (document venant de doceo, docere : communiquer pour enseigner). Mais

Introduction



désormais, le document, devenu multi[media, modal, lingue, culturel, …] (pardon pour cette pseudo écriture), n’est plus qu’une instance dépendant du contexte de la communication. C’est la raison pour laquelle nous avons proposé de parler d’ère de la différenciation numérique pour cette édition de CIDE. L’information se comporte comme une cellule souche en biologie, évolue en autant de présentations fonctionnelles qu’il y a d’usages et de contextes. Ceci ouvre la voie à de vastes champs de recherche qui, on peut le parier, nous mènent aux frontières des théories de l’information actuelles en nous faisant découvrir les limites de tous nos modèles de documents. En effet, la présentation de l’information devient relativisée aux contextes d’utilisation et de personnalisation du contenu.


Partie 1 - Indexation sémantique


Un modèle sémantique pour l’indexation de documents arabes et anglais


Taher ZAKI

Laboratoire IRF-SIC, Université Ibn Zohr Agadir, Maroc LITIS EA 4108, Université de Rouen, France


Abdellatif ENNAJI

LITIS EA 4108, Université de Rouen, France


Stéphane NICOLAS

LITIS EA 4108, Université de Rouen, France


Driss MAMMASS

Laboratoire IRF-SIC, Université Ibn Zohr Agadir, Maroc


Résumé : Nous présentons ici un système pour l’indexation contextuelle et sémantique de documents en langue arabe et anglais, en se basant sur le voisinage sémantique des termes et l'utilisation d'une modélisation à base radiale. L’usage des graphes et les dictionnaires sémantiques améliore considérablement le processus de l’indexation. Dans ce travail, nous avons proposé une nouvelle mesure TFIDF-Okappi-ABR qui tient en compte la notion de voisinage sémantique à l’aide d’un calcul de similarité entre termes en combinant le calcul du TF-IDF-Okappi avec une fonction noyau à base radiale afin d’identifier les concepts pertinents qui représentent le mieux un document. Des résultats préliminaires et prometteurs sont données sur 2 bases de textes de presse en langue Arabe et Anglaise qui montrent de très bonnes performances par rapport à la littérature.


Mots-clés : Dictionnaire, fonction noyau, formule d’Okappi, graphe sémantique, indexation, TF-IDF, voisinage sémantique.


  1. Introduction


    La grande masse d’informations textuelles publiées sur le réseau mondial exige la mise en œuvre de techniques efficaces pour l’extraction d’informations pertinentes contenues dans de grand corpus de textes. Le but de l'indexation est de créer une représentation permettant de repérer et retrouver facilement l'information dans un ensemble de documents.


    On utilise cette indexation le plus souvent dans les systèmes de recherche d'informations, mais cette indexation peut également servir à comparer et classifier des documents, proposer des mots-clés, faire une synthèse automatique de documents, calculer des co-occurrences de termes… Dans ce papier, nous allons définir un formalisme statistique pour le traitement de documents textuels en arabe et en anglais, et montrer comment ce formalisme peut servir pour le traitement de différentes problématiques telles que l'indexation ou la classification. Notre travail se positionne dans le cadre de la recherche d’information à savoir l’apprentissage statistique qui permet le développement de méthodes génériques utilisables facilement sur différents corpus. Ce formalisme permet d’exploiter à la fois la structure et le contenu textuel de ces corpus.


  2. Phase d’indexation


    1. Problématique

      L’indexation est définie comme l’opération qui décrit et caractérise des données résultant de l’analyse du contenu d’un document ou un fragment de document, par des éléments d’un langage documentaire ou naturel en repérant les thèmes présents dans ce document (AFNOR, 1993). L’objectif est de trouver les termes qui caractérisent le mieux le contenu d’un document. Nous nous intéressons donc à la prise en compte des informations explicites autour du texte, à savoir la structure et la répartition des termes, ainsi qu’aux informations implicites, à savoir la sémantique.


    2. Les étapes du processus


      image


      Figure 1 : le Processus de l’indexation


      Le système mis au point consiste en 5 étapes fondamentales tel que illustré sur la figure 1 :


      1. Base documentaire (Apprentissage et test)

        Cette base est un corpus de documents de presse (the Associated Press (AP)) collectée à partir d'internet.


      2. Prétraitements (Extraction des termes)

        Cette phase consiste à appliquer à l’ensemble du texte une analyse morphologique (lemmatisation, stemming) en premier lieu et un filtrage des termes extraits en deuxième lieu. Ce traitement est nécessaire en raison des variations dans la façon dont le texte peut être représenté en arabe.

        La préparation du texte comprend les étapes suivantes : Les fichiers texte sont converti en codage UTF-16.

        Les signes de ponctuation, les signes diacritiques, les non-lettres et les mots vides sont éliminés.

        La racinisation des termes restants est opérée à l’aide du stemmer de Khoja (Khoja, 1999) pour les documents arabes, et le stemmer de Porter (porter, 1980) pour les documents anglais.


      3. Espace de Représentation

        Cette étape permet d'adopter une représentation vectorielle statistique du document à partir des termes retenus pour le représenter. Pour cela, nous avons étendu le modèle vectoriel de Salton en adaptant le calcul du TF-IDF par une combinaison du TFIDF et la formule d’Okappi avec une fonction noyau. Ensuite, pour éviter les problèmes combinatoires liés à la dimension de cet espace de représentation (Sebastiani, 2000) (Deerwester 1990), (Blei, 2003), nous avons adopté une approche de seuillage de fréquence (Document Frequency Thresholding) pour réduire cette dimension.


      4. Classification

        Pour la phase de classification, nous avons dans cette version préliminaire de notre prototype adopté l'algorithme simple des K plus proches voisins (kppv) pour sa simplicité et pour pouvoir évaluer la pertinence de nos choix de représentation. Nous avons dû également faire le choix d'une métrique adaptée à ce contexte qui est l’operateur de Dice en l'occurrence, dont l'expression est :


        image (1)


        Où |Pi| est le nombre de termes dans le profile Pi

        |PiΛPj| est le nombre de termes d’intersection entre les deux profiles Pi et Pj

      5. Validations

      Pour la validation du prototype, nous avons utilisé une base d’apprentissage très réduite comportant trois thèmes différents ( sport, politique, économie et finances). Pour la phase de test, nous avons travaillé sur une base de 400 documents de presse (Associated Press) collectés à partir d’internet.


    3. Pondération des unités index

      La manière la plus simple pour calculer le poids d’un terme est de calculer sa fréquence d’apparition car un terme qui apparaît souvent dans un document peut être pertinent pour caractériser son contenu. Plusieurs fonctions de pondération de termes ont été proposées. Nous nous intéressons au classique TF-IDF (term frequency - inverse document frequency) utilisé dans le modèle vectoriel que nous adaptons dans notre travail. Il existe un certain nombre de variantes de TFIDF (Seydoux, 2006). Les critères retenues pour calculer le poids d’un terme sont :

      • Une pondération locale qui détermine l’importance d’un terme dans un document. Elle est généralement représentée par sa fréquence (tf).

        image

      • Une pondération globale qui détermine la distribution du terme dans la base documentaire. Elle est généralement représentée par l’inverse de la fréquence des documents qui contiennent le terme (idf).


      (2)


      tf (i, j) est le term frequency, c'est-à-dire le nombre de fois que le terme ti apparaît dans le document dj , et idf(i) est l'inverse document frequency, c'est-à-dire le logarithme du rapport entre le nombre N de documents dans le corpus et le nombre Ni de documents qui contiennent le terme ti. Ce schéma d'indexation donne plus de poids aux termes qui apparaissent avec une haute fréquence dans peu de documents.

      L'idée sous-jacente est que de tels mots aident à discriminer entre textes de différents thèmes. Le tfidf a deux limites fondamentales : la première est que la dépendance du term frequency est trop importante. Si un mot apparaît deux fois dans un document dj, ça ne veut pas nécessairement dire qu'il a deux fois plus d'importance que dans un document dk où il n'apparaît qu'une seule fois. La deuxième est que les documents plus longs ont typiquement des poids plut forts parce qu'ils contiennent plus de mots, donc les term frequencies tendent à être plus élevés. Pour éviter


      ces problèmes, nous avons adopté une nouvelle technique d'indexation connue comme la formule d'Okapi (Robertson, 2000) :


      image(3)

      NDL( d j ) est la longueur normalisée de dj , c'est-à-dire sa longueur (le nombre de mots qu'il contient) divisée par la longueur moyenne des documents dans le corpus.


      - La mesure N-Gramme

      La notion de n-grammes a été introduite par (Shannon, 1948) et est souvent utilisée pour la prédiction d’apparition de certains caractères en fonction d'autres caractères. Les N-Gram sont des séquences de termes dont la longueur est N. Par exemple, l'utilisation des N-Gramm sur le mot « TEXT » est :

      bi-grams _T, TE, EX, XT, T_ tri-grams_TE, TEX, EXT, XT_, T

      quad-grams _TEX, TEXT, EXT_, XT , T

      Les tri-grams pour le mot نيعدوملا sont : ا مل ,ومل , دوم , عدو ,

      يعد ,نيع

      La méthode des N-gramme offre l'avantage d'être une technique indépendante de la langue et permet ainsi une recherche basée sur un segment de mot.

      Les systèmes basés sur les n-grammes n’ont pas besoin des prétraitements qui consistent à l’élimination ni des mots vides, ni au Stemming, ni à la lemmatisation, qui sont indispensables pour avoir des performances correctes dans les systèmes à base de recherche de mots (key matching). Pour les systèmes n-grammes, de nombreux travaux ont montré que les performances ne s’améliorent pas en procédant à des traitements d’élimination des "mots vides", de "Stemming" ou de lemmatisation. Nous avons donc mis au point une version à base de N- grammes de notre système pour comparaison.


  3. Ressources sémantiques


      1. Dictionnaire sémantique auxiliaire

        Nous avons mis au point un dictionnaire sémantique auxiliaire qui est un dictionnaire hiérarchisé contenant un vocabulaire normalisé sur la base de termes génériques et de termes spécifiques à un domaine. Il ne fournit qu'accessoirement des définitions, les relations entre termes et leur choix l'emportant sur les significations. Les relations communément exprimées dans un tel dictionnaire sont :

        les relations taxonomiques (de hiérarchie).


        les relations d’équivalence (synonymie).

        les relations d’association (relations de proximité sémantique, proche-de, relié-à, etc.).


      2. Construction du dictionnaire

        Le dictionnaire est initialement construit manuellement sur la base des termes retrouvés dans la base d'apprentissage. Mais ce dictionnaire peut être enrichi au fur et à mesure durant la phase d’apprentissage et la classification pour donner plus de flexibilité à notre modèle.

        Prenons par exemple le thème finances et économie, le dictionnaire construit est comme suit :


        image

        economy, finances, enterprise, industrialism, market, capitalism, socialism, system, brevity, conservation, downsizing, financial status, productive power

        finances, budget, account, bill, financing, money, reckoning, score, banking, business, commerce, economic science, economics, political economy, investment

        budget, account, bill, calculate, estimate, finance, money, matters, reckon, reckoning, score, assortment, bunch, balanced, cheap,operating budget

        ….

        ….


        Figure 2 : Dictionnaire de finances et économie


      3. Les réseaux sémantiques

        Les réseaux sémantiques (Quillian, 1968) ont été conçus à l’origine comme un modèle de la mémoire humaine. Un réseau sémantique est un graphe étiqueté (un multigraphe plus précisément). Un arc lie (au moins) un noeud de départ à (au moins) un noeud d’arrivée. Les relations vont des relations de proximité sémantique aux relations partie-de, cause-effet, parent- enfant, etc.

        Les concepts sont représentés sous forme de noeuds et les relations sous forme d’arcs. Les liens de différentes natures peuvent être mélangés ainsi que les concepts et instances.

        Dans notre système, nous avons utilisé la notion de réseau sémantique comme outils de renforcement du graphe sémantique issu des termes extraits des documents d'apprentissage pour améliorer la qualité et la représentation des connaissances liées à chaque thème de la base documentaire.


      4. Construction du graphe

    Il est important de noter que l’extraction des termes index se fait dans l'ordre de leur apparition dans le document. Les figures 3 et 4 illustrent ce processus pour un exemple de document du thème finances et économie


    WASHINGTON (Reuters) – President Barack Obama

    Business

    signed a $30 billion small business lending bill into law on

    Bill

    Monday, claiming a victory on economic policy for his

    Economic

    fellow Democrats ahead of November congressional

    Fund

    elections.

    Businesses

    The law sets up a lending fund for small businesses and

    Tax

    includes an additional $12 billion in tax breaks for small

    Companies

    companies."It was critical that we cut taxes and make

    Taxes

    more loans available to entrepreneurs," Obama said in

    Entrepreneurs

    remarks at the White House. "So today after a long and

    Business

    tough fight, I am signing a small business jobs bill that

    Jobs

    does exactly that."

    Bill

    Obama is trying to show voters, who are unhappy about 9.6

    Unemployment

    percent unemployment, that he and his party are doing

    Economy

    everything they can to boost the tepid U.S. economy.

    Bill

    Democrats said they backed the bill because small

    Businesses

    businesses had trouble getting loans after the financial

    loans

    crisis that began in December 2007.

    financial crisis

    They estimate the incentives could provide up to $300

    incentives

    billion in new small business credit in the coming years

    business credit

    and create 500,000 new jobs.

    jobs


    Figure 3 : texte brute Figure 4 : Texte après prétraitement et filtrage


    La construction du graphe sémantique tient en compte l'ordre de l'extraction et la distribution des termes dans le document. Chaque terme est associé à une fonction à base radiale qui fixe la proximité à un certain voisinage (zone d'influence sémantique du terme). Ce graphe est ensuite enrichie via le dictionnaire sémantique auxiliaire par l'adjonction de connexions. La correspondance requête- document se fait par une projection des termes de la requête sur le graphe sémantique. Si ces termes sont dans une zone d'influence sémantique forte, alors ce document est pertinent à cette requête. Dans ce qui suit nous allons définir notre fonction à base radiale et nous verrons l’utilité du graphe sémantique pour le calcul de la proximité sémantique entre la requête et le document.


    image image

    Figure 5 : Graphe Sémantique extrait à partir du document

    Figure 6 : Renforcement du Graphe par les connexions sémantiques à partir du dictionnaire auxiliaire


  4. Indexation sémantique à fonction à base radiale

    Plusieurs travaux ont adapté le modèle vectoriel en indexant directement les concepts à la place des termes. Ces approches traitent essentiellement la synonymie en remplaçant les termes par leurs concepts. Nous traitons des liens plus riches entre les termes en prenant en considération tout les types de relations sémantiques (dans l'idée de construire une ontologie informelle du domaine au sens de conceptualisation). Ceci peut résoudre le problème de la synonymie mais aussi évite les complications causées par les autres relations de spécialisation et de généralisation par exemple.


    image

      1. Notre contribution pour l’indexation et la classification Contrairement aux méthodes existantes, nous ne nous restreignons pas à l’utilisation des concepts. En effet, les termes sont enrichis s’ils sont fortement reliés aux concepts voisins et s’ils assurent une bonne connectivité sémantique. Il est important de noter que lors de la recherche, nous pouvons aussi retrouver les termes qui ne sont pas reliés au sein du réseau sémantique.

        Pour calculer la similarité entre termes, nous définissons une fonction à base radiale qui associe à chaque terme une zone d’influence caractérisée par le degré de similarité sémantique et la relation entre le terme noyau et ses voisins. (Rada & al., 1989) ont été les premiers à suggérer que la similarité dans un réseau sémantique peut être calculée en se basant sur les liens taxonomiques «is-a». Un moyen des plus évidents pour évaluer la similarité sémantique dans une taxonomie est de calculer la distance entre les noeuds comme le chemin le plus court.

        Nous sommes conscients que le calcul de la mesure de similarité par restriction sur le lien «is-a» n’est pas toujours bien adapté car, dans la réalité, les taxonomies ne sont pas toujours au même niveau de granularité, des parties peuvent aussi être plus denses que d’autres. Ces problèmes peuvent être résolus en associant des poids aux liens. Ainsi nous avons choisie de prendre en considération tous les types de relations (problématique conceptuelle) et la répartition des mots dans les documents (problématique structurale).

        Nous avons adapté notre système pour qu’il supporte toute sorte de relation sémantique telle que la synonymie, méronymie, hyponimie, taxonimie, antonomie, etc… et nous affectons initialement un poids unité pour les liens sémantiques.

        Un réseau sémantique est construit à chaque phase pour modéliser les relations sémantiques entre les termes. Afin d’éviter les problèmes de connexité, nous avons choisi de construire un dictionnaire auxiliaire de telle sorte à avoir une connexité forte du réseau ainsi construit et d’augmenter le poids sémantique des termes descripteurs par la suite.


        Dans la section suivante, nous définissons notre mesure TFIDF à base radiale et nous allons voir par la suite comment les poids des termes de l’indexation sont enrichis à partir des sorties de cette mesure.


      2. Le TF-IDF à base radiale

    image

    Les TFIDF à fonction à base radiale (RBF pour Radial Basis Function) s’appuient sur la détermination de supports dans l’espace de représentation E. Cependant, à la différence des TFIDF traditionnels, ceux-ci peuvent correspondre à des formes fictives qui sont une combinaison des valeurs de TFIDF traditionnels, nous les appellerons donc prototypes. Ils sont associés à une zone d’influence définie par une distance (euclidienne, Mahalanobis...) et une fonction à base radiale (Gaussienne, exponentielle...). La fonction discriminante g d’un TFIDF RBF à une sortie est définie à partir de la distance de la forme en entrée à chacun des prototypes et de la combinaison linéaire des fonctions à base radiale correspondantes :


    (4)


    imageest la distance entre l’entrée x et le support supi, {w0,

    ...,wN} sont les poids de la combinaison et image la fonction à base radiale. L’apprentissage de ce type de modèle peut se faire en une ou deux étapes. Dans le premier cas, une méthode de type gradient est utilisée pour ajuster l’ensemble des paramètres en minimisant une fonction objective basée sur un critère comme les moindres carrés. Dans le deuxième cas, une première étape consiste à déterminer les paramètres liés aux fonctions à base radiale (position des prototypes et zones d’influence). Pour déterminer les centres, des méthodes de classification non supervisée sont souvent utilisées. Les poids de la couche de sortie peuvent, dans une seconde étape, être appris par différentes méthodes comme la pseudo-inverse ou une descente de gradient. Dans le cas d’un apprentissage en deux étapes, les TFIDF RBF possèdent alors plusieurs avantages. Par exemple l’apprentissage séparé des fonctions à base radiale et de leur combinaison permet un apprentissage rapide, simple et évite les problèmes de minima locaux (pertinence locale et globale). Les prototypes des TFIDF- RBF représentent la répartition des exemples dans l’espace E de représentation (termes). De plus la gestion des problèmes multi-classes est plus simple dans les TFIDF-RBF. Nous verrons dans la section suivante que les TFIDF RBF sont très semblables sous certaines conditions aux Systèmes d’Inférence Floue.

    La modélisation des TFIDF RBF est à la fois discriminante et intrinsèque. En effet la couche de fonctions à base radiale correspond à une description intrinsèque des données d’apprentissage et la couche de


    combinaison en sortie cherche ensuite à discriminer les différentes classes.

    Dans notre système, nous utilisons des TFIDF RBF avec un apprentissage en deux étapes. La fonction à base radiale est du type fonction de Cauchy de la forme :


    image (5)

    Et nous définissons deux nouveaux opérateurs :

    image (6)

    image

    C’est le poids relationnel du concept (terme ou vecteur) c et degré(c) est le nombre des arrêtes entrantes et sortantes du sommet c. Il représente donc la densité de connexion du concept c au sein du réseau sémantique.


    (7)


    DensitéSem(c1, c2) est la densité sémantique de la liaison (c1, c2). C'est le rapport de la distance sémantique minimale CoutMin(c1, c2) entre c1 et c2, calculée par l’algorithme de Dijkstra (Cormen et al., 2001). Cette distance est calculée à partir du réseau sémantique ainsi construit à partir de document sur la base du coût minimal de l’arbre recouvrant (c’est l’arbre de coût minimal en suivant tous les chemins minimaux de c1 vers c2 et les autres sommets du réseau sémantique). Cette mesure reflète l’importance de la liaison (c1, c2) par rapport à l’ensemble des chemins minimaux existants. Par la suite nous calculons la distance sémantique en terme conceptuel comme suit :

    image

    (8)


    La mesure de proximité est alors une fonction de Cauchy :

    image(9)

    L’apport de ces opérateurs ainsi définis est qu’ils donnent plus d’importance aux concepts qui ont un voisinage sémantique dense où s’ils ont une bonne connectivité au sein du réseau. Cela a par ailleurs été vérifié durant la validation du prototype.

    Nous avons également remarqué que la pondération TFIDF-OKAPPI traditionnelle de quelques termes qui sont considérés comme significatifs pour l'indexation d'un document se trouvent en bas du classement. Après le calcul de la pondération TFIDF-OKAPPI-ABR combinée par


    notre fonction à base radiale, ces mêmes termes se retrouvent en haut du classement.

    Pour la phase d’indexation, nous allons voir dans la partie qui suit comment les poids des descripteurs index sont générés par la nouvelle mesure à base radiale sur la base de la distance sémantique comme paramètre.


  5. Nouvelle pondération des descripteurs index

    Les documents sont représentés par des ensembles de vecteurs de termes. Les poids des termes sont calculés en fonction de leur distribution dans les documents. Le poids d’un terme est enrichi par les similarités conceptuelles des termes co-occurrents dans le même thème. Nous procédons au calcul du TFIDF des termes pour l’ensemble des thèmes de la base d’apprentissage pour en déduire la pertinence globale. On calcule ensuite leur pertinence locale par l’intermédiaire de notre fonction à base radiale définie précédemment en la combinant avec le TFIDF traditionnel et en n'acceptant que les termes situés dans la zone d’influence. Ce poids noté TFIDF-ABR (t) est calculé de la manière suivante :

    image(10)

    Avec image

    image ensemble des n termes dans le thème.

    seuil : une valeur qui fixe la proximité à un certain voisinage (zone

    d’influence sémantique du terme t), nous la fixons dans un premier temps à la proximité entre le concept de t et le concept contexte (concept qui représente le thème).


    1. Okapi à base radiale

      image

      Vu les limites de la mesure TFIDF évoquées précédemment, nous avons opté pour un modèle d’Okapi proposé par (Robertson, 2000) en y introduisant une extension sémantique.

      image

      Pour ce faire, la fonction calcule le degré de pertinence pour chaque terme au niveau de son voisinage sémantique (zone d’influence). La nouvelle formule devient :


      image

      image

      image

      (11)

      Nous indiquons par l'ensemble des termes proches

      image

      sémantiquement de . Un seuil de similarité est nécessaire pour caractériser l'ensemble de ses éléments. Nous fixons un seuil de similarité pour la valeur de Proximité (ti,t) qui correspond au degré de similarité


      entre t et le concept du thème où il apparaît (le terme est accepté s’il se trouve dans la zone d’influence de terme noyau définie par la fonction à

      image

      base radiale ). La relation devient donc :


      image

      (12)


    2. N-Gramme à base radiale

      L’utilisation de la méthode N-gramme (avec N=3 nombre de caractères) dans la recherche des documents arabes est plus efficace que celle du « keyword matching ».

      Pour l’indexation et la classification de documents arabes, le choix des mesures statistiques comme les trigrammes et le poids TF*IDF semble pertinent.

      image

      L’utilisation de la méthode N-gramme pour l’indexation et la classification des documents reste insuffisante pour obtenir de bons résultats dans la recherche d’information en langue arabe. Pour cela nous avons pensé à ajouter de la pertinence sémantique à cette mesure en tenant compte de la notion du voisinage sémantique des termes extraits par une combinaison N-gramme avec une fonction à base radiale, la formule générale devient :


      (13)


  6. Résultats


    Pour la phase d’apprentissage nous avons travaillé sur une base (corpus initial) très réduite de documents étiquetés représentatifs des classes (sport, politique, économie & finance) que l’on cherche à discriminer ou à apprendre et c’est le point fort de notre mesure. Plus cette base est discriminante et représentative plus notre méthode est performante avec de meilleurs résultats.

    Pour la phase de test nous avons travaillé sur deux corpus de presse (the Associated Press (AP)) de 400 documents chacun, l'un en langue arabe et l'autre en anglais. Le corpus anglais est une partie extraite d'un corpus plus large de 2246 documents (http://www.cs.princeton.edu/~blei/lda- c/ap.tgz). Pour le corpus arabe, c’est une collection de documents extraite de (www.aljazeera.net).

    Le tableau 1 montre les résultats préliminaires obtenus. Ce résultats sont exprimés à travers les critères Rappel, Précision et performances en classification. Ce tableau montre en particulier la pertinence de l'utilisation de notre approche en comparaison avec l'approche N- Grammes.


    Corpus

    Méthode

    Rappel

    Précisio n

    Performance en classification (%)


    Anglais

    TFIDF

    0.80

    0.83

    80.3

    NGRAM

    0.56

    0.78

    65.95

    TFIDF- ABR

    0.89

    0.92

    90.5

    NGRAM- ABR

    0.6701

    0.8463

    74.79


    Arabes

    TFIDF

    0.81

    0.81

    81.0

    NGRAM

    0.45

    0.81

    57.85

    NGRAM- ABR

    0.6341

    0.8762

    73.57

    Okappi- TFIDF- ABR


    0.98


    0.98


    98.79

    Tableau 1 : Tableau des résultats de l’expérimentation


  7. Conclusion


L’intégration de la notion de voisinage sémantique et de fonctions à base radiale a permis d'améliorer d’une manière très significative les performances de notre système d'indexation indépendamment de la langue manipulée. Ces résultats restent à confirmer sur des corpus plus conséquents, même si de tels corpus sont difficiles à se procurer pour la langue Arabe, qui reste notre objectif primordial.

Nous avons remarqué que les résultats de l’indexation contiennent exactement les mots-clés recherchés triés selon leur pertinence. Nous avons également fixé un seuil pour l’enrichissement sémantique, ce qui peut conduire à retourner quelques termes indésirables assez éloignés de ceux recherchés.

Nous avons aussi constaté que l'hybridation de deux méthodes statistiques améliore considérablement les performances.

Un autre point à prendre en compte et qui peut dégrader la précision des méthodes statistiques traditionnelles, est la présence de concepts complexes. Ce point peut s’avérer une piste intéressante à explorer puisque les concepts longs sont en principe moins sujets à ambiguïté.

Pour réponde à ces différentes situations, nous envisageons l'utilisation d'un algorithme de désambiguïsation et l'hybridation entre différentes mesures en les combinant avec des fonctions noyaux.


Remerciements

Ce travail est soutenu par le Programme Hubert Curien Franco-marocain Volubilis n° MA/10/233 et le projet AIDA du programme Euro méditerranéen 3+3 n ° M/09/05.


Bibliographie


AFNOR (1993). Information et documentation. Principes généraux pour l’indexation des documents. NFZ 47-102.

PORTER M. F. (1980). An algorithm for suffix stripping. Program, 14 :130–137, 1980. 15.

SEYDOUX F., RAJMAN M. and CHAPPELIER J.C. (2006). Exploitation de

connaissances sémantiques externes dans les représentations vectorielles en recherche documentaire. Ph.D. thesis.

BLEI D., NG A., and JORDAN M. (2003). Latent dirichlet allocation. SEBASTIANI F., SPERDUTI A., and VALDAMBRINI N. (2000). An

improved boosting algorithm and its application to automated text categorization. Technical report, Paris, France.

ROBERTSON S., WALKER S., BEAULIEU M.,(2000). Experimentation as a

way of life : Okapi at TREC, InformationProcessing and Management, vol. 36, no 1,2000,pp. 95-108.

DEERWESTER S., DUMAIS S., FURNAS G., LANDAUER T., and

Harshman R (1990). Indexing by latent semantic analysis.

Quillian M.R. (1968). Semantic memory. Semantic information processing, 1968. 65.

RADA R., MILI H., BICKNELL E., BLETTNER M. (1989). « Development

and application of a metric on semantic nets », IEEE Transaction on Systems, Man, and Cybernetics, vol. 19, no 1, 1989, p. 17–30.

KHOJA S. and GARSIDe S. (1999). Stemming Arabic Text. Computing Department, Lancaster University, Lancaster, U.K. http://www.comp.lancs.ac.uk/computing/users/khoja/stemmer.ps, September 22, 1999.

CORMEN T. H., LEISERSON C. E., RIVEST R. L. and STEIN C. (2001).

Introduction à l'algorithmique, (version (en) (ISBN 0-262-03293-7) deuxième édition, 2001, MIT Press and McGraw-Hill, section 24.3, Dijkstra's algorithm, pages 595–601, 2001.

SHANNON, C. (1948). The Mathematical Theory of Communication. Bell System Technical Journal, 27 :379–423 and 623–656.


Approche d’indexation automatique d’informations pédagogiques

à partir de documents


Boutheina SMINE

LaLIC, Université Paris-Sorbonne

LaRODEC, IHEC de Carthage, 2016 Carthage Présidence, Tunisie.


Rim FAIZ

LaRODEC, IHEC de Carthage, 2016 Carthage Présidence, Tunisie.


Jean-Pierre DESCLES

LaLIC, Université Paris-Sorbonne


Résumé : Il y a besoin sans cesse croissant en informations pédagogiques pour les intégrer dans des ressources ou dans un processus d’apprentissage. Une indexation de ces informations s'avère donc utile en vue d'une extraction des informations pédagogiques pertinentes en réponse à une requête utilisateur. La méthode d’indexation proposée par la plupart des systèmes d'extraction d'informations pédagogiques est basée sur une annotation manuelle ou semi-automatique des informations pédagogiques, tâche qui n'est pas préférée par les utilisateurs. Dans cet article, nous proposons une approche d'indexation d'objets pédagogiques (Définition, Exemple, Exercice, etc.) basée sur une annotation sémantique par Exploration Contextuelle des documents. L'index généré servira à une extraction des objets pertinents répondant à une requête utilisateur sémantique. Nous procédons, ensuite, à un classement des objets extraits selon leur pertinence en utilisant l'algorithme Rocchio.


Mots-clés : Informations pédagogiques, carte sémantique, exploration contextuelle, Rocchio.


  1. Introduction


    La quantité d'informations pédagogiques disponible en ligne est en perpétuelle croissance. Dans leur processus de recherche d’informations ou d’apprentissage, les apprenants peuvent être soutenus par les moteurs de recherche. Toutefois, ces systèmes de recherche d'information sont


    basés sur l'indexation des termes sans tenir compte de la sémantique du contenu pédagogique (Dehors et al., 2005), (Buffa et al., 2005). Une meilleure alternative est de proposer une approche d'indexation basée sur l'annotation sémantique des informations pédagogiques qui sont attestées dans les documents. Par une telle indexation, les informations pédagogiques présentées par l'auteur d'un document sont capturées et le processus d'apprentissage ou d'enseignement pour l'élève ou l'enseignant respectivement est facilité.

    Nous proposons, dans cet article, une approche d'indexation automatique d'informations pédagogiques à partir de documents. Notre travail consiste d'abord à annoter les segments textuels (objets) reflétant un contenu pédagogique (Définition, Exemple, Exercice, etc.). Ensuite, nous procédons à une indexation de ces objets annotés pour extraire ceux qui sont pertinents par rapport à une requête utilisateur. Enfin, nous procédons à un classement de ces objets en utilisant l'algorithme de classification Rocchio.

    Dans la section 2, nous positionnons cette contribution par rapport aux travaux existants. Nous consacrons la section 3 à la définition de la notion d'objet pédagogique. Une description détaillée de notre approche d'indexation d'informations pédagogiques est le sujet de la quatrième section. Avant de conclure, nous illustrons les résultats des expérimentations de notre approche dans la cinquième section.


  2. Indexation des informations pédagogiques : Etat des lieux


    Nous détaillons ici divers points de l'état de l'art liés à notre approche d'indexation d'objets pédagogiques, à savoir l'annotation, l'indexation, et l'extraction d'informations pédagogiques à partir de documents textuels. L'annotation comme technique d'indexation est appliquée dans plusieurs systèmes comme le système QBLS (Dehors et al., 2005) qui est une partie de la plateforme TRIAL SOLUTION (Buffa et al., 2005). Dans cette dernière, les utilisateurs annotent les livres manuellement selon le rôle pédagogique de leur contenu, les sujets abordés dans leur contenu (mots clés) et leurs relations avec d'autres ressources (référence, prérequis, etc.). Le système QBLS a pour but de structurer le cours en se référant à une ontologie pédagogique constituée de fiches (définition, exemple, énoncé, procédure, solution, etc.) et de ressources pédagogiques abstraites (cours, thème, notion, question). Il existe aussi le système SYFAX (Smei et al., 2005) qui annote semi-automatiquement le document pédagogique selon plusieurs critères (type du document, point de vue de l'utilisateur sur le document, etc.).

    En vue d'indexer les documents, les annotations proposées par les différents systèmes cités ci-dessus sont stockées dans un entrepôt de connaissances pédagogiques. Par la suite, les réponses aux requêtes sont


    extraites à partir de cet entrepôt grâce à un moteur de recherche (Corese pour le système QBLS). Le système SYFAX applique un processus de raffinement de la requête basé sur une ontologie des types de documents pédagogiques et une autre ontologie des domaines des documents informatiques. Ceci permet d'extraire les documents pertinents par rapport à la requête.

    Pour tous les systèmes présentés ci-dessus, une intervention humaine est requise afin d'enrichir les documents par des métadonnées. Cependant, la plupart des producteurs de ressources pédagogiques ne s'intéressent probablement pas au retour aux documents pour annoter leurs propres travaux. Notre travail se place dans cette perspective tout en procédant à l'automatisation du processus d'annotation.

    D'autres travaux se sont intéressés à la recherche de ressources pédagogiques à partir du web (Thomson et al., 2003). Toutefois, le but de leur travail est limité à une extraction de métadonnées (Travaux Dirigés, Programme, Travaux Pratiques) relatives au document en entier en vue de les annoter et de les classifier. Toujours dans la même perspective, (Hassen et al., 2009) comparent l'efficacité des algorithmes Naïve Bayes et SVM dans la classification des ressources pédagogiques basée sur un ensemble de propriétés (catégorie du contenu, titre du cours, année, auteur, etc.).

    A notre connaissance, ces travaux de recherche portant sur l'indexation de documents pédagogiques se sont intéressés à une indexation du document en l'annotant par un ensemble de métadonnées relatives à la totalité du document. D'autres approches basées sur des patrons linguistiques ont été appliquées dans plusieurs travaux pour extraire les définitions à partir de ressources pédagogiques afin de constituer un glossaire (Westerhout et al., 2008) ou encore pour répondre à divers types de questions (Greenwood et al., 2003). Cependant, les patrons sont appliqués la plupart du temps à extraire des objets pédagogiques de type "Définition" en raison de l'accessibilité des structures langagières relatives à ce type que ce soit sur le web (wikipédia, dictionnaires, etc.) ou dans d'autres sources comme les rapports, les manuels d'utilisation, etc. Dans cet article, nous proposons une annotation automatique des informations pédagogiques avec des métadonnées sémantiques (Définition, Exemple, Exercice, etc.). Ce qui nous permettrait d'indexer ces informations en vue d'une extraction des informations pertinentes par rapport à une requête utilisateur.


  3. Présentation des objets pédagogiques


    Un utilisateur "extracteur" d'informations pédagogiques pertinentes est guidé dans sa lecture par certains passages (des segments textuels comme des phrases ou des paragraphes). L'hypothèse générale utilisée ici est


    d'essayer de reproduire ce que fait un humain, en particulier l'apprenant, en soulignant certains segments textuels reflétant un contenu pédagogique. Ces segments de type pédagogique, appelés objets pédagogiques, existent, généralement, dans les documents pédagogiques sous forme de définitions, exemples, exercices, plan, questions et réponses, etc. Un objet pédagogique peut être défini comme une entité numérique ou non (Flory, 2004) qui peut être utilisée ou citée dans un apprentissage. Dans notre cas, un objet pédagogique correspond à un segment textuel reflétant un contenu pédagogique.

    Un apprenant pourrait être intéressé par une définition en formulant une requête, par exemple: trouver les documents qui contiennent "La définition du langage SQL". Un autre utilisateur recherche, en explorant de nombreux textes (encyclopédies spécialisées, manuels, articles), des exemples sur un concept (par exemple, «l'inflation» dans l'économie,

    «polysémique» en linguistique, ..) pour l'intégrer à ses ressources pédagogiques. Un autre utilisateur peut être intéressé, à la pratique des exercices sur un concept. L'objectif de ces types d'objets pédagogiques (Définition, Exemple, Exercice) est une annotation possible des segments textuels pédagogiques qui correspondent à une recherche guidée afin d'en extraire des objets pédagogiques à partir de textes. Chaque type pédagogique, comme nous l'avons mentionné ci-dessus, est explicitement indiqué par les marqueurs linguistiques identifiables dans les textes. Notre hypothèse est que chaque type d'objet pédagogique laisse des traces discursives dans le document texte. Les types d'objets pédagogiques sont décrits comme suit :

    1. D'une part, une relation complexe entre les concepts dans une structure «carte sémantique» (Figure 1) et d'autre part un ensemble de classes et sous-classes d'unités linguistiques (indicateurs et indices).

    2. Un ensemble de règles communautaires où chaque règle concerne une classe d'indicateurs avec des indices différents.

      La carte sémantique (Figure 1) est une organisation des types d'objets pédagogiques. Elle peut être conçue aussi comme une ontologie des types d'objets pédagogiques indépendamment des différents domaines d'application. En effet, les expressions de la carte sémantique pour un type d'objet sont les mêmes dans différents domaines comme l'informatique, mathématiques, gestion, ... car ces expressions sont utilisées par l'auteur pour exprimer une information pédagogique. Dans certains types de textes (textes narratifs, articles de presse,) les expressions pédagogiques ne sont pas présentes mais dans d'autres (support de cours, devoirs, travaux dirigés, ..), ces expressions organisent le texte et donnent des informations sur l'intention de l'auteur.

      Le premier niveau de la carte sémantique (Figure 1) présente 6 types d'objets pédagogiques : (i) Cours, (ii) Plan, (iii) Exercice, (iv) Exemple,

      (v) Définition, (vi) Caractéristique. Par exemple, les règles du type d'objet "Définition" sont déclenchées par la présence de noms ou de verbes


      définitoires (par exemple: "est défini", et l'annotation sémantique est attribuée si des indices linguistiques, comme les prépositions (l'indice de l'exemple précédent est "par"), sont trouvés dans le contexte de l'indicateur.

      image


      Figure 1 : Carte sémantique des types d'objets pédagogiques


  4. Approche proposée pour la recherche d'informations pédagogiques à partir de documents


    L'approche que nous proposons se décompose en deux principales parties: dans la première partie, nous procédons à une annotation sémantique des segments textuels représentant des objets pédagogiques (Smine et al., 2010). La deuxième partie exploite les annotations générées par la première partie pour créer un index qui est capable de localiser les segments textuels pertinents par rapport à des requêtes associées aux types pédagogiques (Définition, Exemple, Exercice, etc.). Pour classer les réponses selon leurs pertinences, nous appliquons l'algorithme de classification Rocchio sur les objets pédagogiques extraits.


    4 .1. Annotation des objets pédagogiques


        1. Segmentation

          Mourad (Mourad, 2002) propose de segmenter le texte en se basant sur une étude systématique des marques de ponctuation. Nous avons effectué la segmentation de nos documents en intégrant les règles linguistiques développées par Mourad. Pour chaque document segmenté, le résultat obtenu est un fichier XML balisé par des balises <Section>,

          <Paragraphe>, <Phrase>.


        2. Annotation des objets pédagogiques

    Pour annoter les objets, nous explorons la technique d’Exploration Contextuelle 'EC' (Desclés, 1997). C'est une technique de traitement linguistique et sémantique du langage, qui fait appel à des marqueurs


    discursifs explicites (morphèmes, mot, expression, etc.) caractéristiques d'une intention pragmatique de l'auteur. 'EC' consiste à appliquer des règles dans un contexte déterminé par des indices. Elle a l'avantage d'être indépendante d'un domaine particulier, car les règles décrivant les structures linguistiques sont indépendantes d'un domaine particulier. C'est une méthode qui a été validée par les travaux de (Djioua et al., 2006) et (Elkhlifi et al., 2010). En plus, 'EC' ne nécessite pas une analyse morphosyntaxique du texte, ce qui réduit considérablement le temps d'exécution pendant l'implémentation de la méthode.

    Par l’exploration contextuelle du contenu des documents, nous pouvons repérer et annoter les objets pédagogiques contenu dans ces documents, par exemple, « des exemples de requêtes SQL», « des exercices sur le langage UML », « les définitions d’une ou de plusieurs notions », etc. Ces objets sont exprimés par des structures langagières comme « …se définit par… », « est défini par… » pour le type Définition ou « Exercices sur… », « Travaux dirigés » pour le type Exercice. Ils sont explicitement indiqués par des indicateurs linguistiques identifiables dans les textes (verbes, noms, adjectifs). Ces indicateurs sont parfois polysémiques, ils ont besoin d'indices linguistiques pour clarifier l'indétermination. Les relations reliant les indicateurs aux indices sont définis dans le cadre des règles. Une règle (IdR) se déclenche au moment de l'identification de l'un de ses indicateurs (Indicateur) ensuite elle essaye de localiser des indices linguistiques dans le contexte gauche (CL1, CL2) et/ou droite (CR1, CR2) de l'indicateur ce qui confirme ou non la valeur sémantique exprimée par l'indicateur (Figure 2).


    image


    Figure 2 : Principe de fonctionnement d’une règle d’exploration contextuelle


    A chaque type d’objet pédagogique correspond un ensemble de règles. Des exemples de règles sont présentés dans le tableau suivant (Tableau 1).


    IdR

    CL1

    CL2

    Indicateur

    CR1

    CR

    2

    Type|Sous-type de l'objet pédagogique

    RD1

    est|sont

    défini|défini| définis

    par

    Définition|Explication

    RD2

    est | sont

    le|la|un une|des|les

    Définition|Explication

    RC1

    La|Les Des|Une

    caractéristique| caractéristiques

    du|de|des

    est| sont

    Caractéristique|Signes distinctifs

    RE1

    Voici

    un|l' les|des

    exemple|exemples

    du|de|des

    Exemple|Illustration

    Tableau 1 : Des exemples de règles


    Nous avons ajouté un composant à chaque règle qui représente l'emplacement du terme de la requête à rechercher dans le cadre du segment exprimant l'objet pédagogique. Le besoin d'ajouter ce composant est né de la variation de l'emplacement du terme à rechercher avec la variation des structures langagières exprimant les objets pédagogiques. Ceci permet d'identifier les segments textuels exprimant le type d'objet pédagogique ainsi que le concept demandés par l'utilisateur. Par exemple, pour le même type d'objet pédagogique "Définition" : le terme à rechercher "Maintenance" peut exister au début du segment "La maintenance est définie comme l'ensemble des activités destinées à maintenir ou à rétablir un bien dans un état de sûreté de fonctionnement" ou au milieu du segment pour le cas "L'AFNOR a défini la maintenance comme étant l'ensemble des activités de remise en état de fonctionnement d'un système". Sans la considération de ce paramètre, le système peut ne pas extraire l'objet demandé par l'utilisateur comme par exemple, pour le type Cours, la plupart de ses règles d'EC exigent un emplacement du terme de la requête au niveau du Titre du document. Au cas où le terme est recherché ailleurs que dans le titre, le résultat de la recherche sera erroné.

    De ce fait, l'emplacement du terme est un paramètre qui diffère d'une règle à une autre selon la structure langagière exprimée par cette dernière. Nous avons désigné cet emplacement par une étiquette, qui prendra une valeur parmi un ensemble fini de valeurs désignant l'emplacement du terme par rapport aux indicateurs et indices. Par exemple, GIND indique le terme se place à gauche de l'indicateur ou TITRE indique que l'emplacement du terme est au niveau du titre du document. En fait, dans plusieurs cas, le titre peut nous révéler des connaissances sur le contenu du document.

    Pour chaque type d'objet de la carte sémantique (cf. Figure 1), nous avons défini un ensemble de règles qui couvrent toutes les formes


    linguistiques possibles de l'objet pédagogique. Nous avons commencé par un exemple textuel relatif à chaque type pour généraliser toutes les structures langagières. Cette méthode permet de définir de manière incrémentale une base solide de règles. Nous avons développé en totalité environ 200 règles. L'ensemble des règles développées, ainsi que la carte sémantique forment les ressources linguistiques utilisées dans notre approche.

    Nous prenons un extrait de texte à partir d'un document pédagogique


    image

    Figure 3 : Un extrait d'un document pédagogique


    Pour le type d'objet pédagogique "Définition", la règle RD2 (cf. Tableau 1), appliquée à l'exemple ci-dessus, permet d'annoter la phrase " SQL est un langage complet de gestion de bases de données relationnelles". Le type d'objet pédagogique est détecté grâce à l'expression "est " qui est une occurrence Ii de l'indicateur du type "Définition" et l'indice droit CR1 "un".

    Pour le type "Cours", le repérage de l'occurrence Ii au niveau du titre est suffisant pour annoter le document comme un cours. L'indicateur nominal de l'objet pédagogique est le mot "Cours", et d'autres noms comme "Chapitre, "Notes de cours". A part le titre, l'existence de l'indicateur "Cours" n'implique pas l'annotation du document comme un cours.

    Notons que la phrase "Il n'est pas un langage conceptuel" illustre le cas des indices négatifs. En effet, la présence de l'expression "n'….pas" annule l'annotation du segment comme Définition, malgré la présence de l'indicateur "est" et l'indice droit CR1 "un".

    Afin d'annoter le segment " Il a été conçu, dans les années 70, par IBM" comme une "Caractéristique", nous détectons en premier lieu l'expression "a été conçu" ensuite nous cherchons, dans le contexte droit de l'indicateur, le CR1 "par". En cas où les deux éléments (Ii et CR1) sont présents, alors le système annote le segment comme une caractéristique.

    Concernant le type d'objet "Exercice", l'indicateur peut être verbal (a) ou nominal (b), par exemple :

    1. (a) "Formulez une clause SQL………" a comme indicateur verbal "Formulez"

    2. (b) "Exercices sur requêtes SQL", son indicateur est le nom "Exercices"


        1. Génération de l'index

          Notre objectif, par l'annotation, est de générer un index sémantique contenant à la fois des objets pédagogiques annotés selon leur type, en utilisant la méthode d'annotation détaillée ci-dessus, et l'emplacement du terme de la requête spécifié par la règle appliquée pour annoter l'objet. Cet index servira à extraire les objets répondant à la requête utilisateur. Les métadonnées générées par les annotations des différents objets sont stockés dans une base de données. Pour chaque objet pédagogique annoté, les métadonnées suivantes sont introduites dans l'index : (1) L'objet pédagogique annoté (OBJECT), (2) Chemin du document analysé (PATH), (3) Type de l'objet annoté (TYPE), (4) Identifiant de la règle appliquée pour annoter le segment (IDRule) et (5) L'emplacement du terme de la requête (TERMEMP). La figure suivante (Figure 3) montre deux exemples d'objets annotés.


          image

          Figure 4 : Deux exemples d'objets annotés et indexés


          Afin de pouvoir extraire les objets pédagogiques qui contiennent des termes de la requête, nous avons utilisé la base de synonymes WOLF (qui représente la partie traduite en Français du dictionnaire WordNet) permettant d'enrichir la requête en prenant en compte tous les termes équivalents au terme de la requête. Ce dernier est remplacé par la liste de ses synonymes. Ceci permet d'étendre le champ de la recherche. La requête est ainsi composée des termes à rechercher (par exemple "Langage SQL") et du type d'objets pédagogiques requis par l'utilisateur (par exemple : Exercice).

          Grâce à un moteur de recherche (implémenté sous la plateforme Lucene), le système se connecte à l'index généré et retient les documents contenant des objets pédagogiques de même type que celui énoncé dans la requête (Exercice). Ensuite, le moteur procède à une recherche des termes de la requête (Langage SQL ainsi que ses synonymes) à partir des objets annotés et indexés. Cette recherche s'effectue dans l'emplacement désigné par la règle avec laquelle est annoté l'objet pédagogique. Par exemple, si l'emplacement du terme spécifié par la règle est DIND, le terme de la requête est recherché à droite de l'indicateur de la règle appliquée (Dans ce cas règle de type Exercice). Dans le cas où la requête


          est composée du type pédagogique "Exercice" et le terme «Langage SQL", le moteur de recherche procède comme suit :

    3. Il extrait tous les objets pédagogiques trouvés dans l'index associé à l'annotation « Exercice ».

    4. Pour chaque objet extrait, il recherche le terme "langage SQL» et ses synonymes dans l'emplacement spécifié par la règle d'annotation.

    5. Sélection, à partir des objets pédagogiques extraits, les objets comportant une occurrence du terme «langage SQL» ou ses synonymes dans le bon emplacement.

    6. Afficher toutes les informations présentes dans l'index associé à chaque objet pédagogique sélectionné.


      1. Classement des objets pédagogiques

    Après l'extraction des objets pédagogiques répondant à la requête utilisateur, une autre étape suit pour classer les réponses dans un ordre croissant selon leur similarité avec la requête. Pour classer ces objets, nous avons utilisé l'algorithme de Rocchio (Rocchio, 1971), adapté à la classification des textes (Ittner et al., 1995). L'utilisateur choisit un concept pour le correspondre au terme de sa requête, parmi une liste de

    15 concepts appartenant à différents domaines (domaine de l'informatique, économie, génie mécanique, biologie, etc.). Ce sont des concepts auxquels appartient l'ensemble des documents du corpus d'annotation et d'indexation. Le concept choisi représente la classe Cuser par rapport à laquelle les objets seront classés selon leur pertinence. Rappelons que nous considérons un objet pédagogique comme un segment textuel ayant différentes tailles (Phrase, paragraphe, document, etc.) selon le type de l'objet.

    Nous représentons les données (les objets d'apprentissage et de test) par des vecteurs de poids numériques. Le vecteur de poids pour le m ième objet pédagogique est Vm= (p1m, p2m,……..,plm), où l est le nombre de termes index utilisés. Nous utilisons comme termes des mots singuliers et composés. Nous adoptons la mesure de poids TF-IDF (Salton, 1991) et nous définissons le poids pkm comme suit :

    image

    image

    image

    image

    image

    Avec N est le nombre total d'objets, n k est le nombre d'objets dans lesquels le terme index k apparaît, et est :


    image

    Avec q est le nombre d'occurrences du terme index k dans l'objet m. Dans l'algorithme de Rocchio, un prototype est produit pour chaque


    classe C. Ce prototype est représenté par un vecteur singulier de


    même dimension que le vecteur de poids original v1, ………, vN. Pour chaque classe C, the k ième terme dans son prototype est défini comme

    image image

    Avec Cj est l'ensemble de documents appartenant à la classe C. Les paramètres α et β contrôlent la contribution des exemples positifs et négatifs par rapport au vecteur prototype. Nous utilisons les valeurs standards α =4 et β = 16 (Buckley et al., 1994).

    image

    Une fois l'apprentissage achevé, nous classons les nouveaux objets fournis comme réponses à la requête utilisateur. Ce classement se fait selon leur pertinence par rapport à la classe Cuser choisie par l'utilisateur. Les objets à classer sont tout d'abord convertis en vecteurs de poids, et puis comparés aux vecteurs de poids prototypes des différentes classes en utilisant la mesure de similarité cosinus.

    image

    image

    La mesure de similarité entre l'objet de vecteur et la classe Cuser de vecteur est définie comme :

    Les objets ayant une valeur de similarité avec la classe Cuser supérieure à un seuil θ sont sélectionnés, ensuite classés dans un ordre croissant selon la valeur de leurs similarités par rapport à la classe Cuser. La valeur du seuil θ varie selon le type d'objet pédagogique. Par exemple, un objet annoté par le type "Cours" contient plus de termes significatifs qu'un objet annoté par le type "Exercice" (θCourse < θExercice). Nous ne prenons en compte que les valeurs positives de la mesure de similarité. Les objets sélectionnés sont alors affichés pour constituer la fiche pédagogique demandée par l'utilisateur. Une fiche pédagogique rassemble les objets pédagogiques de type celui exprimée par l'utilisateur dans sa requête et correspondant au même concept que celui recherché par l'utilisateur. Cette fiche permet une accessibilité aux objets directement sans avoir accès au document en entier.


  5. Expérimentations et Résultats


    L’objectif de cette étape est d’évaluer les performances des différents modules. Un des indicateurs importants est donc le nombre des réponses pertinentes par rapport au nombre de documents indexés. Pour valider notre approche d'indexation d’objets pédagogiques, nous avons développé le système SRIDoP (Système de Recherche d'Informations à partir de Documents Pédagogiques) en utilisant le langage Java sous l'environnement Eclipse et le système de gestion de base de données Oracle. SRIDoP comporte les trois modules suivants : Annotation et


    indexation des objets pédagogiques selon leurs types, Appariement entre la requête utilisateur et les objets pédagogiques indexés, et Classement des objets pédagogiques.

    Notre corpus d'apprentissage ainsi que celui du test est le même pour toutes les étapes d'annotation, d'indexation et de classification. Pour le corpus d'apprentissage, nous avons collecté un ensemble de documents couvrant 15 concepts (ceux utilisés dans la génération de fiches pédagogiques). En fait, pour chacun de ces concepts, une requête a était formulée et exécutée sur le moteur de recherche Google. Les 20 premiers résultats sont collectés. Notons que le sens de quelques termes peut être ambigu, par exemple "Base" ou "Enregistrement". Pour désambiguïser la requête, nous ajoutons le terme "Données". Pour faire disparaitre l'ambiguïté, nous misons sur le type pédagogique des documents retournés en réponse. Les documents collectés sont constitués de 60 supports de cours, 65 Travaux Dirigés, 83 Présentation PowwerPoint, 30 Travaux Pratiques, et quelques documents de différentes natures (articles de Presse, articles scientifiques, etc.). La longueur moyenne de ces documents constituant le corpus d'apprentissage est 23 pages.

    Notre corpus de test est composé de 1000 documents, principalement de nature pédagogique : des Supports de cours, des Travaux Dirigés, des présentations PowerPoint, des Travaux Pratiques, des manuels d'utilisation, et d'autres documents de différentes natures. La longueur moyenne des documents est 53.6 pages. Les documents ont différents formats (DOC, PDF, HTML, PPT, etc.).


    1. Première étape : Annotation des objets pédagogiques

      Pour évaluer le processus d'annotation, le corpus de test a été annoté par deux experts : pour chaque objet pédagogique repéré, ils précisent son type. Les résultats du processus d'annotation effectué par notre système SRIDoP sont illustrés dans le Tableau 2.


      Type de

      l'objet pédagogique


      NOA


      NOAC


      NOMAC


      Précisio n (%)


      Rappel (%)

      F-

      Mesure (%)

      Plan

      88

      85

      98

      96,59

      86,73

      91,40

      Cours

      72

      60

      85

      83,33

      70,59

      76,43

      Définition

      228

      140

      266

      61,40

      52,63

      56,68

      Caractéristiqu e

      139

      124

      156


      89,21


      79,49


      84,07

      Exemple

      357

      349

      376

      97,76

      92,82

      95,23

      Exercice

      760

      705

      776

      92,76

      90,85

      91,80


      Tableau 2 : Les résultats de l'étape Annotation


      image


      Avec : NOA : Nombre d'objets annotés, NOAC : Nombre d'objets annotés correctement, NOMAC: Nombre d'objets annotés par les experts.

      Nous remarquons que la précision de l’annotation dépasse les 85% pour la plupart des types d'objets (Exemple, Exercice, Plan, etc.). Notons que, pour le type « Définition », cette précision est moyenne. Ceci dérive du fait que certaines règles peuvent annoter à la fois des énoncés définitoires ou non. Tel le cas de la règle « R2 » ayant comme indicateur l’occurrence

      «est un». Cet indicateur peut identifier un segment de nature définitoire (exemple : « UML est un langage de modélisation conceptuelle orienté objet ») ou un autre segment de nature non définitoire (exemple : « Le facteur temps est un des plus importants dans la réalisation d’un projet »).

      Pendant la phase d’expérimentation, nous avons pu constater aussi que la qualité de l’annotation est étroitement liée à la qualité de la segmentation du document.


    2. Deuxième étape : Indexation des objets pédagogiques

      A travers une interface de recherche d’informations, l’utilisateur saisit les termes à rechercher, et choisit le type (et sous-type) de l'objet pédagogique relatif au terme à rechercher. Les réponses aux requêtes sont affichées sous forme de liens permettant d’accéder à l'objet pédagogique répondant au besoin de l'utilisateur.

      Pour tester ce module de recherche d'objets pédagogiques, nous avons formulé les mêmes 25 requêtes pour chacun des types d'objets pédagogiques. Ces requêtes appartiennent aux différents domaines du corpus. Pour chaque type d'objet, nous avons illustré le nombre de réponses ramenées et le nombre de réponses jugées pertinentes compte tenu de l'ensemble des requêtes formulées. Les résultats sont résumés dans le tableau suivant (Tableau 3).


      Type de l'objet pédagogique exprimé par la requête


      NR


      NRP


      NRRU


      Précision (%)


      Rappel (%)


      F-Mesure (%)

      Plan

      72

      66

      77

      91,67

      85,71

      88,59

      Cours

      43

      35

      54

      81,40

      64,81

      72,16

      Définition

      156

      112

      193

      71,79

      58,03

      64,18

      Caracteristique

      94

      86

      112

      91,49

      76,79

      83,50

      Exemple

      213

      198

      230

      92,96

      86,09

      89,39

      Exercice

      517

      465

      520

      89,94

      89,42

      89,68


      Tableau 3 : Les résultats de l'étape d'appariement Documents-Requête


      image


      Avec : NR : Nombre d'objets (réponses) retournés à l'utilisateur, NRP : Nombre d'objets (réponses) pertinents retournées à l'utilisateur, NRRU: Nombre d'objets pertinents.

      A l'issue de ces expérimentations, nous remarquons que les résultats de l'indexation d'informations pédagogiques sont étroitement liés aux résultats de l'annotation (cf. Figure 5). La valeur de "F-Mesure" de l'extraction évolue avec la valeur de "F-Mesure" de l'annotation. Ceci s'explique par le fait, que l'extraction est effectuée à partir d'objets pédagogiques annotés et indexés. La qualité de la recherche s'améliore en améliorant celle de l'annotation. Cette dernière est elle-même dépendante de la qualité de segmentation comme nous l'avons déjà mentionné.


      image

      Figure 5 : Evolution des résultats de la recherche par rapport à celles de l'annotation


    3. Troisième étape : Classement des objets pertinents

      Après une extraction des objets pédagogiques, nous classons ces objets selon leur similarité avec la classe Cuser. Suite à plusieurs expérimentations, nous avons fixé la valeur du seuil θ :

      0.1 pour les types "Cours" et "Définition",

      0.3 pour les types "Plan" et "Exemple",

      0.45 pour les types "Caractéristique" et "Exercice".

      Notons que d'un côté, diminuer la valeur de θ réduit l'ensemble des objets pertinents retournés à l'utilisateur. D'un autre côté, augmenter la valeur de θ amène à une sélection des objets non pertinents.

      Nous avons assigné chaque objet à l'une de ces trois catégories : A (objets classés comme pertinents), B (objets classés correctement comme pertinents), C (objets pertinents). Les valeurs de précision, de rappel et de F-Mesure sont calculées pour chaque type d'objet pédagogique comme suit :


      image image image


      Nous illustrons ces valeurs relatives à chacun des types d'objets dans la Figure 5.


      image

      Figure 6 : Précision, Rappel et F-Mesure de l'étape de classement des objets


      La figure ci-dessus présente, pour chaque type d'objet (représenté sur l'axe des abscisses), sa valeur de précision représentée en bleu, sa valeur de rappel en pointillé et sa valeur de F-Mesure représentée en rayures. Nous constatons que les valeurs de précision sont comprises entre 75% et 87% et que celles du rappel entre 74% et 85%. Notons que l'étape de classement ne dépend pas strictement de celles de l'annotation et d'appariement mais plutôt d'autres paramètres comme le corpus d'apprentissage, le choix des termes index, etc.


  6. Conclusion et Perspectives


Dans cet article, nous avons proposé une approche d'indexation d'objets pédagogiques basée sur une annotation sémantique du texte par exploration contextuelle en vue d'une extraction des objets pédagogiques pertinents. Actuellement, notre travail présente un intérêt important dans plusieurs domaines d'application comme l'apprentissage en ligne, l'enseignement à distance (e-learning), l'éducation, etc. Pour évaluer notre approche, nous avons développé le système SRIDoP qui comprend les modules d'annotation, d'indexation, et de classement des objets selon leur pertinence. Nous remarquons, à travers les résultats d’évaluation, que notre approche permet d’avoir accès aux connaissances qui sont exprimées dans les textes selon un type donné, et de ramener des énoncés qu’un système de recherche d’informations classique ne parvient à capter par son approche d’indexation par mots clés.

L'un des travaux futurs que nous envisageons est l'extension de la carte sémantique des types d'objets pédagogiques par d'autres types comme Méthode, Auteur, Date, etc. Nous pensons aussi à la proposition d'une


fonction score qui fusionne les résultats des deux modules d'annotation et de classement en vue d’améliorer la pertinence des résultas.


Bibliographie


BUCKLEY C., SALTON G., ALLAN J. (1994). The effect of adding relevance information in a relevance feedback environment. Actes de International ACM SIGIR Conference, 292-300.

BUFFA M., DEHORS S., FARON-ZUCKER C., SANDER P. (2005). Vers une

approche Web Sémantique dans la conception d’un système d’apprentissage. Revue du projet TRIAL SOLUTION, AFIA.

DEHORS S., FARON-ZUCKER C., STROMBONI J.P., GIBOIN A. (2005).

Des annotations Sémantiques pour apprendre : l’Expérimentation QBLS. WebLearn.

DESCLES J.P. (1997). Système d’exploration Contextuelle. Co-texte et calcul du sens, Caen, 215-232.

DJIOUA B., FLORES J.G, BLAIS A., DESCLES J.P., GUIBERT G., JACKIEWIEZ A., LE PRIOL F., NAIT Baha L., SAUZAY B. (2006) Excom:

an automatic annotation engine for semantic information. Dans Proc. FLAIRS, AAAI Press, Florida, 285-290.

ELKHLIFI A., Faiz R. (2009). Automatic Annotation Approach of Events in News Articles. International Journal of Computing & Information Sciences, 19- 28.

ELKHLIFI A., Faiz, R. (2010). French-Written Event Extraction Based on Contextual Exploration. Dans Proc. FLAIRS, AAAI Press, Florida.

FLORY L. (2004). Les caractéristiques d'une ressource pédagogique et les besoins d'indexation qui en résultent. Journée d'étude sur l'Indexation des ressources pédagogiques numériques, Ennsib, Villeurbanne.

GREENWOOD M.A., SAGGION H. (2004). A Pattern Based Approach to Answering Factoid, List and Definition Questions. Dans Proc. RIAO 2004, Avignon, France.

HASSAN S., MIHALCEA R. (2009). Learning to identify educational materials. Dans Proc. RANLP, Bulgaria.

ITTNER D.J., Lewis D.D., Ahn D. D. (1995). Text categorization of low quality images. Actes de SDAIR, Las Vegas, US, 301-315.

MOURAD G. (2002). La segmentation de textes par Explration Contextuelle automatiques, présentation du module SegATex. Dans Inscription Spatiale du Langage : structure et processus ISLsp, Toulouse.

ROCCHIO J. (1971). Relevance feedback information retrieval. In Gerard Salton editor, The Smart retrieval system experiments in automatic document processing, Prentice-Hall, Englewood Cliffs, NJ, 313-323.

SALTON G. (1991). Developments in automatic text retrieval. Science, 253 (5023), 974-980.

SMEI H., BEN HAMADOU A. (2005). Un système à base de métadonnées pour la création d’un cache communautaire-Cas de la communauté pédagogique. Dans Proc. IEBC, Hammamet, Tunisie.


SMINE B., FAIZ R., DESCLES J.P. (2010). Analyse de documents pédagogiques en vue de leur annotation. Revue des Nouvelles Technologies de l'Information (RNTI), E-19, Ed. Cépaduès, 429-434.

THOMPSON C., SMARR J., NGUYEN H., MANNING C. (2003). Finding

educational resources on the web : Exploiting automatic extraction of metadata. Proc. ECML, Workshop on Adaptive Text Extraction and Mining.

WESTERHOUT E., MONACHESI P. (2008). Creating glossaries using pattern- based and machine learning techniques. Dans Proceedings of Map of Language Resources, Technologies and Evaluation.


Indexation sémantique de documents textuels


Fatiha BOUBEKEUR

Université Mouloud Mammeri, Algérie


Wassila AZZOUG

Université M’hamed Bouguerra, Algérie


Sarah CHIOUT

Université Mouloud Mammeri, Algérie


Mohand BOUGHANEM

IRIT-SIG, Université Paul Sabatier de Toulouse


Résumé : Ce papier décrit une approche d’indexation sémantique des documents. Nous proposons d'utiliser WordNet comme ressource linguistique afin de retrouver les concepts représentatifs du contenu d’un document. Notre contribution porte sur trois aspects: nous proposons

(1) une approche d’identification des concepts en utilisant la base lexicographique WordNet, (2) une approche de désambiguïsation à deux niveaux, basée sur l’utilisation conjointe de WordNetDomains et de WordNet, et (3) une approche de pondération des concepts basée sur une nouvelle notion d’importance.


Mots-clés : Recherche d’information, indexation sémantique, désambiguïsation, WordNet, WordNetDomains.


Abstract : This paper describes a document semantic indexing approach. We propose to use WordNet as linguistic resource for retrieving the representative concepts of a document. Our contribution in this paper is threefold: we propose (1) an approach for identifying concepts using WordNet lexical database, (2) a disambiguation approach based on the joint use of WordNet and WordNetDomains, and (3) a concept weighting approach based on a novel definition of concept importance.


Keywords : Information retrieval, semantic indexing, disambiguation, WordNet, WordNetDomains.


Introduction et problématique


Un processus de recherche d'information (RI) a pour but de sélectionner l'information pertinente pour un besoin en information exprimé par l’utilisateur sous forme de requête. Une étape clé dans ce processus de RI, est l’indexation. L’indexation consiste à représenter requêtes et documents par un ensemble de termes (généralement des mots simples) pondérés, sensés définir au mieux leurs contenus sémantiques. Les termes sont automatiquement extraits ou manuellement assignés aux documents et aux requêtes, puis pondérés par des valeurs numériques qui traduisent leur importance dans le document. De la qualité de l’indexation dépend en grande partie la qualité de la recherche.

Un facteur clé impactant la qualité de l’indexation concerne la capacité du système à traiter avec l’ambiguïté de la langue naturelle et à comprendre les sens des mots dans les documents. Il ne s’agit plus alors de représenter le document par de simples chaines de caractères (entités lexicales), mais bien par des entités véhiculant des sens (entités sémantiques): les concepts. L’indexation sémantique, se base sur les concepts plutôt que sur les mots pour indexer les documents. Pour ce faire, les approches d’indexation sémantiques se basent globalement sur trois étapes : (1) une première étape d’identification des termes à l’issue de laquelle les mots (simples ou composés) contenus dans le document sont identifiés. Cette étape se base sur des techniques linguistiques classiques (tokénisation, lemmatisation, élimination de mots vides) et sur quelques techniques plus avancées d’identification des collocations de mots, (2) une seconde étape de désambiguïsation des sens des mots qui a pour objet de retrouver le sens correct d’un mot dans un contexte donné. Pour ce faire, les approches de désambiguïsation s’appuient sur des ressources linguistiques telles que les corpus d’apprentissage [5], [8], [12], dictionnaires automatisés [6], [9], [18], [20], ou encore les ontologies [14], [16], et autres Wikipédia [11], qui constituent des sources d’évidence pour les définitions et sens d’un mot. Le principe de la désambiguïsation consiste en général à associer un score de désambiguïsation aux différents sens possibles d’un mot (fournis par les dictionnaires et autres ressources …). La précision de la désambiguïsation dépend non seulement de la ressource linguistique utilisée mais aussi en grande partie du score de désambiguïsation établi. (3) Dans la troisième étape, il s’agit de pondérer les concepts identifiés à l’issue de l’étape précédente. La pondération a pour objet d’associer à chaque concept un poids numérique représentant son degré d’importance dans le document. La pondération est un problème crucial en RI. La qualité de la recherche dépend de la qualité de la pondération adoptée.

Ce papier présente la formalisation d’une approche d'indexation sémantique de documents. Dans cette approche, nous proposons d’utiliser WordNet [13] et son extension WordNetDomains comme


source d’évidence pour l’identification des sens des mots et pour leur pondération. Les mots sont alors désambiguïsés par rapport à leurs domaines associés dans WordNetDomains. La pondération d’un concept s’appuie sur une notion revisitée de l’importance d’un concept.

Le papier est structuré comme suit : Après une introduction, nous présentons en section 1 une synthèse des travaux dans le domaine, puis nous situons notre contribution. En section 2, nous donnons quelques notions préliminaires sur WordNet et WordNetDomains, puis des définitions utilisées dans la suite du papier. Notre approche d’indexation sémantique est détaillée en section 3. La section 4 présente une illustration. La section 5 conclut le papier.


  1. Etat des lieux de l’indexation conceptuelle


    L’indexation conceptuelle représente les documents par des concepts. Ces concepts sont extraits d’ontologies et autres ressources linguistiques. Pour ce faire, le processus d’indexation s’appuie en générale sur deux étapes : l’identification des concepts et leur pondération. Le processus clé dans l’étape d’identification des concepts concerne la désambiguïsation des sens des mots. De nombreuses approches existantes se basent sur WordNet comme source d’évidence pour la désambiguïsation. C’est ainsi que pour désambiguïser un mot ambigu, Voorhees [19] classe chaque synset (sens correspondant à une entrée de WordNet) de ce mot en se basant sur le nombre de mots co-occurrents entre un voisinage (Voorhees l'a appelé hood) de ce synset et le contexte local (la phrase où l’occurrence du mot apparaît) du mot ambigu correspondant. Le synset le mieux classé est alors considéré comme sens adéquat de l’occurrence analysée du mot ambigu. Les concepts sont ensuite pondérés en utilisant un schéma de pondération classique tf*idf normalisé. Dans une approche différente, Katz et al [17] proposent aussi une approche basée sur le contexte local. Le contexte local d'un mot est défini comme étant la liste ordonnée des mots démarrant du mot utile le plus proche du voisinage gauche ou droit jusqu'au mot cible. L’hypothèse de Katz et al. est que des mots utilisés dans le même contexte local (appelés sélecteurs) ont souvent des sens proches. Les sélecteurs des mots d’entrée sont extraits des contextes locaux gauche et droit, puis l’ensemble S de tous les sélecteurs obtenus est comparé avec les synsets de WordNet. Le synset qui a le plus de mots en commun avec S est sélectionné comme sens adéquat du mot cible. Ce principe est repris dans l’approche d’indexation de Baziz et al. [1]. Les auteurs considèrent ainsi que parmi les différents sens possibles (concepts candidats) d’un terme donné, le plus adéquat est celui qui a le plus de liens sémantiques [9], [10], [15] avec les autres concepts du même document. L’approche consiste à affecter un score à chaque concept


    candidat d’un terme d’indexation donné. Le score d'un concept candidat est obtenu en sommant les valeurs de similarité qu'il a avec les autres concepts candidats correspondant aux différents sens des autres termes du document. Le concept candidat ayant le plus haut score est alors retenu comme sens adéquat du terme d’indexation associé. Les concepts sont ensuite pondérés sur la base d’un schéma de pondération dit Cf*idf, qui étend la pondération tf*idf pour tenir compte des termes composés. L’approche de Baziz et al. a été reprise dans Boughanem et al. [4], avec une nouvelle définition de la pondération. En effet, dans [4], les auteurs introduisent les notions de centralité et de spécificité d’un concept. La centralité définit le nombre de relations de ce concept avec les autres concepts du document. Sa spécificité définit son degré de « spécialité ». Le schéma de pondération utilisé est basé sur la combinaison de ces deux mesures. Dans notre approche d’indexation sémantique proposée dans [2], [3], le choix du concept correct dans un contexte s’appuie sur un score basé sur la somme des valeurs de similarité que le concept cible a avec les concepts les plus fréquents dans le document. Les concepts sont alors pondérés sur la base d’une mesure de leur importance dans le document, quantifiée au travers de leur proximité sémantique aux autres concepts du document. Dans une approche plus récente [7] les auteurs proposent une approche intéressante de désambiguïsation à deux niveaux : d’abord retrouver le domaine correct d’un mot dans le document, puis désambiguïser ce mot dans le domaine ainsi identifié. Le domaine correct d’un mot est celui qui maximise ses occurrences dans le contexte local du mot cible. Les auteurs utilisent WordNetDomains, qui permet de classifier les différentes entrées de WordNet dans des domaines prédéfinis.


    Positionnement de notre proposition

    Notre approche proposée dans ce papier tente de combiner notre approche d’indexation conceptuelle dans [2], [3] et l’approche de désambiguïsation par les domaines au sein d’un paradigme unifié. L’objectif est de représenter de manière précise le document par un noyau sémantique composé de concepts pondérés. Dans notre proposition, les termes d’indexation sont d’abord extraits en se basant sur des étapes d’indexation classiques. Cette étape inclut en outre une nouvelle proposition pour la détection des collocations à partir d’une liste pré-établie des collocations de WordNet; A l’issue de cette étape, trois listes sont construites : la liste des collocations, la liste des mots simples ayant des entrées correspondantes dans WordNet, et la liste des mots simples n’ayant pas d’entrée dans WordNet (ces mots seront dits des mots orphelins). Puis chaque mot non vide identifié dans WordNet est désambiguïsé dans son contexte global dans le document. La désambiguïsation d’un mot se base d’abord sur sa désambiguïsation de


    domaine (ie. trouver le domaine correcte du mot dans le document), puis sa désambiguïsation sémantique dans le domaine choisi.

  2. Préliminaires


    1. WordNet

      WordNet est un réseau lexical électronique qui couvre la majorité des noms, verbes, adjectifs et adverbes de la langue Anglaise, qu’il structure en un réseau de noeuds et de liens.

      • Les noeuds sont constitués par des ensembles de termes synonymes appelés synsets.

        • Un synset représente un concept.

        • Un concept est une entité sémantique, lexicalement représentée par un terme.

        • Un terme peut être un mot simple ou une collocation de mots

      • Les liens représentent des relations sémantiques entre concepts, dont par exemple les relations d’hyponymie-hyperonymie suivantes :

      • la relation de subsumption entre noms, (relation is-a) qui permet d’associer un concept classe (l’hypernyme) à un concept sous-classe (l’hyponyme). Par exemple, le nom tower#1 a pour hyponymes silo, minaret, pylon…Cette relation permet d’organiser les concepts de WordNet en une hiérarchie.

      • la relation d’instanciation (instance) qui permet d’associer un concept et son instance. Par exemple, le nom tower#1 a pour instance hyponyme tour Eiffel.

        Un exemple de hiérarchie de synsets correspondant au nom « bank » est donné en Table 1.


        image


        Table 1 : Les concepts de WordNet correspondants au mot bank


        WordNetDomains est une extension de WordNet dans laquelle les synsets ont été étiquetés par des labels de domaines. Un exemple de domaines associés au synsets du mot bank est donné en Table 2.

        Ces domaines sont organisés selon une hiérarchie définissant la relation de spécialisation/généralisation entre les domaines. Par exemple, le domaine Tennis est plus spécifique que le domaine Sport, et le domaine Architecture est plus général que le domaine Buildings. Une partie de la hiérarchie de WordNetDomains est donnée en Table3. Le domaine Top- Level représente la racine de cette hiérarchie. Le domaine Factotum de WordNetDomains est un domaine fonctionnel (par opposition à sémantique) qui regroupe tous les sens des mots qui n’appartiennent à aucun domaine particulier mais qui peuvent apparaître avec des termes associés à d’autres domaines. Factotum constitue un domaine particulier, indépendant du domaine Top-Level et de sa hiérarchie.


        image


        Table 2 : Les domaines associés dans WordNetDomains, aux synsets du mot bank


    2. Définitions et notations

      Soit mi un mot d’un texte à analyser.

      1. On appelle occurrence de mi, toute instance de mi dans le texte.

      2. Une instance de mi apparaît dans une seule phrase. L’ensemble des mots de cette phrase constitue son contexte local. On note le contexte

        local de l’instance mi par image

      3. On appelle contexte local droit de l’instance mi, l’ensemble des mots à droite de mi jusqu’à la prochaine ponctuation. Le contexte local droit de

        l’instance mi sera noté : image

      4. On appelle expression locale de l’instance mi, la chaîne de caractères concaténant, par le biais du souligné (_), le mot mi avec les mots de contexte local droit successivement. La taille d’une expression locale est le nombre de mots qui la composent.

      5. On appelle contexte global du mot mi, l’union de tous ses contextes locaux dans le texte du document. Le contexte global du mot sera noté

      image

      par :


      image


      Table 3 : Extrait de la hiérarchie de WordNetDomains


  3. Indexation sémantique des documents


    L’indexation sémantique vise à représenter un document par un ensemble de concepts pondérés qui décrivent au mieux son contenu.

    Le processus d'indexation du document s’effectue en trois étapes : (1) l’identification des termes d’index, (2) la désambiguïsation des termes d’index et (3) la pondération des concepts.


    1. Identification des termes d’index

      Le but de cette étape est d'identifier :

      1. l’ensemble image des expressions du document, correspondant aux collocations de WordNet.

      2. l’ensemble image des mots simples ayant une entrée dans WordNet,

      3. l’ensemble image des mots orphelins (mots simples n’ayant pas d’entrée dans WordNet).

      Cette étape débute par l’identification des expressions. Pour cela, nous

      image

      avons d’abord construit la liste de toutes les collocations


      existantes dans WordNet. Puis, pour une occurrence de mot à analyser, on extrait de image l’ensemble image de toutes les collocations qui commencent par mi. On ordonne image par tailles décroissantes de ses

      éléments, puis on projette chaque élément de image sur des expressions

      locales Ei de mi. Si une expression locale s’apparie avec une collocation, elle est retenue comme expression et insérée dans l’ensemble image. Si

      aucune collocation de imagene s’apparie avec une expression locale de mi, alors mi est un mot simple. Si mi possède une entrée dans WordNet, il sera inséré dans l’ensemble image ; Sinon il sera mis dans l’ensemble

      des orphelins image.

      Le principe de l’identification des termes est décrit à travers l’algorithme de la Table 4.


      image


      Table 4: Algorithme de détection des termes d’index


    2. Désambiguïsation des termes

      Les collocations étant des expressions quasiment désambiguïsées, l’étape d’indexation concernera uniquement les mots simples ayant des entrées

      image

      dans WordNet, soit donc l’ensemble des termes de .


      Chaque terme de image peut avoir plusieurs sens possibles. Le but de cette étape est de sélectionner le meilleur sens du terme dans le document. L’approche de désambiguïsation proposée est une approche à

      trois niveaux :

      1. dans le premier niveau, il s’agit de déterminer la forme grammaticale (nom, verbe, …) du mot mi dans le document, en utilisant le Stanford POS Tagger.

      2. le second niveau, permet d’identifier le domaine d’usage du mot dans le document. L’identification des domaines s’appuie sur l’utilisation de WordNetDomains. Ce niveau de désambiguïsation permettra de limiter le nombre de sens du terme qui seront examinés dans le niveau suivant de désambiguïsation. (3) le troisième niveau de désambiguïsation consiste alors à sélectionner parmi les sens possibles du terme dans le domaine sélectionné, celui qui est sensé le définir au mieux dans le document.


          1. Identification de la forme grammaticale des mots simples

            Les sens d’un mot mi dans WordNet sont classés selon ses différentes catégories grammaticales possibles. Ainsi, nous utilisons le Stanford POS Tagger pour identifier la catégorie grammaticale du mot mi dans le document afin de déterminer les sens appartenant à cette forme grammaticale. Cette étape permet de limiter le nombre de sens du terme qui seront utilisés dans la désambiguïsation et de récupérer les domaines qui correspondent à ses sens dans WordNetDomains.


          2. Désambiguïsation au niveau des domaines

            Chaque mot dans image possède plusieurs sens dans WordNet. Les sens de WordNet sont étiquetés dans WordNetDomains par des labels de domaines. Ainsi, un sens peut appartenir à un ou plusieurs domaines.

            On note :

            image l’ensemble de tous les synsets associés au mot mi ,

            D l’ensemble, non redondant, de tous les domaines associés aux éléments de image ,

            image est l’ensemble des synsets de image appartenant au domaine image, imagele kième élément de l’ensemble image

            Partant de l’hypothèse que le domaine probable d’un mot est celui qui maximise sa similarité avec les autres domaines des autres mots du même

            image

            contexte, nous attribuons à chaque domaine image associé à un sens du mot , un score basé sur la somme de ses similarités avec les différents


            domaines associés aux sens des autres termes tk (

            image

            image image image image image) d’index. Le domaine image ayant le plus grand score est sélectionné comme domaine adéquat pour le mot

            image

            dans le document.

            j

            j

            Formellement : ScoreD

            ⎛

            arg max⎜

            ⎞

            SimDj,Dk ⎟


            Où :

            j ⎝tk Gi k [1..n] ⎠

            image

            image

            image

            désigne la similarité entre les domaines et .


            image

            image

            Pour mesurer la similarité entre les domaines et , nous utilisons et adaptons la formule de Wu-Palmer [21] à la hiérarchie Top-Level de WordNetDomains, ce qui donne :


            image


            Où :

            image : est le domaine le plus spécifique qui subsume image et image dans la hiérarchie de WordNetDomains.

            image: est le nombre d’arcs entre la racine de WordNetDomains et le domaine image.

            image: est le nombre d’arcs entre la racine de WordNetDomains et le domaine image en passant par le domaine image.

            Remarque :

            La formule de similarité est appliquée aux seuls domaines de la hiérarchie Top-Level. Le domaine factotum, indépendant de cette hiérarchie est un domaine fonctionnel (non sémantiquement informatif). Il ne sera pas considéré dans cette désambiguïsation.


          3. Désambiguïsation des sens des mots

      image

      A l’issue de l’étape précédente, tout mot imagede image est associé à un seul domaine imagedans le document. Deux cas peuvent se présenter :

      image

      • soit possède un seul sens dans , dans ce cas il est désambiguïsé.


      • soit image possède plusieurs sens dans image, dans ce cas il est ambigu. Il faut le désambiguïser.

        Nous proposons une désambiguïsation sur les seuls sens appartenant à

        image, soit donc aux seuls éléments image de l’ensemble image. L’objectif est alors de sélectionner parmi ces sens le sens correct pour le

        mot image dans le document.

        Pour désambiguïser le mot image dans son domaine, on associe à chacun

        de ses sens imagede l’ensemble image, un score basé sur sa proximité sémantique avec les autres sens associés aux mots de son contexte global dans leurs domaines respectifs. Le concept imageayant le plus grand

        score est alors retenu comme sens adéquat pour le mot image dans d. Formellement :

        ⎛

        i ( j ) ⎜

        i ( j ) ⎜

        S k Argmax⎜

        ⎞

        i ( j ) l (m ) ⎟

        i ( j ) l (m ) ⎟

        simS k,S n⎟

        image

        image

        ⎜l / ml G i 1n S

        ⎝l i

        ⎟

        l m l ⎠

        image

        image

        simSi (j ) k,Sl ( m ) n est la similarité sémantique entre les concepts et .

        L’ensemble des concepts retenus constituera le noyau sémantique N(d)

        du document d. Pour des raisons de simplification, on utilisera la notation imagepour désigner le ième élément de N(d).


        3.3. Pondération des concepts

        Partant de l’idée qu’un concept est d’autant plus représentatif du contenu du document qu’il est fréquent et pertinent dans ce document, nous proposons de pondérer un concept avec un poids basé sur :

        Sa pertinence, que nous définissons sa proximité sémantique aux autres concepts du document,

        image

        Sa fréquence dans le document.

        Formellement, le poids du concept imageest défini par :


        α est un facteur de pondération qui permet de balancer la fréquence par rapport à la pertinence. Ce facteur pourra être fixé expérimentalement.

        Le schéma de pondération que nous proposons permet outre la pondération des concepts, la pondération des collocations et des termes


        orphelins. Dans ce dernier cas, seule la fréquence est considérée, les proximités sémantiques inexistantes, sont initialisées à zéro.

        Le noyau sémantique de d est alors construit en gardant seulement les concepts dont les poids sont plus grands qu'un seuil fixé. Nous proposons, dans un premier temps, de garder tous les concepts dont le poids est différent de zéro.


  4. Illustration


    Dans le paragraphe suivant, nous montrons la faisabilité de notre approche d’indexation sémantique en l’appliquant sur un exemple. Nous focalisons en particulier sur la désambiguïsation puisque de sa précision dépend en grande partie la précision de l’indexation.

    Etant donné le texte suivant (extrait du document Arthroskopie.00130003.eng.abstr de la collection Muchmore1) “The posterior cruciate ligament (PCL) is the strongest ligament of the human knee joint. Its origin is at the lateral wall of the medial femoral condyle and the insertion is located in the posterior part of the intercondylar area. The posterior cruciate ligament consists of multiple small fiber bundles.”


    1. Détection des concepts

      image

      Notre algorithme de détection des concepts retourne les trois ensembles : , , suivants :


      image


    2. Désambiguïsation des termes simples


      1. Identification de la forme grammaticale

        En utilisant le Stanford POS Tagger, on obtient la forme grammaticale de chaque mot simple dans le document comme suit :


        ⎧posterior/JJ, cruciate/NN, ligament/NN, strong/JJ, origin/NN, lateral/JJ, wall/NN, medial/JJ,femoral/J

        ⎩

        ⎩

        Simples ⎨ condyle/NN, insertion/NN, locate/VB, part/NN, area/NN, consist/VB, multiple/JJ, small/JJ


      2. Désambiguïsation au niveau des domaines

        Nous retrouvons pour chaque terme d’index l’ensemble des domaines associés à ses différents sens. Puis nous désambiguïsons au niveau des


        image

        1 http://muchmore.dfki.de/


        domaines. La désambiguïsation au niveau des domaines permet d’associer les domaines adéquats aux termes d’index. Les numéros des sens et les domaines associés aux termes d’index sont présentés dans les tableaux de la figure 1 suivante. Les résultats de la désambiguïsation des domaines sont récapitulés dans les tableaux de la figure 2.

        image


        Figure 1 : Sens et domaines associés aux termes d’index


      3. Désambiguïsation des sens des mots

        A l’issue de l’étape précédente, chaque terme d’index est associé aux seuls sens liés au domaine sélectionné. Seuls ces sens sont désambiguïsés. Pour le calcul du score de désambiguïsation des sens des mots, nous nous basons sur la mesure de similarité de Lesk. Dans les tableaux de la figure 2 suivante, nous représentons pour chaque terme d’index, son domaine sélectionné ainsi que ses sens associés dans ce domaine. Le sens grisé dans le tableau représente le sens désambiguïsé (sens adéquat du terme dans le document). Un examen rapide des résultats, appuyé par une désambiguïsation manuelle, nous permet de voir que :

        • La désambiguïsation au niveau des domaines a permis d’associer les domaines adéquats aux termes d’index. C’est ainsi par exemple que les termes d’index wall, area et ligament se sont vus assigner le domaine anatomy qui est le domaine le plus probable du texte indexé.

        • La désambiguïsation au niveau des sens donne aussi des sens corrects dans le document. Pour vérifier cela, nous avons comparé nos résultats avec ceux obtenus par l’approche de Baziz et al. [1] pour le même texte. Les résultats obtenus montrent que nous retrouvons plus de sens


        corrects que dans [1]. A titre d’exemple, le mot wall est désambiguïsé par wall#a#1 (définit dans WordNet par : an architectural partition …) dans [1], alors que notre approche nous retourne wall#a#5 (défini par : (anatomy) a layer (a lining or membrane)…) plus proche sémantiquement de la thématique (médicale) du document. Les résultats de notre approche sont encourageants mais doivent néanmoins être vérifiés sur une collection de taille réelle.


        image


        Figure 2 : Présentation des domaines et des sens désambiguïsés


  5. Conclusion


Nous avons présenté dans ce papier, les fondements théoriques d’une nouvelle approche d’indexation sémantique basée sur l’utilisation conjointe de WordNet et de WordNetDomains. Notre contribution porte sur les trois aspects de l’indexation sémantique : la détection des termes d’index, la désambiguïsation des termes et la pondération des concepts. En particulier, nous avons proposé une nouvelle approche de détection des concepts incluant la détection des collocations, une approche de désambiguïsation par les domaines et dans les domaines, et enfin un nouveau schéma de pondération des concepts. Nous avons montré la faisabilité de notre approche en la déroulant sur un exemple. Des travaux sont en cours en vue de sa validation expérimentale.


Bibliographie


M. BAZIZ, M. BOUGHANEM, N. AUSSENAC-GILLES. A Conceptual Indexing Approach based on Document Content Representation. Dans : CoLIS5

: Fifth International Conference on Conceptions of Libraries and Information Science, Glasgow, UK, 4 juin 8 juin 2005. F. Crestani,

I. Ruthven (Eds.), Lecture Notes in Computer Science LNCS Volume 3507/2005, Springer-Verlag, Berlin Heidelberg, p. 171-186.


F. BOUBEKEUR, M. BOUGHANEM, L.TAMINE, M. DAOUD. De l’utilisation de WordNet pour l’indexation conceptuelle des documents. 13 ème Colloque International sur le Document Electronique.16-17 Décembre 2010, INHA, Paris.


F. BOUBEKEUR, M. BOUGHANEM, L.TAMINE, M. DAOUD. Using WordNet for Concept-based document indexing in information retrieval. Dans: Fourth International Conference on Semantic Processing (SEMAPRO 2010), Florence, Italy, Octobre 2010.


M. BOUGHANEM, I. MALLAK, H. PRADE. A new factor for computing the relevance of a document to a query (regular paper). Dans : IEEE World Congress on Computational Intelligence (WCCI 2010), Barcelone, 18/07/2010- 23/07/2010, 2010.


M. CUADROS, JM., ATSERIAS, J., M. CASTILLO, M., & G. RIGAU, (2004). Automatic acquisition of sense examples using exretriever. In IBERAMIA Workshop on Lexical Resources and The Web for Word Sense Disambiguation. Puebla, Mexico.


J.A GUTHRIE, L. GUTHRIE, Y. WILKS, H. AIDINEJAD (1991). Subject- dependant cooccurrence and word sense disambiguation. In Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkley, CA. 146-152.


S. G. KOLTE, S. G. BHIRUD. Word Sense Disambiguation using WordNetDomains. In First International Conference on Emerging Trends in Engineering and Technology. 2008 IEEE DOI 10.1109/ICETET.2008.231


  1. LEACOCK, G.A. MILLER, and M. CHODOROW. Using corpus statistics and WordNet relations for sense identification. Comput. Linguist. 24, 1 (Mar. 1998), 147-165.


    M.E. LESK, Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from a nice cream cone. In Proceedings of the SIGDOC Conference. Toronto, 1986.


  2. LIN. (1998) An information-theoretic definition of similarity. In Proceedings of 15th International Conference On Machine Learning, 1998.


O. MEDELYAN ; D. MILNE ; C. LEGG ; I.H. WITTEN. Mining meaning from Wikipedia. In International Journal of Human-Computer Studies archive, Volume 67 , Issue 9 (September 2009). Pages: 716-754. Year of Publication: 2009. ISSN: 1071-5819


R. MIHALCEA and D. MOLDOVAN. Semantic indexing using WordNet senses. In Proceedings of ACL Workshop on IR & NLP, Hong Kong, October 2000


G. MILLER (1995) WordNet: A Lexical database for English. Actes de ACM 38, pp. 39-41.


P. RESNIK. Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language, Journal of Artificial Intelligence Research (JAIR), 11, 1999, (p. 95-130).


M. SUSSNA. Word sense disambiguation for free-text indexing using a massive semantic network. 2nd International Conference on Information and Knowledge Management (CIKM-1993), 67–74.


O. UZUNER, B. Katz, D. Yuret. Word Sense Disambiguation for Information Retrieval. AAAI/IAAI 1999 : 985


J. VÉRONIS and N. IDE. Word sense disambiguation with very large neural networks extracted from machine readable dictionaries. 13th International Conference on Computational Linguistics (COLING-1990), 2, 389–394. 1990.


E. M. VOORHEES. Using WordNet to disambiguate word senses for text retrieval. Association for Computing Machinery Special Interest Group on Information Retrieval. (ACM-SIGIR-1993) : 16thAnnual International Conference on Research and Development in Information Retrieval, 171–180. (1993).


  1. WILKS & M. STEVENSON. Combining independent knowledge source for word sense disambiguation. Conference « Recent Advances in Natural Language Processing », 1–7.


  2. WU & M. PALMER. Verb semantics and Lexical selection. Proceedings of the 32th Annual Meetings of the Association for Computational Linguistics, pp. 133-138. 1994.


    Partie 2 - Document interactif


    Extension d’un algorithme de Diff & Merge au Merge Interactif


    Xuan TRUONG VU

    UMR-CNRS 6599, Heudiasyc, Université de Technologie de Compiègne, France


    Pierre MORIZET-MAHOUDEAUX

    UMR-CNRS 6599, Heudiasyc, Université de Technologie de Compiègne, France


    Joost GEURTS

    UMR-CNRS 6599, Heudiasyc, Université de Technologie de Compiègne, France


    Stéphane CROZAT

    Unité Ingénierie des Contenus et Savoirs, Université de Technologie de Compiègne, France


    Résumé : De nombreuses recherches visant à gérer automatiquement la fusion de différentes versions de documents textuels structurés ont été menées et communément regroupées dans le théme "Diff & Merge de documents XML". Nous proposons dans cet article, une alternative appelée merge interactif. Cette approche consiste à ne pas appliquer systématiquement la fusion automatique mais à rendre la transformation séquentielle et interactive. L’objectif est de proposer à l'utilisateur une liste d’opérations associées au document original, qu’il/elle pourra confirmer ou non, selon l’objectif de la fusion et la détection de conflits et d’incohérences.


    Mots-clés : Edition collaborative, documents structurés, documents fragmentés, Diff & Merge


    Abstract : Numerous works to manage automatically the merge of the various versions of structured textual documents have been developed and correspond to the domain of "XML documents Diff & Merge". We propose in this paper, an alternative named interactive merge. This approach consists in not applying systematically the automatic merge but in keeping the transformation sequential and interactive. The objective is to propose to the user a list of operations associated with the original document, which he/she can confirm or not, according to the objective of the fusion and the detection of conflicts and inconsistencies.


    1. Introduction


      L'écriture collaborative est une forme d'écriture renouvelée par le numérique. Elle est devenue une pratique importante dans le monde académique, les organisations, les entreprises, et au sein des communautés en ligne. Aujourd'hui, de nombreux documents sont issus de travaux collaboratifs : journaux, manuels techniques, présentations, articles scientifiques, cours, etc. Dans un environnement collaboratif, chaque contributeur peut ajouter, modifier et supprimer des contenus.

      Si cela facilite la réalisation de documents qui exploitent au mieux les compétences de chacun, cela impose une charge supplémentaire pour maintenir la cohérence de l'ensemble et coordonner les efforts individuels. La nature de la collaboration est très variée selon la dimension et la stratégie du groupe et différentes plateformes d’édition documentaire collaborative existent sur le marché pour y répondre, dont MediaWiki ou Google Docs sont des exemples populaires. Le travail présenté dans cet article s'inscrit dans le cadre du projet ANR C2M2 dont l’objectif est de répondre aux besoins d'écriture collaborative dans le cas de documents structurés et fragmentés : On appelle document structuré un document dont la structure logique est décrite plutôt que la mise en forme physique (André et al. 1989) ; et document fragmenté un document composé par intégration de plusieurs fragments, chacun pouvant être mobilisé pour plusieurs usages au sein de différents documents (Crozat, 2007).

      En mode collaboratif et fragmenté, chaque modification d'un fragment appelle des décisions délicates en terme de répercussion pour chaque utilisateur (auteurs, lecteurs, relecteurs, co-auteurs, etc.) et pour chaque document (version avancée, version simplifiée, version papier, version écran, version de relecture, version officielle, version adaptée, etc.). La question est alors de savoir quelles décisions prendre automatiquement et/ou comment aider les utilisateurs à les prendre. Une partie de la réponse porte sur la capacité à rendre intelligibles toutes les modifications aux utilisateurs. Dans cet article nous nous penchons sur les solutions permettant de comparer a posteriori deux (ou plusieurs) versions d'un même document pour en évaluer les proximités et différences.

      Dans la seconde section, nous exposerons brièvement les différentes méthodes et outils existants de differencing et de merging pour les documents XML. Dans la section suivante, nous présenterons une nouvelle approche appelée "merge interactif" permettant à un utilisateur de visualiser, sans ambiguïté, les différences entre deux versions d’un document et de faire des choix pour procéder à leur fusion (par l'acceptation de certaines modifications et le refus d'autres). Nous


      donnerons en conclusion les premiers résultats obtenus, les fonctionnalités à étudier et implémenter et enfin, les perspectives associées à ce travail.


    2. Méthodes et outils de différentiel de documents XML


      Lorsqu’un document numérique textuel est partagé par plusieurs auteurs, il est nécessaire de pouvoir identifier les différences qui peuvent exister entre les sources pour pouvoir les synchroniser et fusionner correctement. Les travaux relatifs à ces problèmes forment le domaine du diff & merge pour lequel il existe actuellement de multiples solutions, libres et commerciales, pour divers cas d’usage, chacune apportant sa propre approche et donc ses propres propriétés et optimisations. Certaines d'entre elles sont orientées documents textuels (e.g le format MS Doc), d'autres orientées documents structurés (e.g XML). Nous donnons ci-dessous un bref panorama de ce domaine.


      1. Edits history

        Edits history est une technique consistant à capturer toutes les actions (edit) de l'utilisateur sur l'éditeur et les mémoriser dans un fichier appelé edit log. Chaque edit log est donc dupliqué et transféré à d’autres utilisateurs afin de le comparer avec leurs propres edit logs. Comparer des documents revient à comparer des edit logs. Pour synchroniser des documents, il suffit de rejouer sur un document les actions transférées depuis d'autres documents.

        Cette méthode doit résoudre deux principaux de problèmes : premièrement, il faut capturer toutes les actions de l'utilisateur : deuxièmement, il faut s'assurer de la cohérence et la complétude du fichier. En effet, chaque edit va changer la position des edits dépendants. Un exemple d’un tel outil est Microsoft Office Groove.


      2. Change detection

        Au contraire de l’Edit history, Change detection ne requière aucune connaissance de l'histoire de l'édition du fichier. Elle cherche à déterminer, à partir des seuls fichiers courants, les changements qui ont été réalisés dans chacun d’eux. Différents algorithmes existent actuellement.


        1. Les algorithmes Line oriented traitent tous les documents comme une série linéaire de lignes. UNIX diff3 est un exemple typique et le plus connu.. Il cherche la séquence la plus longue de lignes communes entre deux fichiers. Les lignes uniques dans l'un des deux documents seront


          image

          3 http://www.gnu.org/software/diffutils/diffutils.html


          supprimées ou insérées pour passer d'un fichier à l’autre. Une variante de diff est diff3 implémentant le three-way merge, qui examine dynamiquement des mots et même des caractères au lieu de lignes (par exemple, google-diff-match-patch4). Ces outils sont très adaptés et efficaces pour traiter des documents textuels mais ils ne sont pas directement applicables à des documents structurés tel que XML ou XHTML, car diff n'est pas en mesure de distinguer les informations structurelles.


        2. Tree oriented

          Les méthodes "orientées arbre" (tree oriented) prennent en considération la structure d'arborescence du document. Les nœuds et les sous-arbres seront comparés et mis en correspondance à la place des lignes. Les nœuds et les sous-arbres qui ne se correspondent pas, forment les différences entre les documents.

          On trouvera des études comparatives et détaillées des algorithmes différentiels orientés arbre dans (Cobéna et al. 2002 ; Coneba et al., 2002 ; La Fontaine, 2003 ; Marian et al. 2001 ; Peters, 2005 ; Rönnau, 2008 ; Wang et al. 2003). Ces algorithmes sont majoritairement généralistes ou orientés données XML.

          Ils sont optimisés en temps d'exécution et utilisation de la mémoire. Certains algorithmes sont spécialisés pour diff et merge à la fois tandis que d'autres ne traitent que diff.. Après une étude exhaustive des algorithmes les plus utilisés (Vu, 2011) nous avons retenu 3DM de Tancred Lindholm (Lindholm, 2003 & 2004), qui est le plus efficace en termes de qualité et clarté des résultats obtenus et dont les sources sont directement accessibles.


              1. Unique ID oriented

                Tous les algorithmes ou outils mentionnés ci-dessus, sont essentiellement basés sur une valeur de hash et le contenu de chacun des nœuds pour les mettre en correspondance par un calcul de similarité (ou dis-similarité). Thao (Thao et al., 2010) a proposé une alternative au three-way merging consistant en l'utilisation d'identifiants uniques. Si chaque élément XML possède un identifiant unique, la mise en correspondance devient triviale.


              2. Tree-Based textual documents

          XML est utilisé non seulement pour transporter des données mais aussi pour encoder des documents textuels. Selon Angelo Di Iorio et al. (Di Iorio et al., 2009), il y a une différence entre le diffing d'un XML orienté document littéraire et le diffing d'un XML orienté données.


          image

          4 http://code.google.com/p/google-diff-match-patch


          Ils ont introduit un nouvel indicateur, naturalness qui reflète la capacité de l'algorithme à identifier automatiquement les changements qui pourraient être identifiés par une approche manuelle. Cependant aucune expérimentation complète ne semble avoir été réalisée avec cet algorithme.


            1. Visualisation

              Un moteur différentiel détecte des changements entre deux documents et les enregistre dans une sortie. Quel que soit le format de la sortie, il est toujours difficile pour l'utilisateur d'interpréter un changement dans le document. Il a donc besoin d'une interface de visualisation qui va permettre de mettre en évidence les changements dans leur contexte et faciliter leur manipulation.

              En général, il y a deux modes d'affichage : Side by Side et All In One. Le premier mode consiste à ouvrir deux fichiers dans deux éditeurs identiques, l'un à côté de l'autre.

              Les différences seront surlignées respectivement dans le premier et le deuxième éditeur. Le second mode ouvre une seule vue mais y représente tous les changements. Nous avons étudié douze outils de visualisation (Vu, 2011), qui nous ont permis de proposer un outil adapté à notre approche en prenant certaines des meilleures caractéristiques dans chacun d’eux.


            2. Approche retenue

          Notre corpus documentaire est encodé en XML et valide des modèles dédiés. Nous avons donc besoin d'un outil de diff & merge orienté XML document. L'outil 3DM semble être le meilleur candidat, car son tree- matcher est efficient pour le XML généraliste et peut être encore amélioré. Il exploite toutes les opérations d’édition (e.g update, insert, delete, move et copy) et propose une représentation de bonne qualité des différences entre les documents.

          Enfin, le résultat du three-way merge par 3DM est en général meilleur que d'autres outils équivalents. De plus son code source est librement accessible, permettant de modifier ses modules pour réaliser nos propres optimisations.

          Nous avons donc utilisé 3DM comme un framework de travail auquel nous avons ajouté des extensions spécialisées et adaptées à nos documents de façon à obtenir :

          • Un merge interactif pour choisir, éditer des différences et résoudre des conflits.

          • Une amélioration du matching heuristique de 3DM

          • L’utilisation d'un algorithme différentiel basé sur le texte pour avoir des différences au niveau du contenu des nœuds XML.

          • La visualisation des différences


    3. Merge interactif


      La plupart des outils de differencing (diff) et de merging (merge) fonctionnent en deux temps. L’outil de differencing sert à montrer en quoi deux versions sont différentes alors que l’outil de merging utilise ce résultat pour fusionner automatiquement les changements afin de créer une nouvelle version. Nous proposons, ici, une alternative appelée "merge interactif". Cette approche consiste à ne pas appliquer systématiquement la fusion automatique mais à rendre la transformation séquentielle et interactive. L’objectif est de proposer à l'utilisateur une liste d’opérations associées au document original, qu’il pourra confirmer ou non, les unes après les autres. Il doit pouvoir pré-visualiser le résultat d'une opération sur le document avant de décider de l'appliquer réellement. Le document sera modifié après chaque confirmation.

      Le merge interactif répond à deux motivations principales : la première est qu'il permet à l'utilisateur de ne sélectionner que les changements jugés utiles pour sa propre version ; la seconde est qu’il permet de résoudre manuellement et convenablement les conflits d’un three-way merging.

      Une raison supplémentaire concerne la visualisation des différences. Actuellement, les outils de diff affichent toutes les différences identifiées entre deux versions du document en même temps, ce qui permet d'avoir une vision globale de celles-ci, mais reste limitée aux trois types d'opération basiques insert, delete et update. D’autre part, plus le document a été changé, plus il y a des différences et plus il est difficile d’en donner une image lisible. Le merge interactif permet de rejouer en séquence toutes les opérations, ce qui fait perdre la vue globale mais est plus avantageux en termes d'opérations possibles (e.g. move, copy) et en termes de surcharge visuelle.

      Le merge interactif ne produit pas lui-même la liste des opérations mais utilise celles fournies par un outil spécialisé. Selon les outils, deux sortes de listes sont disponibles : un ensemble d'opérations non-ordonnées expliquant ce qu’il se passe pendant la fusion mais qui n’est pas destiné à être exécuté ; un script d'opérations ordonnées permettant d'effectuer la fusion automatique. Cependant aucun de ces scripts ne peut être exploité tel quel, car, soit ils ne sont pas destinés à être manipulés, soit l'ordre des opérations est imposé. Avec un ensemble d'opérations non-ordonnées, il est possible de générer une séquence personnalisée d'opérations à condition de pouvoir prendre en considération le fait que certaines d’entre elles sont dépendantes de l’exécution préalable d’autres opérations.

      Nous allons présenter dans la section suivante les principes d’élaboration du merge interactif, puis nous décrirons son implémentation dans notre prototype.


      1. Génération des séquences d’opération

        Cette section présente les aspects principaux du merge interactif. En particulier, elle démontre qu'il existe des relations d'ordre entre certaines opérations et qu'il est possible de recombiner dynamiquement une séquence des opérations exécutables et correctes en respectant ces relations.


            1. Définitions des opérations

              Nous donnons ci-dessous les définitions des opérations appliquées à un document XML qui seront utiles pour la suite. Un document XML est une structure arborescente dont les nœuds (éléments, texte, ...) sont ordonnés : modifier un document XML revient à modifier un arbre ordonné. Soit un document XML dont la structure est représentée par l'arbre T ordonné, dont les nœuds sont notés m, n, …, nous définissons les opérations :

              insert(m,k,n) insère le nouveau nœud n en tant que k-ème enfant du nœud

              m (m T).

              delete(m) supprime totalement le sous-arbre enraciné au nœud m (m T). update(m,n) change la valeur initiale du nœud m par la nouvelle valeur n. move(m,k,n) enlève tout le sous-arbre enraciné au nœud m de sa place initiale et le déplace au dessous du nœud n en tant que k-ème enfant de ce dernier (n T).

              Il est à noter que ces opérations ne se comportent pas toujours de la même façon. En effet, elles dépendent du type de l'objet sur lequel elles portent : un nœud de texte ou un nœud d'élément. La valeur d'un nœud d'élément est le nom de la balise et ses attributs alors que celle d’un nœud de texte est une chaine de caractères. De plus, un nœud de texte n'a pas d'enfant. L'opération move peut être spécialisée par une combinaison d'insert et delete, mais l’objet sur lequel elle porte n'est ni supprimé ni inséré. On pourrait ajouter copy à cette liste l'opération mais l’avons exclue car elle est rarement présente dans les outils, génératrice d’erreurs, difficile à gérer lorsque les nœuds ont des identifiants, et s’applique mal à certains types de documents textuels.


            2. Opérations delta

              Les quatre opérations insert, delete, update et move permettent d'exprimer toutes les différences entre deux versions du document. Cependant l’expression de ces différences n’est pas unique. Dans l'exemple de la Figure 1, pour passer d’un arbre T0 à un arbre T1, il est possible que des versions intermédiaires aient donné un arbre tel que T01 . Les opérations qui font passer de l’arbre T0 à l’arbre T01 sont la modification du texte « a » en « aa » et l’insertion des nœuds c et d avec les textes « c » et « d ». Ensuite le nœud c est déplacé entre a et b, et le nœud d est supprimé. L’ensemble des opérations nécessaires pour passer de T0 à T1 forment la suite insert(R,3,c), insert(c,1, « c »), insert(R,4,d),


              insert(d,1, « d»), update(a, « aa »), delete(d), move(R,2c). Supposons que seuls T0 et T1 soient enregistrés, pour passer de T0 à T1 il suffit d’insérer un nœud c avec le contenu « c » entre a et b, ce qui se résume aux trois opérations insert(R,2,c), insert(c,1, « a ») et update(a, « aa »), toutes les autres étant devenues inutiles. Ces trois opérations n'ont rien à voir avec les vraies opérations. Cela s'explique par le fait que certaines opérations de la première phase T0 à T01 et certaines autres de la deuxième phase T01 à T1, s'appliquent aux mêmes objets. Ainsi, les résultats des premières sont annulés ou altérés par les résultats des dernières. Le résultat final est donc exprimé par d'autres opérateurs. Par exemple, ici, insert(R,3,c), insert(c,1, « c »), sont remplacées par insert(R,2,c), insert(c,1, « a ») et insert(R,4,d), insert(d,1, « d»), delete(d) s’annulent et ne donnent rien. L’ensemble des cas que l’on peut rencontrer sont présentés dans le tableau 1.


              image


              Figure 1. Etapes intermédiaires de transformation


              Opérations intermédiaires annulées

              Opération identifiée à la fin

              update(m,v) puis update(m,v')

              update(m,v')

              update(m,v) puis delete(n), n est m ou un ancêtre de m

              delete(n)

              insert(n,k,m) puis delete(o), o est un ancêtre de n

              delete(o)

              insert(n,k,m) puis delete(m)

              aucune

              insert(n,k,m) puis update(m,v)

              insert(n,k,m), m vaut v

              insert(n,k,m) puis move(o,l,m)

              insert(o,l,m)

              delete(m) puis insert(n,k,m)

              delete tous les enfants de n

              delete(m) puis delete(o), o est un ancêtre de m

              delete(o)

              move(n,k,m) puis delete(m)

              delete(m)

              move(n,k,m) puis delete(o), o est n ou un ancêtre de n

              delete(o) et delete(m)

              move(n,k,m) puis move(o,l,m)

              move(o,l,m)


              Tableau 1. Opérations intermédiaires annulées par d'autres opérations


              Les opérations insert(R,2,c), insert(c,1, « a ») et update(a, « aa ») ci-dessus sont appelées opérations deltas. Les opérations deltas ne sont pas forcément les opérations qui ont été réellement effectuées, elles utilisent des positions référencées dans l'arbre original et/ou l'arbre final pour exprimer les différences entre deux arbres. Leurs résultats sont visibles


              dans au moins un arbre. D’une façon générale on définit les opérations delta de la façon suivante :

              delete(m) est une opération delta si on trouve m dans T0 mais non dans T1. insert(m,k,n) est une opération delta si on trouve n en tant que k-ème enfant de m dans T1 mais non dans T0.

              update(m,v) est une opération delta si on trouve m dans T0 et dans T1 mais avec différentes valeurs (v dans T1)

              move(m,k,n) est une opération delta si on trouve m dans T0 et T1 mais à des positions différentes.

              Un delta ∆ de T0 à T1 est un ensemble d'opérations delete, insert, update et move satisfaisant les conditions ci-dessus. ∆ ne précise aucun ordre entre les opérations, elles sont suffisantes pour passer de T0 à T1, cependant, il faut les appliquer une par une et dans un certain ordre pour obtenir le résultat voulu. On dira que ∆ de T0 à T1 est optimal s'il n'existe aucun ∆’, sous-ensemble de ∆ permettant d'aller de T0 à T1.


            3. Relation d’ordre

              La présentation des opérations delta permettant le passage d’une version à une autre n’étant que la mise en évidence de ce qui les différentie, rien n’est dit sur la possibilité de les exécuter dans un ordre quelconque pour passer effectivement d’une version à l’autre. Prenons par exemple (Figure 2.) le cas d’un article intitulé "this is the source file" qui possède initialement deux chapitres. Chacun des chapitres contient son propre titre et des blocs constitués de paragraphes possédant éventuellement un sous-titre. On a supprimé le deuxième chapitre (delete) tout en conservant le seul bloc qu'il contient. Ce bloc est donc déplacé (move) à l'intérieur du premier chapitre en tant que 3ème enfant. Ensuite, on a changé (update) le titre du papier qui est maintenant "this is the cible file".


              image

              Figure 2. Modifications de "source file" à "target file"


              Les opérations qui ont été effectivement réalisées sont des opérations deltas car elles sont toutes repérables sur l'arbre original et l'arbre final. Ces opérations étant a priori indépendantes, il est possible de les exécuter dans n'importe quel ordre. Cependant, en examinant le contexte de l'opération move, on s’aperçoit que le bloc à déplacer se trouve dans le chapitre censé être supprimé totalement. Si l'opération delete est exécutée avant l'opération move, alors tout le chapitre est supprimé, y compris le


              bloc. En l’absence de son objet, l'opération move devient non-exécutable. Ce problème ne se présente pas si l'ordre d'exécution est inversé (move avant delete). Cet exemple montre l’existence d’une relation d’ordre sur l’exécution des opérations que nous définissons ainsi :


              Définition : Deux opérations sont liées par une relation d’ordre, notée ">", lorsque l'exécution de l’une nécessite l'exécution préalable de l'autre pour assurer la faisabilité et l'exactitude des deux.


              Soit 1 et 2 deux opérations, alors 1 > 2 signifie que 1 est dépendante de 2 et que 2 est précédente de 1. Dans une telle relation, l'opération précédente doit s'exécuter avant la dépendante. Ceci est nécessaire mais non suffisant pour que l'opération dépendante devienne exécutable. En effet, une opération peut dépendre de plusieurs opérations précédentes. Elle n'est exécutable qu'une fois que toutes ses précédentes ont été effectuées. Il faut aussi préciser qu'une opération est susceptible d'être à la fois précédente et dépendante d'autres opérations. Par exemple, soient 1, 2, 3, 4, 5, des opérations telles que : 1 >

              2 ; 1 > 3 ; 2 > 4 ; 3 > 4 ; 3 > 5 : 1 est précédente de 2 et

              3 , 2 est précédente de 4, 3 est précédente de 4 et 5, 4 est directement dépendant de 2 et 3, 4 et 5 sont dépendantes par transitivité de 1. Ainsi, 1 est une précédente indirecte de 4 et 5, 2 et 3 ne sont pas en relation, de même que 4 et 5. Pour pouvoir exécuter toutes ces opérations, il faut les exécuter dans un ordre valide. Cet ordre n'est pas unique et doit prendre en compte les trois conditions suivantes :

              2 et 3 doivent être exécutées après 1;

              4 doit être exécutée après 2 et 3 ;

              5 doit être exécutée après 3.

              Les opérations 1, 2, 3, 4, 5, forment un ensemble appelé hiérarchie

              d'opérations.


              Définition : Une hiérarchie est un ensemble d'opérations dans lequel chaque opération doit être en relation d'ordre avec au moins une autre opération de cette hiérarchie. Si une opération appartient à une hiérarchie, toutes ses précédentes et ses dépendantes y appartiennent également.


              Une hiérarchie peut être représentée par un graphe orienté. Une opération est représentée par un nœud qui peut avoir plusieurs prédécesseurs et plusieurs successeurs. Un arc correspond à une relation d'ordre dont le nœud sortant est la précédente et le nœud entrant est la dépendante. Une hiérarchie devient une arborescence à condition que chaque opération ait une seule précédente directe ou n'en ait pas.


              Une opération qui n'est ni dépendante ni précédente d'autres opération, est appelée indépendante, elle n'appartient à aucune hiérarchie.

              Un delta ∆ constitué des opérations {1, 2, … , n) peut être réécrit sous la forme {H1, H2, … , 1, 2, …} dans laquelle H1, H2, sont des hiérarchies et 1, 2 sont des opérations indépendantes.

              Il faut alors répondre à deux questions : une hiérarchie peut-elle posséder un cycle ? deux hiérarchies sont-elles disjointes ?

              La réponse à la seconde question est triviale par la définition d’une hiérarchie. En effet, si une opération appartient à la fois à Hm et Hn, alors toutes ses précédentes et ses dépendantes aussi. Par conséquent, Hm n'est rien autre que Hn.

              Pour répondre à la première question, une solution consiste à explorer

              toutes les relations possibles entre les opérations, puis chercher à les enchainer afin de détecter l’existence de cycles.

              Une étude exhaustive nous a permis de trouver les relations de dépendance suivantes :


              insert(.,.,n) > insert(n,k,m) insert(n,l,.) > insert(n,k,m) si l < k move(n,l,.) > insert(n,k,m) si l < k

              delete(o) > insert(n,k,m) si parent(o)= n : et : position(o) <= k move(p,l,q) > insert(n,k,m) si parent(q)= n : et : position(q) <= k insert(.,.,n) > move(n,k,m)

              insert(n,l,.) > move(n,k,m) si l < k move(n,l,.) > move(n,k,m) si l > k

              delete(o) > move(n,k,m) si parent(o)= n : et : position(o) <= k move(p,l,q) > move(n,k,m) si parent(q)= n : et : position(q) <= k move(n,k,o) > delete(m) si o in T(m)


              Nous pouvons distinguer deux groupes : le premier comprend les relations 1, 6 et 11. Ces relations sont des conditions consistantes sans lesquelles l'exécution des opérations concernées n'est pas possible. Les relations du deuxième groupe ne conditionnent pas l'exécution des opérations mais assurent leur exactitude en termes de résultat final, c’est donc dans ce deuxième groupe que nous cherchons à annuler l’existence de cycles. En fait, ils apparaissent dans les relations 4, 5, 9 et 10 et cela est dû au fait d'utiliser la position exacte, dans l'arbre final, du nœud inséré ou déplacé.

              Une première solution consiste à "relativiser" le paramètre k dans la définition des opérations insert et move. La valeur de k n'indique pas la position dans l'arbre final, du nœud inséré (ou déplacé) mais indique la position dans l'arbre actuel où le nœud est inséré (ou déplacé). Cela permet d'exécuter correctement les inserts et moves sans dépendre des autres opérations. Pour chaque insert et move, il faut donc recalculer k en fonction du nombre de deletes et moves sortants ainsi que du nombre


              d'inserts et moves entrants pour les nœuds du même parent et situés à gauche du nœud m. Chaque insert ou delete ou move effectué change la liste des enfants. Il faut donc également changer la valeur du k des insert ou move entrant. Concrètement, après l'insertion ou le déplacement d'un nœud dans la liste des enfants, les positions des nœuds les plus à droite à insérer ou à déplacer, doivent être incrémentées de 1; après la suppression et le déplacement d'un nœud en dehors de la liste des enfants, les mêmes positions précédentes doivent être décrémentées de 1 (Figure 3).

              Cette première solution permettra d'annuler toutes les relations d'ordre du deuxième groupe. Il nous reste donc les relations du premier groupe 1, 6 et 11. En enchaînant ces trois relations, on peut


              image


              Figure 3. k est recalculé pour assurer l'exécution correcte des opérations


              uniquement obtenir une séquence telle que : insert supérieur > insert inférieur > move ou encore inférieur > delete (contenant l'objet du move) qui ne forment jamais de cycle.

              La deuxième solution, plus radicale, consiste à redéfinir insert et move : au lieu d'insérer ou déplacer un nœud à une position précise k, on peut l’insérer ou le déplacer après un nœud left :

              insertAfter(n,left,m) insère le nœud m après le nœud left qui est un enfant du nœud n

              moveAfter(n,left,m) déplace le nœud m après le nœud left qui est un enfant du nœud n

              Le nœud n est nécessaire car si left est égal à null, le nœud m est inséré ou déplacé au dessous du nœud n en tant que premier enfant. L'insertAfter(n,null,m) et le moveAfter(n,null,m) sont donc possibles si et seulement si le nœud n est présent au moment de l'exécution. Le nœud n peut être lui-même l'objet d'un insertAfter supérieur. Il faut donc que ce dernier soit préalablement exécuté.

              insertAfter(.,.,n) > insertAfter(n,null,m) insertAfter(.,.,n) > moveAfter(n,null,m)


              Dans le cas contraire, l'insertAfter(n,left,m) et le moveAfter(n,left,m) nécessitent que le nœud left soit présent au moment de l'exécution. Il se peut que ce dernier soit également l'objet d'une autre opération insertAfter(n,left.left,left) ou moveAfter(n,left.left,left) sachant que le nœud left.left peut être égal à null. Il faut donc exécuter les insertAfter et moveAfter l'un après l'autre en commençant par les nœuds plus à gauche. insertAfter(n,left.left,left) > insertAfter(n,left,m), left ≠ null

              moveAfter(n,left.left,left) > insertAfter(n,left,m), left ≠ null insertAfter(n,left.left,left) > moveAfter(n,left,m), left ≠ null moveAfter(n,left.left,left) > moveAfter(n,left,m), left ≠ null

              Il reste à démontrer l'inexistence de cycles. Parmi les trois opérations, seules insertAfter et moveAfter peuvent être à la fois dépendantes et précédentes d'autres opérations alors que le delete est uniquement dépendante, ce qui implique qu'un cycle, s'il existe, contiendrait seulement des opérations insertAfter et moveAfter. L'insertAfter et le moveAfter sont pratiquement identiques en termes de relations avec d'autres opérations, il suffit donc d'examiner l'une des deux. L'insertAfter


              image

              Figure 4. InsertAfer dépend d'InsertAfter à gauche et d'InsertAfter supérieur :


              insertAfter(a,b,I) > insertAfter(I,null,i1) > moveAfter(I,i1,m) > insertAfter(I,m,i2) peut dépendre de l'insertAfter (ou moveAfter) à gauche qui peut également dépendre de l'insertAfter (ou moveAfter) encore plus à gauche. Si le nœud inséré (ou déplacé) de ce dernier est le premier enfant de son parent, l'insertAfter (ou moveAfter) dépend de l'insertAfter supérieur qui à son tour peut dépendre d'un insertAfter encore supérieur ou d'un insertAfter (ou moveAfter) à gauche. Le processus peut continuer ainsi de suite, mais dans une seule direction, vers le haut de l'arborescence (Figure 4). Il n'y aura jamais d'opération insertAfter (ou moveAfter) qui dépende du tout premier insertAfter, il n'y aura donc pas de cycle.

              Ces deux solutions permettront d'éliminer les cycles et d'assurer l'exécution correcte des opérations. La première solution ne change pas


              la définition des opérations mais elle est compliquée à cause des calculs qu'elle génère. La deuxième solution n'exige pas de calcul, mais elle nécessite d’enregistrer aussi l'information relative au nœud à gauche pour toutes les opérations insertAfter et moveAfter.


            4. Principe d'acceptation et de refus

              Une opération est exécutable quand toutes ses conditions d'exécution sont satisfaites et ne l'est pas si au moins une condition n'est pas satisfaite. Accepter une opération ne rend pas tout de suite exécutable ses opérations directement dépendantes mais permet de satisfaire l'une des conditions d'exécution de celles-ci. Au contraire, le fait de refuser une seule opération aura éventuellement un effet en cascade sur plusieurs autres opérations. Par simplicité, on peut dire que refuser une opération signifie refuser toutes ses opérations dépendantes (directement ou par transitivité).

              Ce n'est pas tout à fait correct car il faut prendre en considération la nature de chaque condition. Comme indiqué ci-dessus, il y a deux groupes de relations. Le premier est lié à la possibilité de l'opération (est- elle possible ?), alors que le deuxième concerne l'exactitude de l'opération (est-elle correcte ?). Si la condition insatisfaite est du premier groupe, le refus en cascade est inévitable. Par contre, s'il s'agit d'une condition du deuxième groupe, l'opération reste exécutable mais sera incorrecte. Cela demande donc de modifier les paramètres des opérations dépendantes : Refuser un insert ou move d'un nœud implique dés-incrémenter la position des inserts et moves plus à droite,

              Refuser un insertAfter ou moveAfter d'un nœud implique changer le paramètre 'nœud à gauche' de l'insertAfter ou moveAfter à droite par le nœud à gauche de l'opération refusée.


            5. Opération réversible

              Durant l'exécution des opérations, il est parfois nécessaire d'inverser (ou annuler) des opérations acceptées. Les opérations, telles que définies, ne sont pas inversibles parce que dans leur définition, il manque des données complémentaires. Par exemple, l'opération delete(m) supprime un sous-arbre enraciné au nœud m. L'inverser nécessite une opération insert, mais on ne sait pas où exactement réinsérer le sous-arbre supprimé. Marian et al., (Marian et al., 2001) ont défini des opérations complètes (completed delta) permettant non seulement d'exécuter mais aussi d'inverser l'opération. Il est également à noter qu'inverser une opération implique rend insatisfaites des conditions relatives dans lesquelles l'opération joue le rôle de précédent.


            6. Algorithme de mise en ordre des opérations

        La remise en un ordre valide des opérations pour un merge interactif n'est pas strictement nécessaire. En effet, durant le merge, l'utilisateur peut ne


        sélectionner que les opérations exécutables quel que soit leur ordre. En revanche, si l'opération fait partie d'une hiérarchie, il est pratique d'en percevoir immédiatement les opérations dépendantes et d'enchaîner toute la hiérarchie. Ces actions ne sont plus triviales quand les opérations relatives sont dispersées, il faut donc pouvoir les mettre ensemble. En particulier, si nous voulons être en mesure de les rejouer en séquence, il faut trouver un ordre valide pour en assurer le bon fonctionnement. Un ensemble d'opérations non-ordonnées contient éventuellement plusieurs hiérarchies distinctes et mélangées avec des opérations indépendantes. Notre algorithme de mise en ordre des opérations cherche itérativement à remettre celles appartenant à une même hiérarchie ensemble puis à placer une opération après ses opérations précédentes. Dans un premier temps, l'opération précédente est remontée devant l'opération dépendante si ce n'était pas déjà le cas. Une fois que toutes les opérations précédentes sont placées devant les opérations dépendantes, il met cette dernière juste après sa précédente dans la liste. La terminaison de l'algorithme est assurée grâce à la caractéristique acyclique des hiérarchies.


          1. Implémentation

            Le merge interactif ne produit pas lui-même les opérations permettant la transformation entre les versions du document. Il récupère la liste des opérations enregistrées par 3DM mais ne les exploite pas immédiatement car il faut examiner préalablement les relations éventuelles entre les opérations telles que présentées dans la section précédente. La première implémentation mobilise également un algorithme de comparaison de texte, pour compléter 3DM. Elle a été testée sur les documents au format XML issus de notre base documentaire.


            1. Algorithmes utilisés

              En merge interactif, nous voulons être en mesure de retracer et visualiser des changements à la fois au niveau de la structure de l'arborescence du document et dans son contenu textuel. Pour ce faire, nous avons eu recours à deux algorithmes complémentaires : 3DM de Lindohlm, destiné à examiner la structure d'arbre de XML et Google-diff-match- patch, pour différencier des textes. Ce dernier va mettre en évidence les mots et même les caractères du contenu d’un nœud texte qui ont été insérés ou supprimés. 3DM enregistre toutes les opérations dans un fichier de format XML appelé edit log. L'ordre d'enregistrement des opérations est celui de l'insertion des nœuds en vue de construire l'arbre final. Chaque enregistrement correspond à une opération précise, les propriétés de l'opération sont décrites par des paires "attribut-valeur", qui indiquent la position des nœuds impliqués par l’opérateur dans l’arbre original et final, du parent adoptif d’un nœud déplacé ou inséré. Les informations nécessaires au parcours des arbres pour retrouver les


              nœuds impliqués par les opérations sont encodées. La version actuelle du merge interactif n'implémente que les relations du premier groupe, elle ne traite pas encore des cycles. Le positionnement de certains nœuds insérés ou déplacés peut donc être inexact. Dans la prochaine implémentation, pour éliminer les cycles, l'une des deux solutions mentionnées ci-dessus sera utilisée, la deuxième solution étant préférable, l'information sur le nœud à gauche d'un nœud inséré (ou déplacé) pouvant être enregistrée par 3DM.


            2. Vue globale de l'implémentation

              Le premier prototype du merge interactif a été réalisé en Java. La classe principale est un JFrame, qui contient un panel de la classe InteractiveMergePanel. Ce dernier joue à la fois le rôle de vue et de contrôleur. Elle présente les données (des opérations, la structure et le contenu textuel du document XML). Elle reçoit les actions de l'utilisateur et les traite. Les données sont réellement modifiées par la classe Merge.

              L'edit log est modélisé par la classe EditLog, qui contient la méthode sort, qui implémente l'algorithme de remise en ordre des opérations. L'opération est stockée dans l'objet Operation, qui possède la méthode isBelongTo afin d'examiner si une opération est dépendante d'une autre opération. La classe Path est utile pour manipuler les paths des nœuds de 3DM.

              Les fichiers XML sont parsés et traités par un parser de type DOM qui crée pour chacun des fichiers, un objet d'arbre interne facile à accéder et à modifier. Pour assigner cet objet d'arbre à un Swing JTree destiné à s'afficher sur l'interface, nous avons utilisé les classes XMLTreeNode et XMLTreeModel de Rob Lybarger5 La classe TreeCellCustomRenderer permet de changer l'affichage de l'arbre.


            3. Interface graphique du merge interactif

        L'interface principale du merge interactif (Figure 5) est constituée de trois panneaux :

        Le premier panneau affiche la liste des opérations regroupées en hiérarchies. Une opération est représentée par son type, le nœud concerné et d'autres paramètres. Les opérations activées sont susceptibles de s'exécuter immédiatement. Les opérations désactivées sont dépendantes. Elles doivent attendre l'exécution de leurs opérations précédentes afin d'être activées et exécutables. L'utilisateur peut choisir les opérations activées pour les exécuter l'une après l'autre dans n'importe quel ordre.

        Le deuxième panneau représente la structure d'arborescence interactive du document XML. Cet arbre s'étend à tous les nœuds internes et non


        image

        5 http://www.developer.com/xml/article.php/3731356/Displaying-XML-in-a-Swing- JTree.htm


        aux feuilles textuelles. En cliquant sur un nœud, le contenu textuel de ce nœud est affiché dans le troisième panneau.

        Le troisième panneau affiche le contenu textuel du document XML dans un format purement textuel. Les titres (du papier, du chapitre, de la session, ...) sont en gras et les paragraphes sont espacés.

        Ce premier prototype a été utilisé sur des documents académiques réels de notre base documentaire et a permis d’en tester les différentes fonctionnalités (parcours d’arborescence, sélection d’opérations ou de séquences d’opération, validation de séquences dépendantes ou annulation, retour en arrière, prévisualisation de l’effet d’un opérateur, visualisation de modifications de textes, …) et d’évaluer la qualité de leur usage, tant du point de vue opérationnel que de la convivialité de l’interface. Il a été testé sur des documents dont la structure pouvait atteindre jusqu’à 17 niveaux d’éléments, contenant des balises iline de mise en forme, de référence ou de l’hyperlien et sur lesquels 3DM avait enregistré plus de 60 opérations de modifications


        image

        Figure 5. Interface principale du merge interactif : 1 - Liste d'opérations, avec pop-up de prévisualisation ; 2 - Structure d'arbre du document XML et mise en couleur des modifications ; 3 - Contenu textuel du document XML et mise en couleur des modifications.


    4. Conclusions et perspectives


Nous avons présenté dans cet article une extension des algorithmes de diff & merge sur des documents structurés qui permet de réaliser les opérations de merge de façon interactive. Après avoir redéfini les opérateurs qui permettent de caractériser les différences entre deux


versions d’un document, tant sur leur structure que sur leur contenu, nous avons défini une relation d’ordre qui permet de proposer des séquences d’exécution cohérentes et exécutables de ces opérateurs. Nous avons pu en particulier montrer qu’il était possible, grâce à ces nouvelles définitions d’opérateurs, de s’affranchir en grande partie du risque de boucles et d’incohérence dans l’exécution des opérations. Nous avons enfin proposé une implémentation de l’algorithme et une interface d’exploitation qui permet à l’utilisateur de sélectionner les opérations valides ou à rejeter et de les exécuter en visualisant leur effet sur les documents. Les choix heuristiques et la gestion de conflits lors de la fusion de plusieurs éditions d’un même document s’en trouvent alors améliorés.


L’implémentation actuelle du prototype est encore limitée dans son applicabilité. Les fonctionnalités à étudier et implémenter incluent : Gérer les conflits lors du three-way merge : la version actuelle est limitée à un fichier et sa modification, alors qu’il faudrait pouvoir traiter deux versions différentes d’une même source. 3DM fournit les informations nécessaires pour réaliser ce traitement en interactif.

Exploiter le schéma du document : seules les structures XML ont été prises en compte, or on pourrait intégrer la sémantique issue des modèles documentaires des chaînes éditoriales Scenari (Crozat, 2007) mobilisées dans le projet C2M.

Comparer des réseaux de fragments : un fragment contient des contenus et des références à d'autres fragments. Le fragment racine est le fragment qui n'a pas de parent et inclut par transitivité tous les fragments du document. Comparer deux documents revient à comparer deux réseaux de fragments, ce qui n'est pas possible directement avec 3DM. Cependant, on peut inclure les contenus de tous les fragments dans le fragment racine en vue de créer un seul fichier, puis comparer ces fichiers et appliquer le merge interactif. Lors de l'enregistrement du fichier, il faudra re-fragmenter le document résultant.


Bibliographie


ANDRE J., FURUTA R., QUINT V., Structured documents, Cambridge University Press, 1989.

CONEBA G., ADBESSALEM T. , HINNACH Y. A comparative study for XML change detection, Research Report, INRIA, 2002

COBÉNA G., ABITEBOUL S., MARIAN A., DETECTING Changes in XML

Documents, Proceedings of the 18th International Conference on Data Engineering, 41-52. Feb. 2002.

CROZAT S., Scenari, la chaîne éditoriale libre, Eyrolles, 2007.


DI IORIO A., SCHIRINZI M., VITALI F., MARCHETTI C., A Natural and

Multi-layered Approach to Detect Changes in Tree-Based Textual Documents, In Proceedings of ICEIS'2009. pp.90-101.

LA FONTAINE R., DeltaXML, Change Control for XML : Do It Right XML Europe, May 2003.

LINDHOLM T., XML three-way merge as a reconciliation engine for mobile data, Proceedings of the 3rd ACM international workshop on Data engineering for wireless and mobile access, 93-97, Sept. 2003.

LINDHOLM T., A three-way merge for XML documents, Proceedings of the 2004 ACM symposium on Document engineering, 1-10, Oct. 2004.

MARIAN A., ABITEBOUL S., COBÉNA G., MIGNET L. Change-Centric

Management of Versions in an XML Warehouse Proceedings of the 27th VLDB Conference, Roma, Italy, 2001

PETERS L. Change Detection in XML Trees : a Survey In : third Twente Student Conference on IT ; June 2005

RÖNNAU S., PAULI C., BORGHOFF U.M., Merging changes in XML documents using reliable context fingerprints, Proceeding of the eighth ACM symposium on Document engineering, September 16-19, 2008, Sao Paulo, Brazil.

THAO C., ETHAN V., MUNSON E.V., Using Versioned Tree Data Structure, Change Detection and Node Identity for Three-Way XML Merging, DocEng2010, September 21-24, 2010, Manchester, United Kingdom.

VU X.T., Merging Interactif de Documents XML, rapport de Master mention Science et technologies de l’Information et de la Communication, Université de Technologie de Compiègne, juin 2011.

WANG, Y., DeWitt D.J., Cai, J. : X-Diff, An Effective Change Detection Algorithm for XML Documents, 19th International Conference on Data Engineering, 519-530. Mar. 2003.


La métaphore dans les relations intermédiatiques : quelles remédiatisations interactives ?


Pergia GKOUSKOU-GIANNAKOU

Laboratoire LUTIN, Cité des Sciences et de l’Industrie


Introduction


Dans cette contribution, nous examinons les particularités de la figure de la métaphore par rapport aux relations intermédiatiques qui se développent entre les fonctions et les rôles sociaux du web et ceux d’autres médias. Nous considérons que la métaphore constitue l’explicitation des cadres de perception et d’action qui émergent par les différents univers médiatiques et s’hybrident entre eux pour produire de nouvelles façons de percevoir et de communiquer. Dans notre analyse, nous mobilisons le concept de remédiatisation6 et nous étudions les phénomènes métaphoriques du point de sociolinguistique ((Klinkenberg, 1973), (Lakoff & Johnson, 1986) et (Prandi, 1992)) et de la sémiologie du document numérique (Jeanneret, 2007), (Stockinger, 2005).

Plus précisément, nous considérons que les médias numériques constituent un assemblage complexe de médias anciens plongés dans le milieu numérique et agencés par un processus de remédiatisations qui permet de remobiliser des pratiques d’écriture et d’usage déjà acquises et partagées par les publics. Or, nous estimons que le processus de la métaphorisation sort des limites de la simple évocation pour intervenir de façon déterminante dans la construction des cadres d’action et de raisonnement. Dans ce processus, les rapports intermédiatiques circulent entre concepteurs, usagers et supports pour encadrer le processus communicationnel.


Terrain et Approche méthodologique


Notre terrain est constitué par des sites web appartenant à des institutions de la culture scientifique et technique (Gkouskou- Giannakou, 2007). Dans ce texte, nous illustrons nos propos à travers l’exemple du site de web de l’ONERA (www.onera.fr)


image

6 Plus précisément, nous reprenons le concept de remediation de (Bolter & Grusin, 2001).


Notre recherche interroge les stratégies rhétoriques de producteurs des sites web, l’organisation visuelle des pages-écrans et les pratiques interprétatives des internautes en cours d’une consultation. Cette approche induit une double grille d’analyse


Processus métaphoriques et rémédiatisations : des jeux interactifs entre acteurs et médias.


La métaphore est basée sur la perception subjective d’un rapport d’analogie entre deux objets ou unités thématiques à comprendre ou à exprimer8. Le processus métaphorique est donc toujours inhérent à l’existence d’un cadre de raisonnement préexistant qui a été formé dans un univers socioculturel. Il s’agit d’un processus d’inscription de la perception et de l’activité dans un cadre d’expérience déjà vécu.

De ce point de vue, nous considérons que la métaphore dans le discours constitue l’expression linguistique de la procédure sociocognitive du cadrage. Selon Erving Goffman (Goffman, 1991, p. 242), le cadrage concerne la mobilisation des prémisses organisationnelles qui aident l’acteur à interpréter les nouvelles données et à agir dans son environnement9.


image

7 Sur la notion de zone, voir : (Stockinger, 2005) et (Bertin, 1967).

8 Selon Aristote, «La métaphore est le transport à une chose d’un nom qui en désigne une autre, transport ou du genre à l’espèce, ou de l’espèce au genre ou de l’espèce à l’espèce ou d’après le rapport d’analogie» (Aristote, Περποιητικς – De la poétique, traduction Hardy, 1985, page 1457 a- b).

9 « A partir du moment où nous comprenons ce qui se passe, nous y conformons nos actions et nous pouvons constater en général que le cours des choses confirme cette conformité. Ce sont ces prémisses organisationnelles

- que nous confirmons en même temps mentalement et par notre activité - que j’appelle le cadre de l’activité

».


Une séquence d’activité mobilise des règles et des conventions appréhendées par des expériences précédentes dans des environnements et des situations évocatrices. Ces règles et conventions constituent un cadre d’ancrage mais de transformation également pour la nouvelle expérience. Il s’agit de schémas qui encadrent toute nouvelle mise en scène10 interactionnelle et se modifient pendant le déroulement de l’interaction pour aboutir à leur tour à la construction des nouvelles prémisses d’organisation de l’expérience. La perception du nouveau résulte de la difficulté à appliquer parfaitement les cadres d’expérience acquis dans la situation qui émerge. Il s’agit alors d’une comparaison continuelle entre l’ancien et le nouveau, d’un jeu de continuité basée sur la rupture. Sur cette tension de « conformité », Erving Goffman (Goffman, 1991, p. 287), remarque :

« Il est difficile de parler de l’ancrage de l’action dans le monde sans du même coup accréditer l’idée que nos actes sont en partie l’expression et le produit d’un soi qui subsiste. »

De leur part, les sociolinguistes mettent en évidence l’inscription de l’interprétation métaphorique dans un contexte pragmatique dans lequel la subjectivité des acteurs a un rôle primordial. Le jeu métaphorique se trouve dans mais aussi hors du texte ou image à interpréter ((LE GUERN, 1973), (KLINKENBERG, 1973), (PRANDI, 1992). Les

expériences de chaque lecteur ou spectateur ainsi que les univers socioculturels dans lesquels ils ont grandi, influencent le processus interprétatif (Lakoff & Johnson, 1986).

La diffusion des métaphores impose de nouveaux cadres d’action et de communication à travers les sites web. Nous considérons que la métaphore constitue l’explicitation des cadres d’expérience qui émergent par les différents univers médiatiques et s’hybrident entre eux pour produire de nouvelles façons de percevoir et de communiquer. De ce point de vue, elle est étroitement liée au phénomène de rémédiatisation désignant la configuration des formes et des pratiques induites par un média dans un autre média. Sur ce point, nous reprenons le concept de

« remediation » de Jay-David Bolter et Richard Grusin en le transformant. Pour ces auteurs, la «remediation» désigne la représentation d’un média dans un autre média11. En considérant que ce terme souligne plutôt la présence visuelle de l’un média dans l’autre, nous distinguons ce concept du concept de remediatisation lequel ne concerne pas la simple visualisation des formes qui font évoquer un autre média,


image

10 Sur la notion de mise en scène dans le cadre de l’interaction documentaire (usager/document numérique), voir (Stockinger, 2005).

11Les auteurs définissent la « remediation » comme suit: « we call the representation of one medium in another remediation » (BOLTER & GRUSIN, 2001, p. 45). Un exemple très caractéristique de « remediation » selon ces auteurs constituent les « fenêtres » de journaux télévisés qui évoquant l’univers des « windows » des ordinateurs (Ibid, p. 189).


mais plutôt le transfert des données génératrices de l’autre média induisant des nouvelles pratiques et cadres de perception et d’action.


Processus métaphoriques et remédiatisations : l’exemple du web


Dans le cas du web, les métaphores constituent un point d’entrée très important en ce qui concerne l’observation de la mutation des formes et des pratiques de communication à travers les représentations du public. Les acteurs ont tendance à interpréter les formes émergentes selon les schémas expérientiels déjà établis (Jeanneret, 2008).

L’expression métaphorique apparaît dans le discours des concepteurs et des usagers ainsi que sur l’interface et l’architecture d’un site web. Il s’agit de la métaphore dans la matérialité du support et les pratiques des acteurs impliqués. La métaphore verbale des acteurs reflète le déplacement et la transformation des cadres d’organisation de l’expérience. La mise en place d’une métaphore donne lieu à la création d’un environnement d’action conventionnelle avec des règles et des repères qui guident le comportement des acteurs et laissent leurs traces sur le support.

Dans le cas des sites web institutionnels, les cadres qui modélisent l’action des agents concernent les pratiques culturelles et communicationnelles qui s’expriment dans la mise en forme du contenu et les modalités de circulation de l’information (par exemple les types de documents auxquels le site web fait allusion (brochures, affiches, etc.). Ces pratiques culturelles font partie des stratégies de représentation de l’image de l’identité de l’institution.

Un exemple très caractéristique est celui du site web de l’ONERA (www.onera.fr). Dans le cas de ce site, la métaphore du document de presse est très présente tant dans le discours du webmaster que de celui des internautes. Or, tandis que le webmaster présente son site comme un simple document de présentation des activités de l’ONERA, les schémas d’interprétation des internautes sont guidés en grande partie par la métaphore du « média imprimé de vulgarisation scientifique » dès la page d’accueil du site.

De sa part, le webmaster, insiste sur les avantages du système de

«colonnes» qui lui permettent la gestion flexible des «rubriques» thématiques du site.

«Ce nouveau système de colonnes me permet de centraliser les rubriques. Dans chaque colonne, j’insère des tableaux avec des lignes qui correspondent à des modules indépendants. Je peux ajouter ou supprimer des rubriques sans faire effondrer mon tableau» (Webmaster de www.onera.fr)


image


Figure 1. Page d’accueil du www.onera.fr


La «colonne» gauche comprend une liste de liens concernant l’institution et ses activités tandis que la colonne droite contient des aperçus de travaux scientifiques de l’ONERA. La partie centrale de la page écran est occupée par les actualités de nature variée (scientifique ou institutionnelle) mises en thématiques.

Même si le webmaster de www.onera.fr ne se réfère pas explicitement à cela, la métaphore du document de la presse imprègne la construction du site. Le terme «Magazine» de la partie droite de la page écran est indicateur du cadre modalisant l’activité de la mise en ligne du site, celui du média de la presse.

Or, pour les internautes, le site web www.onera.fr est plus qu’un site de simple présentation des activités de l’institution puisque leurs schémas d’interprétation sont guidés en grande partie par la métaphore du

« média imprimé de vulgarisation scientifique » dès la page d’accueil du site. Cette métaphore influence le parcours des internautes même devant des pages écrans dont la structure ne fait pas vraiment allusion à la forme visuelle des documents de cette nature. C’est le cas de la page écran

« Images de science », dans laquelle la métaphore de la revue de vulgarisation scientifique sert à spécifier plutôt le contenu que la structure morphodispositionnelle de la page :


image


Figure 2. www.onera.fr, page « Images de science »


Pour P. 36 ans, cette forme évoque la revue de vulgarisation scientifique

« Reader’s Digest » quoiqu’il reconnaisse que la structure de cette page écran rappelle à peine la forme visuelle d’un magazine. Les deux listes des liens permettant l’accès au contenu constituent un hybride entre les

« rubriques thématiques » d’une revue et la structure en « boutons » du panneau de commande d’une interface numérique. La liste, forme existante dans l’imprimé mais mise en valeur dans les documents numériques fait disparaître l’élément de la temporalité en spatialisant les flux d’information.

L’effet visuel provoqué par l’organisation de la page écran en listes thématiques évoque les rubriques d’un document de presse imprimé même si les utilisateurs saisissent implicitement ou explicitement la différence entre l’inscription du contenu sur un support matériel qui caractérise le document imprimé et celui de la séparation entre les deux qui fait partie de la virtualité du numérique.

« Ca donne l’impression d’être une page de « Readers digest » Tu connais

« Readers digest » ? » […] «Tout à l’heure, la plupart du site était dominé par le texte. Là, on va entrer dans l’image. » […] « il nous dit : « Sélection des derniers mois » donc, des belles images qui concernent les activités de l’ONERA de ces derniers mois et puis il y a autre manière d’accéder à l’ensemble d’images y compris celles-ci de derniers mois et cette manière est thématique cette fois là » […] »Il n y a pas vraiment de texte, il n’y a que des liens… là chaque rubrique couvre un thème, disons, alors qu’ici les liens renvoient à des ensembles d’éléments d’information, des images à l’occurrence ou des animations » (P., 36 ans).


Conclusion


Dans le cas du web, les métaphores naissent dans le discours des concepteurs, s’inscrivent dans les outils de textualisation, se cristallisent éphémèrement dans la mise en forme du site et se métamorphosent dans le discours et les pratiques des utilisateurs.

L’analyse focalisée sur le support peut être éclairante en ce qui concerne les concepts métaphoriques stabilisés dans la structure techno - sémiotique du site, ce qu’on pourrait appeler «la rhétorique» du média reflétant les stratégies des concepteurs. Par contre, elle ne rend pas possible l’accès au processus d’émergence des métaphores. Les traces de celles-ci disparaissent derrière les formes cristallisées. La fixité documentaire d’un site web impose une analyse synchronique qui cache toutes les traces des métamorphoses qui s’effectuent entre les traditions culturelles et les intentions communicationnelles des concepteurs. C’est alors sur la base de la similarité, de l’évocation de la continuation médiatique que l’analyse peut s’effectuer.

A l’opposé des grilles basées sur la similarité qui imprègne l’analyse des formes fixées dans le support, l’analyse du discours des internautes révèle des processus de différenciation, d’évolution, de mutation des formes et des pratiques. Les concepts métaphoriques induisent une mise en situation, un scénario d’action, une structure narrative qui encadre l’activité des internautes et leur façon d’interpréter l’écriture d’écran. Or, une fois que les cadres d’activité se déclenchent, le processus de leur transformation s’entame. Dans cette situation évolutive, la forme sur l’écran n’est que le stimulus pour une réaction prédicative.

Les liens hypertextuels permettent l’extériorisation des processus d’interaction avec le support. Le processus de mutation observé auprès des internautes peut être comparé aux phases de l’évolution des médias décrits par André Gaudreault et Philippe Marion dans leur article «un média naît toujours deux fois» : a) la phase intégrative-mimétique pendant la quelle le nouveau média est pris dans le faisceau de déterminations des médias ou genres antérieurs et légitimes et b) l’autonomisation identitaire avec le développement de son propre langage par l’ intégration transformationnelle des anciens langages.

Or, l’observation du numérique et de ses usages permet de comprendre à quel point ces deux phases s’impliquent l’une à l’autre à travers l’interaction acteur et support.


Bibliographie


ARISTOTE, Poétique, (traduit en français par J. Hard)y, Paris, Les Belles Lettres, 1985.

BERTIN J., Sémiologie graphique, Paris, Mouton/Gauthier-Villars, 1967.


BOLTER J-D., Grusin R., Remediation. Understanding new media, MA, MIT, 2001. GAUDREAULT A., MARION P., «Un média nait toujours deux fois», Sociétés & Représentations, n° 9, Paris, CREDHESS (Paris I – Panthéon Sorbonne), 2000. GKOUSKOU-GIANNAKOU P., Composition médiatique des objets sites web. Le cas des sites web de la culture scientifique et technique, Thèse de Doctorat, Université de Technologie de Compiègne, 2007.

GOFFMAN E., Les cadres de l’expérience, Paris, Minuit, 1991.

JEANNERET Y., « La page à l’écran, entre filiations et filières », Limoges,

Visible, 2008, p. 153-172.

KLINKENBERG J-M., «Le concept d’isotopie en sémantique et en sémiotique littéraire», Le français moderne, vol. 3, n° 41, 1973, p. 285 - 290.

LAKOFF G. et Johnson M., Les métaphores dans la vie quotidienne, Paris, Minuit, 1986.

LE GUERN M., Sémantique de la métaphore et de la métonymie, Paris, Larousse, 1973.

PRANDI M., Grammaire philosophique des tropes. Mise en forme linguistique et interprétation discursive des conflits conceptuels, Paris, Minuit, 1992.

STOCKINGER P., Les sites Web : conception, description et évaluation, Paris, Hermès

La réponse est complexe, elle apparait différente selon les contextes d’usage. Si l’on compare aujourd’hui l’appropriation des revues scientifiques numériques et celle des ouvrages numériques de littérature générale, la différence est grande entre une acculturation générale via des grandes plateformes de revues (Chartron, Epron, Mahé, 2011) (16) et des usages encore marginaux via des appareils de lecture qui ne rivalisent encore pas avec le papier pour le confort, la commodité, l’affinité avec le support dans un contexte de loisir (IPSOS, 2011) (17). De la même façon, comme vont évoluer les rapports entre la culture d’écran et la culture de sortie ? Quel devenir de la sociabilité ? Le lien observé est multiple : si la culture de l’écran croît, elle ne fait pas pour autant disparaître la culture de sortie, on continue à fréquenter les cinémas notamment. La culture d’écran peut devenir une nouvelle culture de sortie : depuis fin 90 on sort de chez soi pour aller voir des écrans (matchs de foot dans les cafés), concerts sur grand écrans… Le rapport au temps reste aussi central, et il est à parier que les activités de lecture, d’écoute, de visionnement qui nécessitent un temps long et linéaire sont en baisse au profit d’activités plus fractionnées sauf peut-être dans un contexte de loisir, en rupture avec une activité quotidienne.


    1. Conclusion : quel futur ?


De ces tensions évoquées précédemment, peuvent naître des ruptures majeures…Le futur pourrait être moins numérique que prévu si la fracture perdure, si les rejets liés à la santé, à la protection de la vie privée, à l’addiction du réseau sont massifs. Quelles seraient les conséquences pour le secteur culture-médias ? Un simple retour à la case départ ou la fragilisation de la rentabilisation des lourds investissements consentis ces dernières années ? La chaîne de valeur des industries culture-médias peut se réorganiser totalement et remettre en cause les équilibres passés et les jeux d’acteurs dominants, avec la montée en puissance des nouveaux acteurs technologiques, l’éventuelle disparition du droit d’auteur, l’émergence de nouveaux modes de tarification, l’hyper-personnalisation de la consommation et donc l’émiettement des audiences, le caractère de plus en plus actif des consommateurs, la marchandisation de la sociabilité qui ferait des réseaux sociaux des lieux de collectes de valeur… Des ruptures moins spécifiques pourraient également avoir des conséquences majeures sur le secteur culture- médias : l’émergence d’une culture monde, la dégradation des habilités intellectuelles constatées par une culture de surface au détriment d’une aptitude à l’analyse… Quelles sont donc les principales inconnues déterminantes pour l’évolution des tensions évoquées et donc des ruptures probables. Risquons-nous à en citer quelques unes pour conclure : Comment le numérique sera-t-il perçu dans vingt ans (bienfait ou danger) ? Quel sera l’impact constaté sur la diversité de la consommation et des pratiques culturelles ? Cloud et streaming seront-ils les modes de consommation dominants ? La neutralité d’Internet sera-t- elle toujours de mise, ou le Cloud sera-t-il privatisé au bénéfice des grands acteurs technologiques ? Un tel réseau dématérialisé garantira-t-il le respect de la vie privée ? Aura-t-on trouvé des modes de tarification susceptibles de financer la création ? Quelles seront les attentes, les besoins des consommateurs en matière de diversité, d’utilisation des outils numériques, de communications virtuelles ou de demande réaffirmée de lien social physique ?


Bibliographie


  1. Marc LEIBA (IDATE), Les marchés du livre numérique, bilan 2010, présenté au Salon du livre de Paris, 2011), http://www.dgmic.culture.gouv.fr/IMG/pdf/MarchesLivreNum_Idate_Salon20 11_.pdf

  2. Marc BOURREAU, Michel GENSOLLEN, François MOREAU, Musique enregistrée et numérique : quels scénarios d'évolution de la filière ? Culture


    Prospective , n° 1, 2007, http://ses.telecom- paristech.fr/bourreau/Recherche/scenarios.pdf

  3. Ghislaine CHARTRON, Scénarios prospectifs pour l’édition scientifique, Hermès, vol.57, 2010, CNRS Editions, p.123-129, http://archivesic.ccsd.cnrs.fr/sic_00558746/fr/

  4. Jacques BAJON (dir), Les nouveaux formats de l’audiovisuel, IDATE, 2008, http://www.ddm.gouv.fr/IMG/pdf/70134_Les_nouveaux_formats_Final- mai_2008.pdf

  5. UDECAM, Etude prospective UDECAM : Quel sera le paysage Media en 2020 ?

    http://www.docnews.fr/fr/archives/etudes/etude-prospective-udecam-quel- sera-paysage-media-2020,6316.html, 2010.

  6. Roger T. PEDAUQUE, Le document à la lumière du numérique, C&F Éditions, 2006.

  7. Evelyne BROUDOUX, « Le documentaire élargi au web » in « Le(s) Multi- média(s) ». Les Enjeux de l'information et de la communication (à paraître septembre 2011).

  8. Jeremy RIFKIN, L'âge de l'accès : la vérité sur la nouvelle économie, La Découverte, 2000.

  9. Nicolas CURIEN, Innovation et régulation au service de la révolution numérique, Journal of regulation, 2011, à paraître.

  10. Olivier DONNAT, Les pratiques culturelles des français à l’ère numérique, Enquête 2008, La Découverte-Ministère de la culture et de la communication, 2009. http://www.pratiquesculturelles.culture.gouv.fr/08resultat.php

  11. François MOREAU, Numérisation, économie numérique et mise en réseau des produits de contenu, in Greffe X. et N. Sonnac (eds), Web Culture, Dalloz, 2008.

  12. M. BADACHE, M.BOURREAU, M. GENSOLLEN, F. MOREAU, Les musiciens dans la révolution numérique, Irma éditions, Paris, 2009.

  13. Tim WU, “Network Neutrality, Broadband Discrimination”, Journal of Telecommunications and High Technology Law, Vol. 2, p. 141, 2003

  14. LEE, Robin S., and Tim WU. "Subsidizing Creativity through Network Design: Zero-Pricing and Net Neutrality." Journal of Economic Perspectives, 23(3): 61–76, 2009.

  15. Chris ANDERSON, “The long trail”, Wired Magazine, Octobre 2004, http://wired-vig.wired.com//wired/archive/12.10/tail.html

  16. G. CHARTRON, B. EPRON, A. MAHE, Pratiques documentaires numériques dans l’enseignement supérieur (sous la direction de), Presses de l’ENSSIB, ISBN 978-2-910227-88-3, 2011, à paraître.

  17. IPSOS MEDIA CT, Notoriété et usage du livre numérique, Enquête réalisée pour le magazine Livre Hebdo entre le 21 janvier et le 7 février 2011 auprès de 3 032 personnes de la population française âgées de 15 ans et plus. http://www.ipsos.fr/sites/default/files/attachments/ipsos_livre_hebdo_salon_ du_livre.pdf


Partie 6 - Edition hypertextuelle


Ré-édition de Chrestien de Lihus dans l'hypertexte


Thierry DAUNOIS

NIT - Institut polytechnique de Lorraine, France


Résumé : Cet article traite de la ré-édition d'un ouvrage ancien traitant d'agriculture dans le réseau de wikis Wicri. Après une étude de différents projets de ré-édition numérique menés en France, il ouvre une réflexion plus large sur les possibilités offertes par la technologie wiki en matière d'édition numérique. On peut en effet imaginer viser la simple mise à disposition de textes non accessibles pour permettre leur réutilisation. Mais on peut également concevoir le développement d'outils spécifiques, l'exploitation de fonctionnalités sémantiques, dans une optique de recherche. Une alternative intermédiaire consiste à accompagner des projets de recherche, sur le volet de mise à disposition et de visibilité.


Mots-clés : Edition numérique, hypertexte, wiki, agriculture, annotation.


« Le livre, comme livre, appartient à l'auteur, mais comme pensée, il appartient, le mot n'est pas trop vaste, au genre humain. »

Victor Hugo

Discours d'introduction du Congrès littéraire international de 1878


  1. Introduction


    Certains documents (livres et manuscrits plus ou moins anciens, numérisés mais accessibles uniquement sous la forme de pdf, parfois avec un OCR56 de qualité variable...) ne sont pas disponibles, en version exploitable (texte brut utilisable), sur internet. Dans le même temps, des chercheurs disposent, sur leur poste de travail, d'extraits, de chapitre, et même de livres entiers qu'ils ont entièrement retranscrits dans leur propre traitement de texte. Ce constat est à l'origine de l'idée initiale, qui


    image

    56 OCR (optical character recognition) : acronyme qui désigne la reconnaissance optique de caractère. Avec l'utilisation de plus en plus fréquente de logiciels effectuant de la reconnaissance de caractères pour exploiter des pdf, ''un OCR'' désigne maintenant le fichier obtenu avec ces logiciels.


    consistait à tester la possibilité de mettre ces textes à disposition de tous, pour que tout le travail de re-saisie ne soit pas perdu.

    Même s'il n'est pas possible de quantifier cette "ressource", il n'est pas difficile d'imaginer qu'elle est importante. La production totale de l'humanité est estimée à quelques 130 millions d'ouvrages (évaluation effectuée par Google, dans le cadre de son vaste projet de numérisation)57. Les livres effectivement disponibles sur internet (sans même s'intéresser à leur "exploitabilité"), bien que l'on ait assisté à une véritable explosion en la matière depuis quelques années, se comptent plutôt en centaines de milliers. Le Projet Gutenberg58 annonce 100.000 ouvrages traités, Gallica59 300.000. Même le méga-projet de Google Books portait sur 15 millions de livres. La marge reste donc colossale !

    L'idée initiale a donc été de tester, sur le réseau de wikis Wicri, la mise en ligne de ressources éditoriales ayant déjà fait l'objet du travail ingrat de re-saisie en format de type word. Nous étions alors dans une simple optique de ré-édition directe.

    De cet exercice - commencé comme une démarche d'information scientifique et technique (IST) et d'édition de "service public" -, est née rapidement l'idée qu'il était possible d'aller plus loin. Au-delà de ce cadre initial, pourquoi ne pas proposer un enrichissement des textes, avec des annotations collectives, mais, également, dans une optique de recherche ? Comment intégrer des outils permettant l'exploitation et la capitalisation de textes - enrichissement hypertexte [CLE 2007], analyse des données textuelles, paléographie60, codicologie61, philologie62... - ?

    Cet article s'attache donc à présenter, dans un premier temps, le cadre technique et les choix initiaux qui constituent le contexte de cette expérimentation. Puis nous proposons une analyse des projets d'édition


    image

    57 Article disponible sur le site américain mashable.com. (http://mashable.com/2010/08/06/number-of-books-in-the- world/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+Masha ble+%28Mashable%29&utm_content=Google+Reader Mashable).

    58 Données chiffrées sur le site du Project Gutenberg (http://www.gutenberg.org/wiki/Main_Page).

    59 Données chiffrées sur Gallica (http://blog.bnf.fr/gallica/?p=2991).

    60 Paléographie : "science qui traite des écritures anciennes, de leurs origines et de leurs modifications au cours des temps et plus particulièrement de leur déchiffrement - définition du Trésor de la langue française informatisé (http://atilf.atilf.fr/dendien/scripts/tlfiv5/advanced.exe?8;s=2840995800;).

    61 Codicologie : "science annexe, mais distincte, de la paléographie et ayant pour objet l'étude matérielle des manuscrits en tant qu'objets archéologiques (par l'étude des matériaux servant à la confection du livre manuscrit et leur mise en œuvre) - définition du Trésor de la langue française informatisé (http://atilf.atilf.fr/dendien/scripts/tlfiv5/advanced.exe?8;s=1988699865; ).

    62 Philologie : "discipline qui vise à rechercher, à conserver et à interpréter les documents, généralement écrits et le plus souvent littéraires, rédigés dans une langue donnée, et dont la tâche essentielle est d'établir une édition critique du texte - définition issue du Trésor de la langue française informatisé (http://atilf.atilf.fr/dendien/scripts/tlfiv5/advanced.exe?8;s=1988699865;).


    hypertexte existants, avant d'effectuer un retour d'expérience sur notre expérimentation, depuis sa phase initiale jusque dans ses développements les plus récents. Enfin nous tentons de tracer les perspectives qu'ouvre le travail effectué dans le cadre du réseau Wicri - autant dans une optique d'IST que de culture scientifique et technique, et à destination de différents publics : grand public, enseignement, recherche -, et en quoi il pourrait constituer un apport pour les projets en cours.


  2. Cadre technique - Choix initiaux


    L'expérimentation se déroule dans le cadre de Wicri – WIkis pour les Communautés de la Recherche et de l'Innovation -, réseau de wikis sémantiques développé au sein de l'Institut national polytechnique de Lorraine (INPL). Initié en septembre 2008, le réseau Wicri compte aujourd'hui 101 wikis, tous développés à partir de la souche logicielle libre MediaWiki créée pour "l'encyclopédie libre" Wikipédia. Cette souche de wiki, si elle bénéficie (autant qu'elle en souffre) de l'aura du wiki le plus connu au monde, permet d'effectuer des choix différents de ceux qui animent l'encyclopédie en ligne. Ainsi, afin de prendre en compte les besoins spécifiques des communautés de la recherche, le réseau Wicri ne compte-t-il aucun wiki "libre" (sur lesquels la lecture et la contribution sont possibles sans être enregistré), mais uniquement des wikis publics (lecture libre, contribution uniquement pour les acteurs enregistrés et identifiés) et privés (lecture et contribution accessibles uniquement aux utilisateurs enregistrés et identifiés). Toute intervention est ainsi précisément rattachée à son auteur : chaque donnée est "traçable".

    L'une des caractéristiques innovantes du projet Wicri est de constituer un réseau. Il est classique de trouver plusieurs wikis hébergés sur un même serveur, mais nous n'avons pas identifié d'initiatives proposant un véritable fonctionnement en réseau. Cela suscite des besoins particuliers, dont, pour assurer la cohérence des données d'un wiki à un autre, une réflexion approfondie sur la gestion des métadonnées. L'expérience menée par l'équipe Wicri en la matière a fait l'objet d'une publication au colloque DCMI 2010 à Pittsburgh [DUC 2010]. Autre différence de taille

    : Wikipédia exige de chaque contributeur qu'il appuie ses propos de références extérieures. À l'inverse, le réseau Wicri prévoit de s'appuyer sur l'expertise de comités scientifiques, fonctionnement adapté aux communautés de la recherche.

    Au sein du réseau, on peut distinguer deux grands types de wikis. Les wikis "communs" (régionaux, Wicri/Lorraine et Wicri/Alsace ou thématiques, Wicri/Eau, Wicri/Bois...), d'une part, ont vocation à être animés par la communauté à laquelle ils se rattachent, tout en s'inscrivant dans les règles communes au réseau Wicri. Les wikis "institutionnels",


    d'autre part, sont rattachés à une institution identifiée, qui en assure la direction éditoriale. Les choix éditoriaux, dans ce cas, peuvent être dérogatoires par rapports aux wikis communs du réseau : ouverture plus large, ou, au contraire, plus restrictive, du wiki aux contributeurs, par exemple.

    Cette structuration offre deux intérêts. Elle favorise la construction collaborative de connaissances (en public ou en privé, au travers d'une application spécifique sur un wiki institutionnel, ou lors de la rédaction d'articles collectifs...). Puis elle assure la dissémination des informations ainsi générées, en leur assurant une bonne visibilité.

    L'association de wikis "communs" et "institutionnels" permet de se positionner sur les différents niveaux de la connaissance. Les données brutes ont leur place sur des wikis institutionnel et de travail. Les wikis communs du réseau sont principalement destinés à la valorisation des résultats de la recherche et à s'intégrer dans les démarches de culture scientifique et technologique. Enfin, certains wikis institutionnels peuvent proposer de la vulgarisation scientifique grand public.

    La question posée par Pierre Morlon, ingénieur au département Sciences pour l'action et le développement (SAD) de l'Institut national de la recherche agronomique (Inra), sur l'éventualité de mettre en ligne dans le réseau Wicri des ressources textuelles non accessibles par ailleurs - sous une forme facilement utilisable - sur internet a soulevé de premières interrogations. Ainsi, il fallait avant tout choisir où placer cette expérimentation dans le réseau, et quelle structure lui donner. L'ouvrage choisi pour cette expérimentation, les ''Principes d'agriculture et d'économie'', de Chrestien de Lihus (voir la documentation éditoriale et technique de l'expérimentation63), publié en 1804, a toute sa place sur le wiki thématique consacré à l'agronomie, Wicri/Agronomie64.

    Deuxième choix à effectuer : comment traduire, en pages wiki, un ouvrage de 336 pages ? Nous avions déjà eu l'occasion de travailler sur des articles, mais jamais sur des livres, ce qui demandait, de fait, une répartition de diverses sections sur différentes pages, avec un outil de navigation. Le travail préparatoire a donc consisté à étudier la table des matières de l'ouvrage. Cela a été l'occasion de la première constatation : la table des matières figurant dans l'ouvrage ne correspondait pas au découpage réel du texte, certaines sous-sections semblant être au même niveau dans le texte pouvant apparaître ou non dans la table. Seule la lecture du texte nous a permis de parvenir à une table des matières réelle qui semble satisfaisante, faisant apparaître quatre niveaux de titre. La


    image

    63 La documentation éditoriale et technique est accessible sur Wicri/Agronomie (http://ticri.inpl-nancy.fr/wicri- agronomie.fr/index.php/C_de_Lihus_1804_Principes_d%27agriculture_et_d%27%C3%A9conomie_-

    _Doc_%C3%A9ditoriale_et_technique).

    64 Wicri/Agronomie (http://ticri.inpl-nancy.fr/wicri-agronomie.fr/index.php/Accueil).


    table des matières "corrigée" comporte ainsi, outre une préface et une conclusion, trois parties, constituées, pour la première, de deux chapitres, pour la deuxième, d'un chapitre unique, et, pour la troisième, de onze chapitres. Autrement dit, chaque chapitre fait en moyenne une vingtaine de pages (dans l'édition originale), les extrêmes étant de 2 pages (pour la conclusion), et de 43 pages (pour le chapitre ''Août'').

    L'unité de travail retenue a donc été le chapitre : l'ouvrage de Chrestien de Lihus, dans le réseau Wicri, est donc publié sur 16 pages distinctes, préface, quatorze chapitres, et conclusion. Nous avons également créé plusieurs "modèles" (équivalent, dans MediaWiki, de macros, permettant de générer, sur plusieurs pages, un même texte), dont l'un destiné à faciliter la navigation d'un chapitre à un autre.

    Il était intéressant également de conserver l'indication de la pagination initiale : ainsi, si l'on recherche un extrait dont on sait qu'il figure en page 228 de l'édition originale, on peut le retrouver rapidement. A cet effet, la pagination originale est indiquée (entre crochets et en caractères de couleur). En poussant cette démarche, nous avons ajouté une page consacrée à une "table des matières inverse", dans laquelle on peut retrouver directement, en fonction de la page que l'on recherche dans l'édition originale, à quel chapitre elle appartient.


  3. Les projets d'édition hypertexte


    Depuis l'un des premiers projets d'édition numérique français dont on retrouve la trace sur internet - l'expérience menée à l’Institut de recherche et d’histoire des textes (IRHT) en 2002-2003, et qui avait mobilisé un groupe de travail autour du manuscrit de ''La lettre volée'' [BUQ 2004] - bien du chemin a été parcouru. Un nombre croissant de projets d'édition numérique se sont organisés, qu'ils visent des textes isolés ou des corpus plus vastes.

    Une analyse rapide des documents accessibles concernant ces projets montre qu'il ne semble pas y avoir eu de travaux menés sur l'idée de "ré- édition de service public", telle que nous la décrivons au démarrage de ce projet. Ainsi, on ne trouve pas trace de tentatives d'évaluation de la "ressource" disponible, ni d'expérimentation de mise en ligne de textes dans l'optique qu'ils deviennent simplement exploitables par d'autres.

    Mais il semble également qu'il n'y ait eu que très peu de projets visant à mettre à disposition du plus grand nombre des textes d'intérêt scientifiques. En effet, on observe plutôt, aussi bien dans la littérature consacrée à l'édition numérique [LER 2008] que dans les projets qui semblent se rapprocher de l'expérimentation décrite ici, deux grandes orientations qui diffèrent sensiblement de notre démarche.

    La première orientation consiste à travailler un corpus dans le sens des travaux de recherche d'un groupe de chercheurs identifiés, et, souvent,


    de disciplines proches. Ainsi, la plate-forme Dinah revendique le fait de proposer un cadre de travail pour les philologues (voir encadré). C'est également le cas avec un projet comme Sourcencyme [DRA 2009], qui vise à créer une base de travail aux spécialistes de médiévistique sur les encyclopédies de l'époque.


    image

    La plateforme Dinah

    La plateforme philologique Dinah [POR 2010] est destinée à annoter, transcrire et classer des documents manuscrits. Elle vise à "permettre l’expression conjointe de points de vues différents sous la forme de reclassements et d’annotations, [et en] la mise en œuvre des procédures nécessaires à la construction collaborative de vocabulaires d’annotations". Initiée dans le cadre du Cluster 13 (allocation de recherche 2007), la plateforme est accessible depuis avril 201065.

    Cet outil, clairement destiné à une phase de travail, peut être utilisé quel que soit le contexte d'édition envisagé. Il peut donc être employé pour préparer une édition dans le cadre du réseau Wicri.

    image


    image

    Fonctionnalités disponibles dans le cadre de la plateforme Dinah : annotation, travail collaboratif préparatoire.

    image


    Dans de tels contextes, la priorité est donnée au travail de recherche, à l'exploration des corpus dans l'optique des projets du laboratoire concerné, sans que, dans la plupart des cas, ces corpus soient du tout accessibles ne serait-ce qu'à d'autres équipes de recherche. Cette réalité est d'ailleurs à la base de la demande croissante de l'Agence nationale de la recherche (ANR) d'un véritable volet de "mise à disposition" des corpus ainsi traités.

    La seconde orientation est celle que l'on pourrait désigner comme "technology-driven". En effet, qu'il s'agisse ou non d'un choix conscient, il apparaît clairement que de nombreux projets - et par exemple ceux menés dans le cadre du "cluster 13"66 - s'appuient fortement sur une expertise en terme de traitement des images et de numérisation. Les techniques de numérisation bénéficient ainsi d'une abondante littérature [KAL 2000].

    Le Cluster Culture, Patrimoine et Création (ou Cluster 13) [RAI 2008] porté par l'Université Lumière Lyon 2 vise à "coordonner les recherches pluridisciplinaires portant sur les productions, les objets et les usages sociaux qui engagent [...] une dimension et des enjeux d’ordre culturel et patrimonial, qu’il s’agisse du passé ou du contemporain le plus actuel.


    image

    65 Présentation de la plateforme Dinah sur le site de l’Institut Jean-Toussaint Desanti (http://institutdesanti.ens-lyon.fr/spip.php?rubrique27).

    66 Le Cluster 13 (http://cluster13.ens-lyon.fr/).


    L’ensemble du dispositif concerne principalement les sciences humaines et sociales, tout en étant ouvert à des collaborations avec les sciences exactes, les sciences de la nature et, en particulier, les sciences et techniques de l’information et de la communication (STIC)."

    Ainsi, le projet "Hyperdonat" [BUR 2009] ou celui consacré aux dossiers de Bouvard et Pécuchet, de Flaubert [DOR 2009] – sont fortement marqués par l'impact de la nécessaire numérisation des documents. L'enjeu devient alors l'exploitation la plus aboutie possible de la technologie de traitement des images, et non la mise à disposition du plus grand nombre des textes ainsi traités. Ce sont au total 15 projets d'éditions critiques qui sont menés dans le cadre du Cluster 13, dont les Essais de Montaigne, les Pensées de Pascal, les œuvres complètes de Spinoza et de Montesquieu, les Éloges académiques de D’Alembert, l’Essai sur les mœurs et l'esprit des nations, de Voltaire.

    L'expérimentation menée à l'École des Chartes, dans le cadre de Theleme67 (acronyme de "Techniques pour l'historien en ligne : études, manuels, exercices") [POU 2006], mérite également d'être citée, même si elle se distingue également sensiblement du travail mené sur le réseau Wicri. En effet, ce travail, qui a nécessité le développement d'un outil spécifique de diffusion, ne semble pas permettre de travail collaboratif, et porte (du moins en l'état actuel de ce qui est consultable librement) uniquement sur des extraits brefs de documents. 116 dossiers sont accessibles, portant chacun sur une page d'un texte plus vaste, donnant accès à différents niveaux d'annotation (paléographiques, linguistiques, diplomatiques68 ou historiques). Theleme est conçu essentiellement comme un support d'enseignement et d'initiation aux sciences et méthodes de l'histoire.

    Or il apparaît que ces orientations ne sont pas antinomiques, mais pourraient au contraire se retrouver, dans une démarche commune visant à faire bénéficier l'ensemble des communautés de la recherche d'outils complémentaires, à la fois en terme de traitement des images, d'outils spécifiques, et de mise à disposition.

    Enfin, le projet le plus proche de notre expérimentation est consacré à l'Essai sur le récit, ou Entretiens sur la manière de raconter, édition électronique de l'ouvrage de François-Joseph Bérardier de Bataut (1776).



    image

    67 Système mis en place par l'École nationale des chartes (http://theleme.enc.sorbonne.fr/dossiers/). Chaque document est présenté sur une page, associée à d'autres pages, sur lesquelles sont donnés des commentaires (paléographiques, linguistiques, diplomatiques ou historiques).

    68 La diplomatique est une discipline qui vise à mettre en œuvre une compréhension critique des actes écrits. La Commission internationale de diplomatique précise qu'elle englobe tout écrit utilisé ou utilisable comme titre, fondamentalement pour prouver un droit. Cette définition est extraite de la présentation figurant sur le site Theleme (http://theleme.enc.sorbonne.fr/cours/diplomatique).


    image

    L'Essai sur le récit, édition électronique de l'ouvrage de François-Joseph Bérardier de Bataut

    L'édition électronique de l'Essai sur le récit, ou Entretiens sur la manière de raconter [SCH 2010] est un projet mené par Christof Schöch, de l'Institut de Romanistique de l'Université de Kassel (Allemagne). Idée née à l'occasion d'un travail de thèse, l'édition électronique69 dont il est question ici reprend l'unique édition connue de l'ouvrage de Bérardier de Bataut, publiée en 1776 à Paris.

    La représentation du texte proposée donne la priorité au récit au détriment de la matérialité du livre, avec un découpage en chapitres et non par pages. Deux vues alternatives du texte sont proposées : une transcription linéaire du texte de l'édition originale, et un texte de lecture modernisé. Des notes textuelles et explicatives sont ajoutées : elles sont présentées sur un seul niveau, mais des évolutions ont été annoncées, notamment sur le système de notes, par C. Schöch, pour les mois à venir.

    image


    image

    L'équipe du projet, composée d'une dizaine de personnes (outre le responsable du projet, l'équipe est composée du responsable du département d'informatique pratique, de l'un de ses collaborateurs et d'un groupe d'étudiants), a travaillé de 2008 à 2010, et prépare actuellement une nouvelle version.

    Fonctionnalités disponibles dans le cadre de cette édition électronique : deux versions alternatives, annotations.

    Mise en ligne effectuée sur drupal (après une version initiale sur DokuWiki).

    image


  4. L'expérimentation sur les Principes d ' agriculture e t d ' é c onomie

    de Chrestien de Lihus


    La préface débute avec un épisode historique, rapporté par Cicéron (note originale : "Cic. de Oratore."), mettant en scène Annibal, dont il est dit qu'il fut très mécontent à l'écoute d'un philosophe, Phormion, qui discourait des devoirs d'un bon général, sans avoir jamais été militaire de sa vie. Cette anecdote sert à Chrestien de Lihus pour indiquer qu'il ne prend la plume qu'en temps qu'agriculteur lui-même, et pour apporter son expérience.

    Avec l'objectif d'établir un lien vers une ressource en ligne, une rapide recherche a permis d'effectuer plusieurs observations. La première constatation est qu'aucune traduction de Cicéron disponible en ligne ne comporte le texte exact cité par Chrestien de Lihus. Soit il s'agit d'une traduction qu'il a effectué lui-même (ce dont, sans disposer d'éléments


    image

    69 Le site dédié à l'édition électronique de l'Essai sur le récit (http://berardier.org/).


    probants, on peut néanmoins douter), soit qu'il a repris quelque part, et qui diffère des versions que nous pouvons aujourd'hui trouver sur internet.

    Dès lors, il a paru intéressant de donner des éléments plus complets sur cette citation, en apportant une note complémentaire à la note initiale : De Oratore, livre II, XVIII, Cicéron. Traduction consultée reprise des Œuvres complètes de Cicéron, publiées sous la direction de M. Nisard (1869). Texte intégral (lien) sur remacle.org". Cette première annotation du texte initial donne non seulement le lien vers une traduction en ligne mais vient également compléter la note originale, facilitant la recherche au lecteur.

    Cette première note ouvrait la voie, renforcée dès la seconde : en effet, Chrestien de Lihus évoquait ensuite "L'auteur du Préservatif contre l'Agromanie", un ouvrage publié à Paris en 1762. Sans le citer nommément. Et pour cause, puisque ce livre était alors considéré comme anonyme, avant d'être attribué à Laurent-Benoît Desplaces. Figure ainsi la note complémentaire suivante : "Considéré un temps comme anonyme, le Préservatif contre l'Agromanie est attribué à Laurent- Benoît Desplaces. Préservatif contre l'Agromanie, ou l'Agriculture réduite à ses vrais principes, Paris : chez Jean-Thomas Hérissant, 1762, in-12, 197 p."

    Il apparaissait dès lors qu'il y a un véritable intérêt à compléter, enrichir, et parfois apporter des éléments de correction aux notes originales (on parle de correction, par exemple, lorsqu'il est possible de constater qu'une citation, indiquée comme devant se trouver dans le tome II du Voyages en France en 1787, 1788 et 1789 d'Arthur Young, se trouve en réalité dans le Tome I, page 452 (première traduction complète et critique par Henri Sée, édition Armand Colin, 1931).

    Face à la constatation que la plupart des notes originales pouvaient ouvrir sur un ajout, il devenait utile d'opter pour une mise en page reprenant un double système de notes en bas de page, mettant en vis-à- vis la note originale et son commentaire (voir la figure I).


    image

    Figure I : visualisation en vis-à-vis des notes originales et de leur commentaire.


    On trouve ainsi, sur l'ensemble de l'ouvrage, matière à divers enrichissements. L'ajout de lien vers des ressources en ligne est le plus élémentaire. Parfois, il s'est avéré intéressant de comparer des sources diverses (traductions différentes, par exemple). Il a aussi été possible, parfois, d'identifier des erreurs dans des citations (sans pouvoir l'affirmer avec certitude, certaines de ces erreurs sont probablement directement


    reprises des sources employées). Des sources imprécises ont également pu être éclairées : ainsi, une citation en latin, "''Delectant domi, non impediunt foris, pernoctant nobiscum, peregrinantur, rusticantur''", bénéficiait uniquement de la note suivante : "Cic. pro Archia, n°16." (figure II).


    image


    Figure II : les notes originelles peuvent être complétées, enrichies, rectifiées.


    Au fur et à mesure de ce travail, il s'est également avéré utile d'apporter des notes sur le texte original, sur des éléments que Chrestien de Lihus n'avait pas annoté. Il reprend, par exemple, des citations latines sans les traduire. Il parle de "Rozier", sans préciser qu'il parle (probablement) de l'abbé Rozier, auteur d'un ''Cours complet d'agriculture''. De la même façon, lorsqu'il évoque le "chantre de Mantoue", il n'est pas forcément évident d'établir le lien (y compris en menant une recherche rapide sur internet) qu'il parle de Virgile. D'où une note : "Cette expression désigne Virgile. Voir à ce sujet les Études sur Virgile, tome III, page 132, de Pierre-François Tissot (1828, Paris). Texte intégral(lien) sur Gallica".

    Enfin, pour des spécialistes de l'histoire des idées et de l'histoire de l'édition, on imagine facilement l'intérêt de ce type de démarche. Ainsi, dans le chapitre 1, partie I, la note originale [1] peut prêter à confusion, mais pourrait être intéressante dans cette optique. En effet, la note fait référence à un ouvrage employé comme source par Chrestien de Lihus, Histoire de l'Agriculture ancienne. Une première recherche fait apparaître qu'un ouvrage ainsi nommé est en effet paru, mais en 1830. Mais il n'est pas forcément totalement neutre d'observer également que ce même auteur a également publié, en 1804, justement, un autre livre, consacré aux Géorgiques, de Virgile, ce dernier étant abondamment cité par Chrestien de Lihus. Finalement, il apparaît (figure III), en se penchant plus en détail sur la question, que la note de Chrestien de Lihus fait plus probablement référence à Histoire de l'agriculture ancienne, extraite de l'Histoire naturelle de Pline, avec des éclaircissements et des remarques, livre XVIII, de Bernard-Laurent Desplaces (1765).


    image


    Figure III : Une note complémentaire signale le questionnement soulevé initialement par la difficulté d'attribution de l'ouvrage cité dans la note originelle.


    Ce travail sur le texte, ne nécessitant pas de compétences "disciplinaires" (bien que l'ouvrage traite d'agronomie, il n'est pas nécessaire d'être agronome pour apporter les éléments qui viennent d'être décrits), a mis en lumière l'intérêt de demander également à des spécialistes du(des) domaine(s) concerné(s) (ici, on peut imaginer faire appel à des agronomes, à des historiens, à des géographes...) de venir apporter leurs propres commentaires, afin d'enrichir encore la lecture du document. À titre d'exemple (figure IV), Pierre Morlon a accepté de se livrer à cet exercice, sur le thème de la jachère, d'une part (partie I, chapitre 2), et sur l'affouragement en vert des chevaux (partie III, chapitre Juin).


    image


    Figure IV : Une note "disciplinaire", commentaire transmis par un agronome (la note est ici déroulée, lorsqu'elle est enroulée (position initiale), seuls la discipline, le thème, l'auteur et la date sont visibles).


    Ainsi s'est effectué, progressivement, le glissement d'un test de simple réédition d'un ouvrage ancien destiné à donner à chacun la possibilité de travailler sur ce texte non récupérable par d'autres moyens, vers une expérimentation plus complète de réédition commentée et enrichie, qui se rapproche davantage d'une édition critique.


  5. Perspectives : le réseau Wicri et l'édition hypertexte de ressources textuelles


    La plupart des projets existants d'édition hypertexte semblent, comme on vient de le voir, intégrer une étape de numérisation des données, ce


    qui induit assez logiquement de se concentrer sur la question du traitement des images.

    Cependant, dans le cas de la démarche qui est l'objet de cet article, la question de l'acquisition des données ne se posait pas, et pouvait être considérée comme annexe, sinon négligeable. Il était sensiblement plus important de se concentrer sur la question de la mise à disposition du résultat "final" (dans le cas d'un travail collaboratif sur un wiki, la notion de résultat final ne recoupe pas celle d'un résultat qui serait "définitif").

    Ainsi, on peut parfaitement imaginer appliquer cette démarche, que les données soient déjà disponibles sous la forme d'un texte exploitable (comme c'était le cas pour les Principes d'agriculture et d'économie), qu'il s'agisse d'une source déjà numérisée et pour laquelle il n'existe pas de version exploitable autrement que par du traitement des images, ou qu'il s'agisse d'une source pour laquelle il n'existe ni texte exploitable, ni numérisation.

    De fait, la question de l'acquisition des données n'a pas d'influence sur le traitement ultérieur : elle modifie uniquement – même si c'est déjà important – les questions de timing et de moyens nécessaires.

    Ainsi, on peut imaginer plusieurs modes de fonctionnement, en fonction du contexte. Pour des chercheurs ou amateurs éclairés soucieux de donner accès à la communauté à des ressources "rares" dont ils disposent – et qui sont donc dans la position qui était la nôtre au début de cette expérimentation, dans une perspective d'édition de "service public" -, il est possible de proposer un espace de mise en ligne, des outils d'enrichissement et un accès à une communauté d'experts. Pour des bibliothèques, des institutions, des sociétés savantes... elles peuvent bénéficier des mêmes éléments, associés à un soutien technique renforcé sur la phase d'édition, afin d'accompagner leurs projets d'édition hypertexte. Enfin, l'équipe Wicri peut s'associer à des projets de recherche qui nécessiteraient le développement de nouvelles fonctionnalités.

    La majorité des projets présente également un volet de traduction (à partir du latin, du grec). Cet aspect mérite que l'on s'y arrête un instant. En effet, cette phase de travail est en général totalement invisible pour le lecteur, qui veut accéder à la consultation parallèle du texte initial et de sa traduction, mais peut être sensiblement enrichie si le travail de traduction s'effectue de façon collaborative. De plus, le décodage même des opérations de traduction (sous la forme d'une "trace") serait potentiellement riche d'enseignement pour des lecteurs experts.

    Dans cette optique, nous suggérons un travail en deux étapes : préparation et traduction du texte sur un wiki privé, accessible aux experts identifiés et apparentés au projet, puis mise à disposition des textes sur un wiki public, sur lequel se ferait alors le travail d'annotation décrit dans notre expérimentation.


    On constate enfin que la plupart de ces projets ont des débouchés en terme de recherche (philologie, analyse critique, mise en perspective d'une oeuvre...) et en terme d'enseignement, offrant aux pédagogues de diverses disciplines des moyens nouveaux – et inaccessibles jusqu'ici – d'exploiter des sources anciennes, que ce soit pour les mettre en avant, ou pour en critiquer les manques. La démarche décrite ici offre, pour un coût et dans des délais particulièrement raisonnables, la possibilité à ces deux communautés d'étendre encore le champ des possibles. Notamment dans le cas de textes pour lesquels l'acquisition des données est déjà effective, la solution existante est non seulement simple mais complète. On peut ainsi estimer, pour un ouvrage de taille moyenne (500 pages) le temps total de mise en ligne à 2 mois.

    La mise en place progressive (un wiki est un espace de "chantier" autant que de "versions finales") permet en outre de stimuler l'action des divers spécialistes qui peuvent être sollicités pour travailler sur les commentaires critiques disciplinaires. Notre expérimentation n'a pas étudié la possibilité d'exploiter toutes les fonctionnalités - notamment sémantiques - déjà existantes des wikis. Il est néanmoins clair que celles- ci pourraient être mobilisées afin de développer des outils d'analyse pour la recherche (indexation des termes, traitement des auteurs...). Et cela sans parler, naturellement, d'éventuels développements susceptibles de générer des fonctionnalités spécifiques.


  6. Conclusion


D'une expérimentation simple et qui s'inscrivait dans un contexte d'édition de service public, destinée à donner un accès à tous à des ressources textuelles non disponibles sur internet, nous sommes, comme on peut le voir, passés à un outil permettant de fonctionner collaborativement sur différents niveaux d'annotation, pouvant intégrer une phase de travail collectif (par exemple sur la traduction des œuvres), avec une traçabilité fine des actions des divers acteurs.

Sans prétendre a priori pouvoir répondre à tous les besoins, il nous apparaît, à tout le moins, que la technologie des wikis telle que nous l'exploitons dans le cadre du réseau Wicri offre une possibilité intéressante de mise à disposition de textes, autant du fait de sa souplesse que de sa simplicité de mise en œuvre.

Il deviendrait alors possible, pour reprendre Victor Hugo, de faire en sorte que le livre, comme livre, n'appartiennent plus uniquement à l'équipe de recherche qui travaille dessus, mais bien à la communauté élargie des chercheurs de toutes disciplines.


Bibliographie


[BUQ 2004] Thierry BUQUET, « Quelques réflexions autour de la chaîne éditoriale d’un document numérique : l’exemple de La Lettre volée », Le Médiéviste et l’ordinateur, 43, 2004 [http://lemo.irht.cnrs.fr/43/43-04.htm].

[BUR 2009] Hyperdonat, une édition électronique des commentaires de Donat aux comédies de Térence. Bruno BUREAU, Maud INGARAO, Christian NICOLAS, Emmanuelle RAYMOND (dir.), CEROR, Université Lyon III, ENS de Lyon, 2007-2011. Accédé en ligne le 24 juin 2011, [http://hyperdonat.ens- lyon.fr].

[CLE 2007] Jean CLEMENT, L’hypertexte, une technologie intellectuelle à l’ère de la complexité, in Brossaud Claire, Reber Bernard, Humanités numériques 1., Nouvelles technologies cognitives et épistémologie, Hermès Lavoisier, 2007.

[DOR 2009] Stéphanie DORD-CROUSLE et Emmanuelle MORLOCK- GERSTENKORN, L’édition électronique des dossiers de Bouvard et Pécuchet de Flaubert : des fragments textuels en quête de mobilité, publié dans « Le patrimoine à l'ère du numérique : structuration et balisage » organisé à Caen les 10 et 11 décembre 2009.

[DRA 2009] Communication à la journée d'études : Digital Edition of Sources in Europe: Achievements, (juridical and technical) Problems and Prospects, à l'occasion des 175 ans de la Commission Royale d'Histoire. Meeting Porta Historica. [http://www.crhistoire.be/fr/partenariat/intern/portaPres_fr.html]. [DUC 2010] Jacques DUCLOY, Thierry DAUNOIS, Muriel FOULONNEAU, Alice HERMANN, Jean-Charles LAMIREl, Stéphane SIRE, Jean-Pierre THOMESSE et Christine VANOIRBEEK, Métadonnées pour WICRI, un réseau de wikis sémantiques pour les communautés de la recherche et de l'innovation, rapport de projet présenté au colloque DC 2010 (Pittsburgh, Etats-Unis). Version française consultable sur le wiki Wicri/Ticri [http://ticri.inpl- nancy.fr/ticri.fr/index.php/M%C3%A9tadonn%C3%A9es_pour_WICRI,_un_r

%C3%A9seau_de_wikis_s%C3%A9mantiques_pour_les_communaut%C3%A9s

_de_la_recherche_et_de_l%27innovation].

[KAL 2000] Enriketa KALLDRËMXHIU, Les logiciels de numérisation des livres anciens, Technical report, Université Claude Bernard Lyon1, 2000. [www.letterpress.ch/APINET/IMMPDF/LIVRE/gedkall.pdf] (pdf).

[LER 2008] Françoise LERICHE et Cécile MEYNARD , « Introduction. De l’hypertexte au manuscrit : le manuscrit réapproprié », Recherches & Travaux , 72 | 2008, mis en ligne le 15 décembre 2009.

[http://recherchestravaux.revues.org/index82.html]. Consulté le 29 juin 2011. [POR 2010] Pierre-Édouard PORTIER et Sylvie CALABRETTO. DINAH, a philological platform for the construction of multi-structured documents, in The European Conference on Research and Advanced Technology for Digital Libraries (ECDL), Mounia Lalmas, Joemon Jose, Andreas Rauber, Fabrizio Sebastiani, Ingo Frommholz ed. ECDL 2010 September 6 - 10, 2010, Glasgow. pp. 364-375. Research and advanced technology for digital libraries LNCS. Springer. ISBN 978-3-642-15463-8. ISSN 0302-9743. 2010.

[http://liris.cnrs.fr/membres/?idn=peportie&onglet=publis].

[POU 2006] Gautier POUPEAU, Les apports des technologies Web à l'édition critique : l'expérience de l'Ecole des chartes, présenté à Digital philology and medieval texts, 01/2006 (Arezzo, Italie). [http://halshs.archives- ouvertes.fr/view_by_stamp.php?&halsid=p27rt2a5en6gcskfqnrpughlu0&label=S


HS&langue=fr&action_todo=view&id=sic_00137229&version=1&view=exten ded_view].

[RAI 2008] Ludivine RAIMONDO, Enjeux et représentations de la science, de la technologie et de leurs usages - rapport ENS Lyon

[SCH 2010] François-Joseph BERARDIER DE BATAUT, Essai sur le récit, ou Entretiens sur la manière de raconter (Paris : Charles-Pierre BERTON, 1776). Édition électronique sous la direction de Christof Schöch, 2010. [http://www.berardier.org] (Version 0.6, 12/2010).


Formalisation des processus d’éditique : Proposition d’un guide d’assistance à la formalisation de processus d’éditique à travers la transposition contextuelle de la notion de veille vue comme un système cybernétique


Sébastien BRUYERE

Responsable du pôle R&D Custom Solutions


Vincent OECHSEL

DSI

Custom Solutions


Résumé : Aujourd’hui, les entreprises œuvrant dans les domaines du Marketing Opérationnel ont de véritables besoins en matière de production documentaire. En effet, la gestion des offres promotionnelles implique l’élaboration de nombreux documents. Dans ce cadre, les entreprises doivent conceptualiser des processus éditiques efficients afin d’optimiser la production et la distribution de documents afin de faciliter la transformation commerciale … La notion de veille, souvent utilisée pour s’informer de façon systématique sur des thématiques identifiées, de par sa structure, peut apporter un support utile à la structuration des processus éditiques. L’article a pour objectif de présenter une méthodologie dérivée de la notion de veille vue comme un système cybernétique pour formaliser les différents processus d’éditique nécessaire à la production des documents à contenu variable pour le Marketing Opérationnel.


Mots-clés : GED, éditique, veille, gouvernance documentaire, processus, cybernétique.


Introduction

Devant l’engouement des consommateurs pour les offres promotionnelles, les centres gestion et entreprises œuvrant dans les domaines du Marketing Opérationnel doivent faire face à de multiples défis. Le premier est essentiellement lié à la gestion de grandes productions de document avec des aspects liés à la performance de traitement et d’édition. Le second réside dans la mise en valeur des productions pour maximiser la transformation des affaires ou gagner en qualité de perception sur la communication au sein d’un projet client. le


troisième porte sur le choix du support de la production finale et du canal de communication adaptée pour sa diffusion.

La « révolution éditique » qui s’est traduite notamment à travers le passage de l’ère de « l’éditique de gestion » à l’ère de « l’éditique interactive » a apporté des dispositifs capables de relever ces défis. Cependant, elle nécessite d’avoir préalablement conceptualisé l’ensemble des processus « métiers » afin de les renseigner au sein de solutions d’éditique nouvelles générations. Mais cette conceptualisation des processus d’éditique peut s’avérer complexe et difficile à appréhender par les entreprises.


  1. Matériel et méthode

    Dans cette partie, nous reviendrons sur la notion d’éditique et les différents bouleversements qu’elle a connus. Puis nous démontrerons combien la notion de veille est structurellement semblable à la notion d’éditique. De ce constat, nous nous appuierons sur les recherches dans le domaine pour élaborer une aide à la structuration de processus formalisé pour l’éditique. Celle-ci sera modélisée à travers une approche systémique fondée sur la Cybernétique.


    1. L’éditique, une notion devenue stratégique pour les entreprises L’éditique est une notion qui est apparue dans les années 1990 essentiellement pour pallier à une carence forte des progiciels de gestion intégrée incapable de produire des documents en masse de manière performante, et d’aménager la structure des documents pour des mises en page de qualité. C’est alors qu’on a défini la notion comme « les équipements matériels et logiciels mis en œuvre pour composer, imprimer, mettre sous pli et router industriellement ces documents. » (Dupoirier, 2008). C’est ainsi que de nouveaux outils de composition industrielle capable de reprendre tout ou partie l’existant ont émergé. Cette ère est baptisé aujourd’hui l’ère de

      « l’éditique de gestion » (Czajka, 2010) se caractérise par une production en volume largement industrialisée et une décomposition des étapes nécessaires à l’édition sous forme de chaine éditique. Cette chaine est structurée à travers l’extraction/la réception des données, la composition et post-composition et la diffusion du document (De Montaigne, 2009). Les gains observés sont essentiellement liés à la productivité basée sur une optimisation des coûts d’affranchissement de poste « avec des amortissements de projet parfois en moins d’une année » (Blumereau, 2006). Au niveau des organisations, on voit émerger de nouveaux métiers comme la fonction de « Responsable Editique » ou encore des pôles métiers dédiés dans les grandes entreprises. Il devient possible de travailler sur la conception des documents à partir d’un ensemble de règles de gestion applicables aux différentes productions. La génération de documents de masse, construits à partir de différentes sources (textes, images, logos,


      tableaux), est possible tout en conservant les acquis maitrisés comme la notion de publipostage.

      Vers le milieu des années 2000 et devant l’apparition de « la révolution connectique » (Quoniam, Boutet, 2008), « les documents ont un rôle essentiel dans la stratégie des entreprises et sont au cœur de la relation avec les clients et partenaires » (Czajka, 2010). Les solutions d’éditique de première génération ne suffisent plus, elles nécessitent bien souvent l’intervention des services informatiques pour élaborer des modèles de traitement qui seront ensuite exploités par des opérateurs dédiés. Mais les entreprises en compétition doivent désormais réagir plus rapidement avec « des temps de mise en place courts et des retours sur investissement rapides », la conquête de nouveau marché, l’appétence et le marketing des productions sortantes sont des facteurs clés de succès pour transformer des affaires et développer l’activité des entreprises. Les notions de temps réels et de personnalisation héritées notamment des révolutions connectiques appartiennent à cette nouvelle ère de l’éditique dite « interactive » (Alazard, 2010). Désormais les coûts directs sont extrêmement contrôlés via « un choix rigoureux des canaux sortants les plus adaptés » (priorité au numérique), « avec un contenu à jour et personnalisé pour le destinataire » (Rémy, 2010). Les couts indirects sont aussi pris en considération avec notamment l’efficacité publicitaire et le marketing des documents. L’éditique devient un levier important pour faciliter les ventes, fidéliser les consommateurs …

      Cependant, il apparait que « les documents sont très divers et il en est de même des processus permettant de les créer, de les gérer et de les produire » (Dupoirier, 2008), il convient donc, pour les intégrer le plus efficacement possible au sein des solutions d’éditique, de les définir le plus précisément possible en prenant en compte « les dimensions organisationnelle et humaine dans le projet » (Khristy, 2010). Cet aspect s’affiche par ailleurs dans un concept émergent plus large qui rejoint directement la stratégie de l’entreprise, la Gouvernance Documentaire (Boillet, 2011).


    2. La veille, une notion structurante pour gérer l’information d’entreprise

      La notion de veille est une notion plus ancienne que la notion d’éditique, elle est définie comme étant « un processus régulier de recherche, d’analyse et de sélection pertinente d’informations pouvant apporter des avantages compétitifs à une entreprise » (Pascoo, Le Ster-Beaumevielle, 2007). L’AFNOR et les experts du domaine s’accordent à définir que le processus de veille comporte cinq étapes avec l’expression des besoins informationnels, la collecte des informations, l’analyse des informations collectées, la diffusion et la mise à disposition d’une information sous la bonne forme, au bon interlocuteur et dans le format qui convient.

      La « révolution connectique » qui se matérialise aujourd’hui notamment par la démocratisation d’une notion 2.0 (Quoniam, 2009) a permis de


      modéliser un concept de Veille 2.0 (Meingan, 2009). Celui-ci est caractérisé par un traitement de l’information 2.0 issu du travail collaboratif, du renforcement des réseaux d’entreprises à travers la constitution de communautés virtuelles, et de l’utilisation des services et des outils du Web 2.0 pour articuler les phases du processus de veille qui reste inchangé. L’information 2.0 se caractérise quant à elle comme une information « désolidarisée des applications et une accessibilité accrue par le biais de services web ». La notion de métadonnée est intégrée à l’ensemble du socle informationnel qui se caractérise désormais par un ensemble de services sécurisés, « les informations sont personnalisées, toujours disponibles et délivrées à la fois en temps réel et à la demande » (Lewis, 2009). Ces traits ont été déjà soulignés lors de la présentation de la notion d’éditique qui comme le processus de veille utilise le même fluide pour fonctionner, l’information 2.0.

      De par la structure en étape itérative, le rapprochement de la veille avec l’ingénierie de méthodes informatique n’est plus à démontrer ; par ailleurs elle est souvent définie par les professionnels comme « la mise en place formalisée et organisée dans l'entreprise, d'un système d'information visant la collecte, le traitement et la diffusion de l'information concernant l'environnement de l'entreprise, ceci de façon continue et dynamique » (Bourcier-Desjardins, Mayère, Muet, & Salaün, 1990). La méthode MEDESSIE (Salles, 2000) qui est une approche de transfert des méthodes de conception des Systèmes d’Information à l’Intelligence Compétitive et les travaux de l’équipe SITE du laboratoire de recherche de LORIA qui œuvrent dans les domaines de la Modélisation et le développement de Systèmes d’Informations Stratégiques dans le cadre de l’Intelligence Economique sont de beaux exemples de transferts de méthodes. Nous considérons dans nos approches que la veille est une composante fondamentale de l’Intelligence Compétitive.

      Dans ce prolongement, certains auteurs sont allés plus loin dans la modélisation en entrevoyant la veille comme un système cybernétique (Lesca & Carin-Fasan, 2008). L’objectif étant de développer les composantes de la veille en dressant les différentes missions à mener et les résultats attendus. Les entrées-sorties et les ressources techniques, organisationnelles, économiques et humaines sont abordées à travers des repères normalisés sous forme de facteurs clés de succès et d’échecs. Cette décomposition est particulièrement intéressante, car elle apporte de véritables repères en fonction des étapes et des composantes dans un processus informationnel.

      Avant d’exposer les facteurs clés de succès et d’échecs, il convient de revenir sur ce qu’est un système cybernétique. Un système cybernétique est un ensemble d’éléments en interaction qui sont exprimés par des échanges d’informations et qui œuvrent à un but commun. Pour ce faire, le système en présence accepte des entrées et produit des sorties grâce à


      un processus de transformation structurée qui constitue le noyau central de traitement. Les spécificités du système résident dans sa capacité à s’autoréguler et à être contrôlé (Wiener, 1948) & (Melki, 2008) & (O’Brien et al, 2001). Nous admettons ici qu’un processus est « une suite d'actions régulières et continues se déroulant d'une façon relativement bien spécifiée et aboutissant à un résultat quelconque » (Roussel & Lassalle, 2009). Dans le système cybernétique, le processus embarque donc des actions depuis l’entrée jusqu’à la sortie tout en étant soumis à des facteurs clés qui peuvent faire varier les actions et les états de ce même processus.


      image

      Représentation du système cybernétique de veille (Lesca, Caron Fasan, 2005)


      Dans un système de veille cybernétique, l’entrée peut s’apparenter à une banque d’information non exhaustive et non homogène. Les étapes du processus de veille sont toujours les mêmes qu’exposés ci-dessus mais il est important d’intégrer que leurs enchainements n’est pas forcément séquentiel. En effet, en fonction des facteurs clés le système doit être capable de s’adapter, on parlera d’autorégulation. Ces facteurs clés sont liés à des influences environnementales, technologiques, organisationnelles et conditionnent les chances de succès ou d’échecs du résultat.

      Lorsqu’on observe un dispositif de veille cybernétique au sein d’une organisation, on s’aperçoit qu’en entrée, on dispose d’une banque d’information importante ; la difficulté réside alors dans le choix des informations les plus pertinentes pour atteindre l’objectif.

      Le traitement est souvent assisté par des systèmes informatiques capables d’orchestrer les étapes de veille pour produire le résultat. Les facteurs clés sont alors fortement liés aux paramétrages de celui-ci et aux


      itérations qu’il est capable de proposer au responsable de veille au sein de l’organisation. Pour renseigner efficacement le système, le responsable de veille doit préalablement définir des processus informationnels comportant des étapes d’action, de contrôle, mais surtout des étapes alternatives en cas d’évènement soudain en provenance d’une influence externe. Ces influences conditionnent les facteurs clés de succès ou d’échecs.

      En sortie, on retrouvera différents types de livrable possible, il peut s’agir de documents écrits ou électroniques comme les newsletters (Toupin, Lemaire, 2009) ou d’alertes précoces, d’hypothèses, de pistes d’action (Lesca, 2003). En somme, le résultat dépend directement du besoin informationnel, la forme et le destinataire sont définis en amont ou dans un scénario alternatif injecté dans le système.

      En définitive, nous avons démontré que la veille pouvait s’apparenter à un système cybernétique (Lesca & Caron Fasan, 2005), que d’un point de vu séquentiel, les étapes du processus de veille sont des étapes certes plus abstraites, mais semblables aux processus d’éditique. Cela peut d’ailleurs s’expliquer par le fait que l’éditique et la veille utilisent le même fluide pour fonctionner, l’information. Par conséquent, les travaux de Lesca & Caron Fasan sont utilisables pour modéliser un système d’éditique cybernétique. Les facteurs clés du système de veille cybernétique seront alors utiles pour élaborer une méthodologie d’assistance à la définition de processus d’éditique. Toutefois, si la veille reste un processus informationnel plus abstrait que l’éditique, il sera nécessaire de conceptualiser davantage les facteurs clés pour élaborer un guide d’assistance adapté.


  2. Résultats


    Comme exposé précédemment, nous allons utiliser les facteurs clés du système de veille cybernétique pour définir un guide qui assistera un groupe projet dans la définition des processus d’éditique.


    Transposition contextuelle des facteurs clés depuis un système cybernétique vue comme un système cybernétique à un système éditique


    Facteurs Clés en provenance de la veille vue comme un système cybernétique (Lesca & Caron Faisan, 2005)

    Facteurs Clés transposés pour l’éditique

    Organisationnel

    Identifiez clairement les besoins en information.

    Identifiez qui est chargé de créer les documents, quelles sont les règles de gestion associées, qui paramètre l’architecture du document (Oechsel, 2011).


    Valoriser toutes les ressources existantes avant d’en solliciter de nouvelles.

    Qui se charge implicitement des traitements éditiques au sein de l’organisation ?

    Quelles sont les limites de production éditique des applicatifs interconnectables à un hub dédié ?

    Décentraliser et coordonner le processus de veille.

    Articuler l’éditique dans la chaine de valeur de l’entreprise.

    Imaginer et définir les traitements éditiques au sein d’une solution dédiée et performante.

    Réfléchir aux interfaces techniques et humaines dans le cadre d’une centralisation des traitements éditiques.

    Formaliser clairement le processus de veille.

    Définir clairement les différents processus d’éditique en fonction des besoins.

    Utilisez des outils pour cartographier les processus et les différentes alternatives possibles et envisageables pour chacune des étapes.

    Qui décide, qui opère, quel est le pôle concerné.

    Pérenniser le système par des dispositifs de feedback permettant d’écouter, de comprendre, de conseiller, de convaincre et faire adhérer les collaborateurs.

    Paramétrer un reporting afin de pouvoir définir le potentiel éditique, la production éditique, les réalisations, la qualité (Oechsel, 2011).

    Concevez un système sur mesure pour tenir compte des spécificités de l’entreprise.

    Définir les connecteurs nécessaires pour une liaison avec les applicatifs de l’entreprise.

    Définir les processus détaillés en fonction des différentes communications à opérer.

    Définir les modèles de document et les zones personnalisables.

    Définir les publipostages et les canaux par défaut pour chacun des documents

    Matériel

    Formez le personnel aux activités de recherche et de diffusion de l’information.

    Formez les équipes pour le paramétrage des documents.

    Formez les équipes aux paramétrages de diffusion des documents.

    Valoriser le personnel œuvrant aux tâches de veille.

    Valoriser le personnel affecté à l’éditique.

    La technologie ne doit pas substituer la réflexion humaine.

    Le responsable de l’éditique doit maitriser la stratégie de gouvernance documentaire inculpée par l’entreprise.

    Humain

    Le projet doit être soutenu par la Direction et que celle-ci lui confère une légitimité.

    L’éditique doit être un service supporté par les décideurs de l’entreprise.


    Motiver les acteurs impliqués dans la collecte et la transmission des informations.

    Valoriser le personnel et le motiver en fonction des productions. Une affaire peut être gagnée ou conservée grâce à la qualité d’un document.

    Former à la collecte et/ou à l’analyse.

    Le personnel doit être formé à l’acquisition des flux d’entrée et à l’analyse du traitement centralisée au sein de la solution d’éditique.

    Former les acteurs à la coopération et pas seulement à l’opérationnel.

    Expliquer et présenter les acteurs du pôle éditique.

    Prévoir un animateur du processus.

    Définir un responsable de l’éditique.


    Comme exposé ci-avant, l’objectif principal de ce papier étant de définir des processus unitaires pour la conceptualisation de processus éditique efficace. Dans ce cadre, nous avons testé le guide ci-dessus lors d’une séance de travail au sein d’une société œuvrant dans les domaines du Marketing Opérationnel. Voici le résultat simplifié dépourvu d’informations confidentielles :


    Modélisation de processus d'éditique simplifiée


    image


  3. Discussion


    À partir des facteurs clés définis dans le cadre des travaux portant sur la veille vue comme un système cybernétique, nous avons proposé un guide visant à assister la définition des processus documentaires et informationnels. Ceci étant, la transposition au domaine de l’éditique et aux métiers de l’entreprise demande une grande phase d’étude avec de nombreux retours d’expérience. Dans ce cadre, et au-delà de la transposition conceptuelle opérée dans cet article, il pourrait être intéressant de compléter l’étude par des questionnaires auprès de


    l’ensemble des salariés ayant un rôle autour de l’éditique. De même, certaines activités qui posent le plus de problèmes en matière de gouvernance documentaire ne sont pas prises en compte dans le guide conceptualisé, l’archivage électronique, le traitement des emails, la gestion des archives papier en sont des exemples (Boillet, 2011). On pourrait aussi compléter notre guide par différents facteurs clés issues de la littérature comme l’étude du serdaLAB qui a interrogé plus de 250 entreprises sur leurs gouvernances documentaires, les préconisations de la norme ISO 30300 ou les travaux de l’APROGED (Association des Professionnels de la Gestion Electronique des Documents) qui propose une série de questions que le Directeur de Projet doit se poser à chaque étape du cycle de vie du document. Cette dernière discussion démontre aussi l’importance de deux aspects dans un projet d’éditique vue comme un système cybernétique, l’importance des processus pour gagner en efficacité, mais aussi l’organisation nécessaire pour piloter ce métier. Notre proposition traite finalement davantage ce dernier aspect et la littérature apporte principalement des facteurs clés sur la définition des processus documentaires. Leurs complémentarités peuvent s’avérer indispensables dans le cadre de la mise en place d’un projet organisationnel et technique d’éditique.


  4. Conclusion


Dans cet article nous nous sommes attachés à démontrer que la structure d’un processus de veille et similaire aux processus d’Editique. Nous nous sommes ensuite appuyés sur les travaux visant à identifier les facteurs clés de succès et d’échecs dans le cadre d’un dispositif de veille vue comme un système cybernétique pour définir des facteurs clés dans le cadre d’un projet d’éditique. Après analyse, nous avons déterminé que nos facteurs clés peuvent s’avérer très utiles pour des aspects organisationnels dans un projet, mais peut-être insuffisants sur des aspects technico-fonctionnels. Pour pallier à ces carences, la complémentarité avec la littérature dans le domaine comme les référentiels de norme, le livre vert de l’APROGED ou les sondages représentatifs sur la gouvernance documentaire peuvent s’avérer utile.


Bibliographie


ALAZARD A. (2010). Donner de la valeur à vos documents. Consulté de http://www.slideshare.net/alain1965/editique-interactive-4316845

BEIGNON J.-M., & BOURMAUD, F.-X. (2005). Intelligence économique et entreprise: comprendre son environnement pour agir. Editions L’Harmattan.


BLUMEREAU B. (2003). L’heure des progiciels. Banque Magazine, (650 (Supplément)), 39-40.

BOILLET V. (2011). La gouvernance documentaire dans les entreprises françaises. SerdaLAB. Consulté de http://serda.com/fileadmin/serda/images/serdaLAB/Etudes_completes/livres

_blancs/Livre_blanc_serdaLAB_gouvernance_documentaire.pdf

COTTIN M., FAURE C., FUZEAU P., JULES A., & TAILLEFER M. (2011).

Livre Blanc - Introduction à la série des normes ISO 30300, Système de management des documents d’activité. AFNOR. Consulté de http://www.bivi.fonctions- documentaires.afnor.org/content/download/23222/154684/version/4/file/CG 46CN11+Livre+Blanc+RecordsManagement.pdf

CZAJKA C. (2010). L’éditique interactive au coeur des processus métiers. Business Document. Consulté de http://www.industrie.com/impression/mediatheque/0/6/4/000001460.pdf DUPOIRIER G. (2008). Enjeux et risques de la dématérialisation des documuents. Techniques de l’Ingénieur, Documents numériques Gestion de contenu. Consulté de http://www.techniques- ingenieur.fr.ezproxy.scd.univmed.fr:2048/base-documentaire/technologies-de-l- information-th9/documents-numeriques-gestion-de-contenu-ti403/enjeux-et- risques-de-la-dematerialisation-des-documents-h7602/

DUPOIRIER G. (2009). Gestion de documents numériques et de leur contenu. Techniques de l’Ingénieur, Documents numériques Gestion de contenu.

FRANÇOIS P. (2006). L’éditique: quand l’entreprise se donne les moyens de produire ses documents. ZDNet Business & Technologies. WebZine Professionnel, . Consulté juin 16, 2011, de http://www.zdnet.fr/actualites/l- editique-quand-l-entreprise-se-donne-les-moyens-de-produire-ses-documents- 39363679.htm

KHRISTY J.-P. (2010). Garantir le succès d’un projet éditique. Techniques de l’Ingénieur. Consulté de http://www.techniques- ingenieur.fr.ezproxy.scd.univmed.fr:2048/actualite/informatique-electronique- telecoms-thematique_193/garantir-le-succes-d-un-projet-editique-article_7653/ LEMAIRE S. (2009). Outils et méthodes de diffusion des résultats de la veille: le cas du Centre International d’Etudes Pédagogiques (CIEP) (Mémoire de Chef de Projet) (p. 100). http://memsic.ccsd.cnrs.fr/mem_00524364/: CNAM.

LESCA N., & CARON-FASAN, M.-L. (2005). La veille vue comme un système cybernétique. Revue Finance Contrôle Stratégie, 8(4), 93–120.

MELKI A. (2008). Système d’aide à la régulation et évaluation des transports multimodaux integrant les Cybercars. Ecole Centrale de Lille, Lille.

DE MONTAIGNE J. (2009). L’éditique, ou la production en masse de documents. le CXP. Consulté de http://www.cxp.fr/gespointsed/imgbreves/Sommaire_Editique.pdf MOURAIN J. (2011). Etat et enjeux de la gouvernance documentaire. Diaporama, Paris, La Défense. Consulté de http://lb7.reedexpo.fr/Data/kmreed_informatique/block/F_a86c5d332f75b90a d2a610ecfa9ade484d9ddebc3e2f4.pdf

REMY C. (2009). Editique, automatiser l’envoi de documents. Solutions & Logiciels, (9). Consulté de http://www.solutions- logiciels.com/magazine_articles.php?titre=Editique-automatiser-lenvoi-de- documents&id_article=156


ROUSSEL P., & LASSALE, B. (2009). Comment analyser un incident de la chaīne transfusionnelle. Transfusion clinique et biologique, 16(1), 53–60.

SEGUI M., (2011). Initiation à Documentation : création, dématérialisation, stockage, archivage ... Diaporama présenté à DOCUMENTATION, Paris, La Défense. Consulté de http://lb7.reedexpo.fr/Data/kmreed_informatique/block/F_17f4a19440349ebc 02e2cedaf6bc98784d9dde0d80904.pdf

ZANON O. (2011). Comment anticiper les freins face à la dématérialisation. Diaporama, Paris, La Défense. Consulté de http://lb7.reedexpo.fr/Data/kmreed_informatique/block/F_78aa12a094de311e 3a2a2c67081993e84d9dde9761501.pdf


Accès aux collections de presse ancienne : une étude exploratoire


Céline PAGANELLI

Université Montpellier 3, France ; Laboratoire Gresec, Université Grenoble 3


Evelyne MOUNIER

Université Grenoble 2, France ; Laboratoire Gresec, Université Grenoble 3


Stéphanie POUCHOT

Université de Lyon, France ; Université Claude Bernard Lyon 1, ELICO, EA 41


Résumé : Les collections de presse ancienne constituent des objets d’étude et des ressources indispensables aux travaux des spécialistes, universitaires ou professionnels de l’information. D’un accès difficile, elles font l’objet de campagnes de numérisation visant à les protéger et à les rendre accessibles au plus grand nombre. De fait, on constate un élargissement et une diversification des publics. Il reste malaisé d’apprécier l’étendue, la nature et l’impact réel sur les usages et les pratiques. L’étude présentée ici est de nature exploratoire. Elle a pour objet les collections de presse ancienne régionale de la Bibliothèque municipale de Lyon (France) dont elle propose une première approche des modes d’accès et usages.


Mots-clés : Numérisation, presse ancienne illustrée, usages des bibliothèques numériques.


Introduction

La presse du XIXe siècle représente, notamment pour les chercheurs, les étudiants et les journalistes, une source d’information considérable sur la vie politique, économique, sociale et culturelle d'une époque ; l'ancrage local de certains titres présentant, lui, une source d'information sur l'histoire d'une région. Mais les collections de presse sont fragiles et leur manipulation délicate. La valeur historique de la presse et les contraintes liées à sa consultation ont tôt fait d’inciter les institutions à se préoccuper de la préservation et de la diffusion de ce type de collections. Ainsi, dès la fin des années 1950 en France est créée l’Association pour la conservation et la reproduction photographique de la presse qui débute le microfilmage de titres de presse en partenariat avec la Bibliothèque Nationale (Delaunay 1996). Plus récemment, la Bibliothèque nationale de France (BnF) a lancé, en


2005, un plan de numérisation de la presse quotidienne française des XIXe et XXe siècles pour la rendre accessible via la bibliothèque numérique Gallica. L'ensemble du corpus numérisé représente, en 2011, une trentaine de titres, soit plus de 3,5 millions de pages70. Parallèlement aux bases proposées par les bibliothèques et services d’archives, des outils spécifiquement dédiés à la création et la consultation de corpus de journaux anciens font également leur apparition (Schor 2008).

La numérisation de telles collections a plusieurs objectifs : une accessibilité accrue, une valorisation des richesses patrimoniales et une meilleure conservation. De plus, pour des raisons de préservation, les collections sur papier sont le plus souvent retirées de la consultation dès que la copie numérique est mise à disposition du public, la plupart du temps sur internet. L’accès aux collections papier de journaux anciens et le travail sur ces documents sont communs dans toutes les salles de lecture et les usagers habituels sont relativement bien connus. Les modes d’accès en ligne posent en revanche davantage de questions : Quels objectifs peuvent amener un usager à utiliser les collections de presse ancienne ? Quels types de contenus le lecteur vient-il chercher et sous quelle(s) forme(s) (texte, gravure…) ? Comment cherche-t-il ? Est-il indifférent de tourner les pages d’un journal ou de consulter à l’écran ? Des usagers nouveaux se manifestent-ils ? Quelles sont les pratiques émergentes liées au passage au numérique ?

Comme d'autres bibliothèques partenaires de la BnF, la Bibliothèque municipale de Lyon (BM de Lyon) s’inscrit dans cette dynamique, en numérisant depuis 2007 les collections de la presse illustrée rhônalpine du XIXe siècle. Notre étude prend place au sein du projet CaNu XIX, qui vise à valoriser et mettre en ligne ces collections patrimoniales. L'un des volets de ce projet concerne spécifiquement les usagers et a pour objectif d’appréhender de manière globale les attentes et usages en matière de consultation et d’utilisation des collections de presse ancienne numérisée ou sur papier.

Dans cet article, nous commençons par exposer le positionnement et le contexte de notre travail avant de présenter l’étude exploratoire que nous avons menée. Nous terminons par une discussion concernant la contribution de cette recherche ainsi que par quelques pistes prospectives.


  1. Positionnement et contexte


    Le travail que nous proposons, ancré en sciences de l’information et de la communication, s’inscrit dans un ensemble d’études qui appréhendent la recherche d’information comme un processus situé et contextualisé


    image

    70 Source : site de la BnF, http://www.bnf.fr/, visité le 11/10/11.


    (Fondin 2001, Boubée 2010). En effet, deux visions de la recherche d’information coexistent dans la discipline : celle qui l’envisage essentiellement comme processus technique et met l’accent sur les questions de stockage ou de traitement, approche qui a nourri la discipline de nombreux travaux comme le soulignent Rosalba Palermiti ou Claude Poissenot (Palermiti 2002, Poissenot 2002) ; et celle qui s’intéresse aux facteurs humains et considèrent la recherche d’information comme un processus de communication (Fondin 2001) ; dans cette lignée, de nombreuses études ont porté sur les usages et pratiques informationnelles (Chaudiron 2010). C’est dans ce dernier cadre que le travail présenté se situe. L’approche que nous adoptons considère d’une part que l’activité principale de l’individu et le contexte dans lequel elle prend place influencent ses attentes en matière d’information, les stratégies de recherche d’information mises en œuvre et, plus largement, l’activité informationnelle. Différents travaux ont montré que le contexte avait effectivement une influence déterminante sur l’activité d’information, par exemple (Cheuk 1999, Guyot 2002, Bartlett 2005, Staii 2006, Miranda 2007, Fabre 2010). Cette approche considère d’autre part que la prise en compte des usages et des pratiques informationnelles s’avère nécessaire non seulement pour comprendre et décrire l’activité des individus mais également pour établir des préconisations concernant le fonctionnement et le développement des interfaces. Nous considérons ainsi que la conception d’un système nécessite que soient pris en compte à la fois les caractéristiques des utilisateurs visés et les spécificités du contexte de la tâche de recherche d’information (Paganelli 2003).

    Dans le cas de l’accès à l’information dans des collections de presse ancienne, qu’elles soient sur papier ou numérisées, la prise en compte des usages et pratiques pourrait donc améliorer la conception d’un dispositif d’accès à ces collections. S'il existe des travaux sur l'étude de la convivialité des outils, ceux-ci portent plus volontiers sur la comparaison d'interfaces ou sur les techniques de recherche mises en œuvre que sur la compréhension des raisons qui poussent l’usager à utiliser ces ressources ou la nature des tâches visées par l’usager (Bryan-Kinns 2000). Notre travail vise, au travers d’une étude exploratoire, à appréhender de manière globale les attentes et usages en matière de consultation et d’utilisation des collections de presse ancienne numérisée ou sur papier. Ici, l’analyse des attentes et des usages doit être entendue comme un préalable à une réflexion et à des préconisations sur les traitements documentaires et sur les modalités d'accès aux documents numérisés. Dans cet article, nous nous intéressons précisément aux usages des collections de presse ancienne ; les usages étant entendus comme

    « l’expression d’un processus constitué d’interactions complexes mettant en relation un individu et un dispositif » (Chaudiron 2010). Ainsi, ce sont les interactions d’un dispositif ou d’une collection qui sont étudiés ici, à


    la fois dans leur dimension individuelle et cognitive, mais également dans une dimension sociale permettant de prendre en compte le contexte dans lequel l’usage se situe. Dans cette acception, l’usage apparaît alors comme restrictif par rapport aux pratiques informationnelles, terme qui désigne la manière dont l’ensemble des dispositifs, sources, outils et compétences cognitives sont effectivement mobilisés dans les différentes situations de production, de recherche, traitement de l’information (Ihadjadene 2009, Gardiès 2010).


  2. Accéder à la presse ancienne : un mouvement général de numérisation et de diffusion en ligne


    Les projets et réalisations de numérisation de collections, que ce soient des collections de presse, de manuscrits, d’ouvrages, sont nombreux, en France comme à l’étranger, principalement en Europe ou en Amérique du Nord (Smolczewska-Tona 2008). En France, le plan de numérisation lancé par le Ministère de la Culture en 1996 (Bequet 2000) a permis un fort développement de ces projets. Le catalogue des collections numérisées du ministère de la Culture fait état, en octobre 2011 2010, de 1868 collections numérisées et de 642 institutions concernées, dont une très forte majorité de bibliothèques. Pourtant, la situation n’en est pas moins contrastée. Ainsi, Westeel (2009, 29) fait remarquer qu’« une observation précise de la situation des bibliothèques montre un bilan plutôt mitigé. Les projets en ligne et les véritables bibliothèques numériques sont finalement assez peu nombreux. On peut compter une trentaine de projets pour les bibliothèques municipales ». Ce constat nuancé atteste de la difficulté des structures documentaires à maintenir ce type de projets dans la durée. Il n’est donc pas étonnant que les études concernant les usages de ces collections numérisées soient encore rares.

    Les pouvoirs publics français affichent, certes, une volonté de s'intéresser à la manière dont ces fonds numérisés sont utilisés (Lesquins 2006), ainsi l’appel à projets 2010 du ministère de la Culture concernant la numérisation du patrimoine culturel portait-il « une attention particulière [...] à l’émergence d’outils et de services favorisant des usages culturels innovants par les internautes ». De même, les professionnels impliqués dans ces projets expriment leur intérêt pour connaître les motivations et les comportements de leurs usagers. En 2009, nous avons mené une enquête auprès de 18 structures françaises ayant numérisé des titres de presse ancienne. Les résultats montrent que, si les professionnels ont une connaissance intuitive des usagers qui utilisent leurs fonds, ils n'ont en revanche pour l'instant pas réalisé d'études qualitatives ou quantitatives précises sur ces lecteurs.

    Plus largement, s’il existe un grand nombre d’études sur les usages des bibliothèques numériques (Bryan-Kinns 2000, Papy 2007), peu de


    travaux s'intéressent précisément aux usages des fonds patrimoniaux numérisés. Dans ce contexte, les études sur Gallica (Lupovici 2003) et Europeana (Lesquins 2007) sont particulièrement précieuses. Elles permettent de caractériser les usages et de mettre évidence des portraits types d'usagers en ce qui concerne l’étude Gallica, ou d'évaluer l'utilisation d'une interface en ce qui concerne l'étude d'Europeana. L’étude de Lupovici (2003) montre notamment que les bibliothèques électroniques attirent un public qui n’est pas nécessairement habitué des bibliothèques mais qui y vient par le biais de recherches spécifiques. Ce public est assez différent de celui des bibliothèques classiques et le chercheur professionnel, notamment, y est peu représenté. On découvre enfin une population d’internautes seniors, gros consommateurs d’internet, avec un fort taux d’équipement et dont les centres d’intérêts gravitent autour des contenus culturels. Peu d’auteurs ont étudié précisément les pratiques de consultation des fonds anciens. Une étude menée à la BM de Lyon (Belot 2004) montre que les usagers sont majoritairement des hommes résidant en région Rhône-Alpes et d'un niveau d'études supérieur (91% ont au minimum une licence), et que les étudiants et les cadres constituent 77% de cette population. Leurs objectifs de recherche sont quant à eux répartis en trois catégories : un travail dans le cadre de leurs études (44 %), des recherches personnelles (30 %) et des recherches professionnelles (26 %).

    Les bibliothèques engagées dans les chantiers de numérisation y voient, en général, une occasion de valoriser les fonds de presse ancienne qu’elles détiennent, en les mettant à disposition d’un public plus étendu. La mise en ligne de ces richesses s’accompagne donc le plus souvent d’annonces sur le site web de la bibliothèque, voire dans la presse régionale. Aussi, une fois numérisés, ces fonds sont-ils bien visibles dès la page d’accueil du site et sont facilement accessibles. De fait, la mise en ligne des collections de presse ancienne représenterait une opportunité pour tous les usagers. Ainsi, Tétu (2010) remarque un regain d’intérêt récent pour la presse ancienne illustrée de la part des historiens, mouvement probablement encouragé par les campagnes de numérisation de ces collections.

    Cependant, ce type de ressources reste relativement peu utilisé parce que peu accessible, entre autres pour deux raisons :

    Si la plupart des interfaces proposent de chercher par le titre de presse, selon la date de publication ainsi que par mots-clés, on peut supposer que les possibilités offertes en matière de recherche ou de consultation ne sont pas en adéquation avec les attentes des usagers.

    La recherche en texte intégral n’est souvent pas pertinente en raison des limites de la reconnaissance optique de caractères. Différentes études, dont celle de Bermès (2007), ont en effet montré que la reconnaissance optique de caractères (OCR) en matière de numérisation des documents


    anciens restreint sérieusement l’intérêt de la recherche en texte intégral, notamment dans le cas des collections de presse ancienne.


  3. Une étude exploratoire à la Bibliothèque municipale de Lyon


    1. Contexte géographique et institutionnel

      Le site principal de la Bibliothèque municipale de Lyon est situé dans le quartier de la Part Dieu, à deux pas de la plus importante gare SNCF lyonnaise et du centre commercial le plus grand intra muros. Il s’agit d’une zone commerçante certes excentrée mais très achalandée et à laquelle il est aisé d’accéder en transports doux, puisqu’une station de métro, un arrêt de tram et une station de Velov71 sont tout proches. Notons par ailleurs qu’aucun établissement public de l’enseignement supérieur ne se trouve à proximité géographique directe. En 2007, la BM de Lyon a démarré un important programme de numérisation et de mise en ligne de ses fonds de presse locale patrimoniale (fin du XIXe – première moitié du XXe). L’hebdomadaire Le Progrès Illustré de Lyon a été le premier des titres de périodiques choisi pour cette valorisation. Présenté comme le « supplément littéraire » du Progrès de Lyon, ce titre est paru entre décembre 1890 et septembre 1905.


    2. Hypothèses et méthode de travail

      Dans ce contexte, nous envisageons ici les hypothèses de recherche suivantes :

      Tout d’abord, les besoins et attentes de l’usager habituel des fonds de presse ancienne ne diffèrent pas selon les supports.

      Toutefois, la mise en ligne des collections induit une diversification et un élargissement des publics susceptibles de les consulter. Ainsi, d'autres besoins et attentes ont pu également naître qui ne sont pas nécessairement pris en compte par les interfaces de recherche et de consultation.

      Enfin, la structure bien particulière des documents de presse induit des habitudes d'exploration et des formes d’utilisation spécifiques. Il se peut que la lecture à l'écran et/ou l’interface de recherche entraînent des pratiques ou stratégies différentes de celles mises en œuvre lors de la consultation de collections papier.

      Nous avons ainsi mené une enquête par questionnaires auprès des usagers de la BM Lyon entre juin 2009 et janvier 2010, afin de mieux les connaître et de comprendre leurs pratiques et leurs motivations à consulter les fonds patrimoniaux. Nous avons choisi de recueillir les données selon deux modalités :


      image

      71 Système de location de vélos courte durée en libre service.


      Via un questionnaire en ligne visant à colliger des données auprès des lecteurs en ligne de ce titre, il était accessible depuis la page d’accueil de la base.

      Via un questionnaire papier, destiné à collecter des informations auprès des usagers se déplaçant à la bibliothèque de la Part Dieu, sur rendez- vous, pour consulter des titres de presse ancienne. Ce questionnaire a été distribué à ces usagers à leur arrivée à la banque d’accueil de la bibliothèque.

      Les questionnaires en ligne et papier comportent respectivement 27 et 26 questions permettant, entre autres, de cerner les motivations des répondants, leurs stratégies de recherche et de consultation ainsi que leur niveau de satisfaction par rapport aux informations trouvées. Du point de vue technique, pour le questionnaire en ligne comme pour le traitement des réponses au questionnaire papier, nous avons utilisé le logiciel libre de sondage LimeSurvey (http://www.limesurvey.org/). Cet outil libre, développé en PHP propose une interface web d’administration et permet de stocker les données dans une base MySQL.


  4. Résultats


    Le nombre de questionnaires colligés reste peu élevé, que ce soit en ligne ou sur place. En effet, nous avons obtenu 40 réponses au total, soit 16 questionnaires en ligne et 24 questionnaires sur papier. Ce faible nombre de répondants ne donne aucune indication sur la consultation réelle du Progrès Illustré en ligne et ne peut constituer un échantillon représentatif de la population concernée. Sur la période de collecte de données, le site internet a en effet été visité par plus de 30 000 visiteurs uniques72. Répondre au questionnaire pour accéder à la base n’étant pas une obligation, la plupart des usagers ne se sont pas sentis tenus de le remplir.

    En ce qui concerne les questionnaires distribués sur place, les réponses ont pu porter sur d'autres titres que le Progrès Illustré puisqu'ils ont été complétés par un public spécialisé venant consulter différents titres de presse ancienne.

    Bien que fondés sur un faible nombre de questionnaires et recueillis selon des moyens et canaux différents, nos résultats sont comparables à ceux des enquêtes sur Europeana ou Gallica, notamment sur l’origine géographique, les caractéristiques socioprofessionnelles, les classes d’âge.


    image

    72 Statistiques fournies par la BM Lyon. Environ un tiers des visites sont effectuées par des robots de type crawler.


    Origine géographique

    Compte tenu de la spécificité du fonds (presse régionale illustrée), il n’est pas surprenant que plus de la moitié des répondants soient domiciliés en région Rhône-Alpes (27 sur 40). Toutefois, l'intérêt pour la presse ancienne rhônalpine dépasse le cadre régional : ainsi près de la moitié des répondants en ligne ne sont pas « locaux » ; on peut noter la présence de quelques répondants internautes (Europe hors France et autres pays), qui accèdent déjà à la collection (3 sur 40) en ligne.


    Caractéristiques socioprofessionnelles

    Les usagers des collections de périodiques anciens peuvent être étudiants, enseignants-chercheurs, bibliothécaires, journalistes, conférenciers, mais aussi retraités ou des personnes sans emploi. Des professions intermédiaires telles que les employés, les ouvriers, artisans, agriculteurs sont peu ou pas représentées. Dans la mesure où les enquêtes Gallica et Europeana aboutissent au même constat, on peut penser que ce résultat n’est probablement pas lié au nombre de répondants. Globalement, deux groupes d’usagers sont les plus nombreux : les étudiants (12 sur 40) et les retraités (11 sur 40) Mais, il semble que le public étudiant se déplace davantage à la Bibliothèque pour consulter les documents sur place (10 sur 24), alors que les consultants de la base Progrès illustré, seraient majoritairement des retraités (7 sur 16). Sans doute moins mobiles que les autres, ils profiteraient davantage de la mise en ligne.


    Lieu de connexion habituel, équipement et pratiques habituelles du Web

    En termes d’équipements, de lieu de connexion habituel, ou de pratiques sur la Toile, nos observations rejoignent également celles de Gallica et d’Europeana. Pour nos deux enquêtes, les usagers se disent équipés à la maison avec un ordinateur et une connexion à internet, leur lieu de connexion principal étant leur domicile. De tels résultats ne sont pas surprenants. En effet, déjà en 2002, les utilisateurs de Gallica déclaraient majoritairement se connecter de chez eux. De même, l'enquête Europeana de février 2007 permettait de constater que plus de 50% de la population interrogée disposait déjà d’un accès à internet, sachant que l’accès principal des répondants de l’enquête Europeana se faisait au domicile personnel.

    De la même manière, dans les deux enquêtes, les répondants apparaissent comme des habitués du web : 13 usagers sur 16 de la collection en ligne et 17 sur 24 des collections papier déclarent utiliser internet depuis plus de 5 ans. Globalement, les usagers des deux groupes passent beaucoup de temps sur la Toile (environ deux tiers des répondants de chaque groupe déclarent y consacrer au moins 6h par semaine). Mais le groupe des consultants de la revue en ligne passerait


    plus de temps que l'autre groupe sur internet, soit plus de 20h par semaine. Paradoxalement, les deux tiers des individus de ce même groupe, majoritairement constitué de personnes retraitées, s'estiment peu à l'aise dans cette activité. Dans le même temps, le groupe usagers des collections papier, globalement plus jeune, estime pour moitié être très l'aise ou assez à l'aise avec l’utilisation d’internet. De même, l'immense majorité de chaque groupe dit utiliser internet pour les loisirs (près de 9 répondants sur 10 concernant la collection en ligne et 8 sur 10 pour les utilisateurs des collections papier).


    Les pratiques en matière de recherche d’information

    Contexte et objectifs de la consultation de la presse ancienne régionale

    S’agissant de la consultation proprement dite des collections de presse ancienne, les lecteurs se déplacent pour consulter les collections papier principalement pour des travaux universitaires (15 sur 24) avec pour objectifs la publication d’ouvrages spécialisés, la production de mémoires universitaires ; certains ont également des objectifs pédagogiques comme la préparation d’un cours ou d’autres objectifs professionnels tels que production de films documentaires. La plus part du temps, chacun a donc un objectif précis et peut formuler le thème ou le sujet qui le conduit à travailler sur un périodique ancien. Ainsi, l’un déclare faire un mémoire sur la presse lyonnaise sous La Commune, un chercheur travaille sur les fabricants de soieries, un autre encore sur les troubles politiques en Italie vus par la presse locale. Parfois le sujet de recherche est moins précis, comme pour cet usager souhaitant comparer deux visions de la guerre (celle du Préfet et celle de la presse).

    Ces usagers sont avant tout des habitués des bibliothèques et des collections de périodiques anciens : ils savent où chercher, comment chercher. Ils ont coutume de travailler sur un ou plusieurs titres de journaux, peu importe le support : sur papier (12 sur 24), microfilms (14 sur 24) ou numérisés (5 sur 24).

    La consultation des collections en ligne ne semble pas répondre aux mêmes caractéristiques. Le profil des consultants est différent : peu d’universitaires (2 sur 16), d’étudiants (1 sur 16), quelques professionnels autres (5 sur 16), des retraités (7 sur 16). Parfois, ce sont des motifs professionnels (3 sur 16) ou universitaires (2 sur 16) qui génèrent la démarche, mais le plus souvent on exprime des motifs personnels ou culturels (8 sur 16). Par exemple, telle personne lit Madame Bovary et cherche à mieux comprendre l’époque et le contexte du roman ; telle autre réalise, à titre bénévole, un site web sur les forts ; une troisième prépare une visite culturelle et cherche des anecdotes. De plus, dans ce groupe, la majorité des répondants consulte pour la première fois (13 répondants sur 16).


    Enfin, nous rencontrons une forte proportion d’usagers qui n’ont pas de recherche particulière à effectuer et qui arrivent là par hasard. Il ne s’agit donc pas d’un public habituel usager de la presse ancienne, mais c’est la mise en ligne qui commence à attirer un public différent.

    Ces observations recoupent donc les résultats de l’étude des usages du catalogue Gallica : 44% des répondants à l’étude sur Gallica déclarent consulter pour un usage exclusivement personnel et s’apparentent à des

    « chercheurs amateurs » (Assadi 2003).

    Ces observations recoupent également les indications données par les professionnels des archives et des bibliothèques que nous avons sondés il y a deux ans quant à la perception de leurs usagers. Ils distinguent effectivement les usages personnels des usages professionnels. Dans le premier cas, ils envisagent essentiellement les généalogistes. Dans le second cas, ils citent, outre les chercheurs et étudiants, des journalistes de la presse locale venus consulter pour écrire leurs articles, des urbanistes utilisant la presse locale pour s’informer sur la gestion des risques naturels dans la région et, enfin, des professionnels des musées consultant ces collections dans le cadre de l’organisation d’expositions ou manifestations centrées sur le local.

    Il apparaît donc que les contextes dans lesquels les usagers consultent les collections de presse ancienne sont variés, tout comme les objectifs de ces consultations.


    Types d’informations recherchées

    Certes, on constate que dans le cas de la recherche en ligne, certains usagers (4 sur 16) ne cherchent rien de précis, étant arrivés par hasard sur la page du Progrès Illustré. Hormis cette catégorie, il n’est pas sûr que les différences entre les deux groupes soient significatives. Tout d’abord, les recherches dans les collections papiers portent prioritairement sur des événements, avec mention de dates et de personnes. Mais cela n’est pas surprenant compte tenu de la forte proportion de spécialistes ayant recours à ce type de source dans l’optique de produire des travaux universitaires.

    De plus, dans les deux groupes de répondants, des tendances identiques coexistent : à côté de la recherche par thématiques (12 sur 40), l’usager recherche directement des événements (23 sur 40), dates (16 sur 40),

    lieux (23 sur 40), personnes (19 sur 40).

    D’ailleurs, la recherche d’événements recouvre des sujets aussi disparates que des élections, des procès, le décès d’une personnalité, une fête, une exposition... Cette variété est également visible dans la recherche sur les personnes qui peut concerner un peintre précis, des personnages politiques locaux ou nationaux, comme par exemple, les acteurs de la droite lyonnaise, des noms de brasseurs et assimilés : Chanal – Janson, Trimolet.


    La recherche par date fait apparaître des années, ou des périodes plus ou moins définies : par exemple : « De fin décembre 1856 à mars 1857 », ou encore « depuis la Révolution à l’Empire».

    S’agissant des noms de lieux, les usagers mentionnent une grande variété de noms de localités et de villes de la région lyonnaise. Sont également recherchés des bâtiments, comme le Grand Opéra ou des lieux de brassage.

    Ainsi, les objectifs de recherche peuvent-ils être précis ou non et exprimés précisément ou non. Globalement, ces objectifs se situent sur le terrain du factuel plus que sur celui de la thématique générale.


    Modes d’exploration et de récupération de l’information

    Sur les exemplaires papier des journaux comme sur leur version numérisée, la lecture en diagonale est la pratique la plus répandue (25 sur 40). Elle correspond plus précisément au comportement des spécialistes (historiens par exemple) qui travaillent sur une question en explorant rapidement les documents, le plus souvent en raison de l’importance du volume du fonds à compulser. Par ailleurs, ce type d’usager n’est pas certain de trouver d’éléments d’information pertinents et n’a pas d’idée sur la façon dont le contenu pourrait être formulé.

    Dans le cas du support papier, la plupart des usagers (16 sur 24) recherchent directement une rubrique, d’autres (5 sur 24) cherchent une page précise et ne lisent que celle-ci. Pour autant, le dépouillement habituel des journaux sur papier reste parfois malcommode : l’un estime qu’il « il manque un classement chronologique des parutions. Quand on cherche un événement on ne connaît pas, ou probablement, les titres de la presse locale », un autre qu’il faudrait « Lier les articles qui parlent du même sujet mais qui sont éparpillés dans le journal », d’autres soulignent la difficulté à « de sélectionner l'année où il y aura le plus de commentaires qui l'intéressent » ou à « ne rien rater », d’autres enfin font remarquer des difficultés de manipulations à cause de « la taille du livre mais le papier reste plus agréable à lire qu'un écran ».

    La consultation en ligne offre de nombreuses possibilités ; elle permet de balayer la liste des titres ou de rechercher directement l’un d’eux, d’accéder ensuite aux années de publication, puis à chaque numéro ; l’usager peut ensuite faire défiler chaque page ou encore, via un sommaire organisé en pages, choisir directement une page. La recherche par mots clé porte soit sur l’ensemble des collections soit sur un titre déjà sélectionné et permet d’accéder directement au passage voulu dans les pages pertinentes, sous réserve d’avoir bien formulé sa requête.

    Globalement, l’interface est vue comme ne présentant pas de difficultés particulières. Pourtant, quelques remarques montrent qu’une partie des usagers est « déstabilisée » soit parce qu’il est nécessaire de rechercher d’abord par date puis par numéro La recherche de n° par dates de publication : impossibilité de se retrouver dans la collection entière »), soit par la lecture en diagonale devient difficile sur un écran Pouvoir lire en diagonal


    tout le journal, c'est fastidieux d'être obligée d'agrandir pour lire et ensuite très compliqué le copié collé. »), soit encore parce qu’ils ne voient pas comment formuler une recherche par mots clé (« trouver la bonne entrée ...»), soit parce qu’il faut jongler avec les différents grossissements pour pouvoir lire. Enfin, on remarque qu’une partie non négligeable des répondants (un quart) préfère dépouiller page par page tout un numéro et lire plus attentivement, de crainte de passer à côté d’une information pertinente que l’OCR n’aurait pas détectée ou quand ils ne voient pas comment formuler leur requête précisément.


    Nature de l’information recherchée

    Concernant la nature de l’information recherchée, nous observons une nette différence entre les deux groupes de lecteurs (collections papier et version en ligne). Les personnes consultant les collections papier recherchent principalement de l’information textuelle (19 sur 24) alors que les consultants de la collection en ligne disent rechercher des illustrations (5 sur 16) ou indifféremment du texte ou des illustrations (12 sur 16). Cette différence est cohérente avec le fait qu’une bonne partie des internautes est arrivée sur Le Progrès illustré en ligne par hasard, et ne cherche rien en particulier.

    Cependant, tous les éléments textuels d’un journal sont susceptibles d’intéresser les usagers. Sur les deux types de supports, sont surtout recherchés des articles (31 sur 40) mais aussi des rubriques précises (rubriques de mode par exemple, ou de cuisine) et parfois des feuilletons. Tous ces objets, caractéristiques de la structure d’un journal, constituent aussi bien des sources d'informations que des balises pour la lecture rapide. Ils conviennent particulièrement aux lecteurs qui ont à mener des travaux à caractère universitaire ou qui, d’une manière plus générale, sont des habitués des bibliothèques, familiers de la presse ancienne, c'est-à- dire des individus connaissant bien la structure des titres consultés.

    Comme son nom l’indique, Le Progrès illustré propose un bon nombre d’illustrations, notamment des gravures, des plans ou encore des dessins humoristiques. Les deux groupes de répondants ne manifestent pas le même intérêt vis à vis des ressources iconographiques. S’agissant de la collection en ligne, tous les sujets sauf un répondent et formulent des choix ; dans le cas de la collection papier, la moitié (11 sur 24) ne donne aucune réponse.

    Concernant la nature même des illustrations recherchées, les gravures sont les plus prisées par les deux groupes, surtout si elles sont situées en première page. Viennent ensuite les cartes et plans puis les dessins d’humour et enfin les graphiques. Notons qu’environ un répondant sur cinq signale que sa recherche d’image ne porte pas sur un type d’illustration en particulier.

    Les objectifs des répondants peuvent être ici un facteur explicatif : dans le cadre de recherches à visée professionnelle ou universitaire, les


    personnes ayant répondu au questionnaire papier recherchent des données textuelles portant sur des sujets précis (événements, dates, personnes…). Les internautes, aux objectifs majoritairement personnels, ont quant à eux moins d’attentes en la matière mais ceux ayant une préférence privilégient les illustrations.


  5. Contribution de la recherche : discussion


    Le présent article rend compte de deux enquêtes avec certes un nombre de restreint répondants mais dont les résultats sont en correspondance avec des enquêtes de grande envergure comme celles menées sur Gallica et Europeana. Les questionnaires avaient pour objectif de préciser les usages effectifs et les besoins des usagers des collections de périodiques anciens. Leurs résultats mettent en évidence certaines pistes sur lesquelles il convient de nous interroger.


    La mise en ligne élargit les publics

    Les résultats de notre enquête confirment des tendances déjà mises en évidence lors des études menées auprès des publics de Gallica et Europeana. La mise en ligne de collections anciennes permet un élargissement des publics. En effet, lorsque ce type de collections est numérisé, ce ne sont plus seulement des chercheurs ou spécialistes qui les consultent ; le grand public est également intéressé, que ce soit par curiosité ou pour des recherches plus ciblées en lien avec son histoire familiale ou des évènements survenus dans sa région (quand il s’agit de consulter la presse locale). Par ailleurs, ce sont la plupart du temps des personnes qui ne fréquentent pas la bibliothèque en tant que lieu physique. Cet élargissement des publics est également géographique ; là encore, comme pour l’étude Gallica, les publics consultent les collections à partir de différentes régions françaises ou de l’étranger. Ces résultats correspondent bien à l’idée selon laquelle la numérisation des collections est réalisée dans une perspective de valorisation, avec comme principal objectif de toucher de nouveaux publics. Pourtant, la question des modes d’accès à l’information, et notamment de l’adéquation des modes d’accès au public de ces collections, n’est pas posée de manière évidente dans les travaux en lien avec les bibliothèques numériques.


    Diversité des publics, des objectifs poursuivis et des stratégies d’accès

    Comme l’ont déjà souligné d’autres travaux (Guyot 2002, Jarvelin 2004, Bartlett 2005,), il apparaît que l’activité principale, le contexte professionnel voire les contraintes spécifiques de la tâche ont un impact sur l’activité d’information. Ici, nos observations suggèrent que l’activité principale ou habituelle mais aussi les objectifs immédiats des usagers


    amènent ceux-ci à mettre en œuvre des stratégies qui peuvent être différentes selon ces objectifs et le type d’information recherché au moment de la consultation. Ainsi, les consultants habituels de la presse ancienne, agissent souvent dans un cadre professionnel ou universitaire et sont à la recherche d’informations factuelles mais dont le degré de précision peut varier. Ils peuvent ainsi parfois expliciter exactement ce qu’ils veulent trouver : un lieu, un événement précis, un personnage, des gravures, des cartes, etc. Dans d’autres cas, ils ne disposent que d’indices pour trouver des informations utiles et ils peinent parfois à exprimer clairement ce sur quoi porte leur besoin. Ils sont donc tenus de dépouiller les journaux et ne peuvent pas systématiquement se limiter à la recherche par mots clés dans le cas des journaux numérisés.

    Toutefois, ces attentes et cette stratégie ne sont pas uniformes. Avec la mise en ligne, la proportion des visiteurs issus du « grand public » est accrue. Ainsi remarque-t-on l’importance de visiteurs du Progrès Illustré qui, par ailleurs, ne sont pas des habitués des bibliothèques, arrivant par hasard sur la page du Progrès Illustré. C’est dans ce cadre que se placent les consultations menées dans un cadre personnel, avec des objectifs différents. Le mode d’accès prédominant passe davantage par le butinage, la « promenade » dans les collections, même si, là aussi, il peut y avoir besoin d’accéder à une information précise.


    Influence du support et du media

    On remarque tout d’abord que les consultants de la presse ancienne en ligne ou sur papier, et plus particulièrement habitués des bibliothèques, disposent d’une stratégie habituelle appuyée sur une connaissance de la structuration des journaux : orientée principalement vers la recherche d’informations textuelles, cette stratégie consiste d’une part à lire en diagonale en prenant appui sur les rubriques, les pages, les titres et d’autre part en un dépouillement très fouillé et une lecture approfondie des articles sélectionnés. Or, dans le cadre des consultations en ligne, l’usager peut être déstabilisé parce qu’il ne peut reporter facilement ses habitudes : soit parce que les outils ne le permettent pas, soit parce que, sur une longue durée, la lecture à l’écran est jugée inconfortable. En outre, l’intérêt de la recherche par mots clés est bien sûr directement lié à la qualité de la reconnaissance optique de caractères.

    Ensuite, et s’agissant de la consultation en ligne, on remarque la place occupée par le document iconographique, que l’usager occasionnel recherche le plus souvent au hasard, en parcourant les pages, en trouvant ou non. Pourtant, une typologie du matériel graphique comme une localisation dans la structure du journal constitueraient des indices de recherche pour l’usager. Il est donc sans doute possible d’imaginer des fonctionnalités et des interfaces de recherche spécifiques.


  6. Conclusion


    L’un des biais des enquêtes présentées dans cet article est le faible nombre de répondants. Les résultats ne sont, de fait, pas généralisables. Néanmoins, il nous semble intéressant de souligner que les objectifs des usagers consultant la presse ancienne sont variés et que les stratégies mises en œuvre le sont tout autant. Il est donc tout à fait essentiel que les interfaces de consultation prennent en compte cette hétérogénéité des besoins et des pratiques.

    Cela peut se traduire par la constitution de parcours thématiques comme l’a mis en place la BM de Lyon sur son portail73. Cela permet en effet de guider les usagers « grand public » et de satisfaire leur curiosité (Clavier 2010), notamment via le repérage des événements, objectif de recherche d'un panel large d'usagers.

    La mise en contexte du corpus (Cazenave 2004) devrait également contribuer à améliorer les interfaces, de même que le développement d’outils favorisant une lecture confortable pour les spécialistes mettant en œuvre un dépouillement précis et systématique. La modélisation du rubriquage des journaux, par exemple, permettrait aux usagers habituels de retrouver un cadre connu et faciliterait leur recherche ou la lecture en diagonale.

    Enfin, la mise en place d’outils participatifs issus du web dit 2.0 (commentaires, indexation collaborative…) devrait également favoriser, d’une part, une plus grande visibilité de ce type de contenus et, d’autre part, une appropriation accrue de la part des usagers. Certaines bibliothèques l'ont déjà compris et mis en œuvre, comme le Réseau des bibliothèques publiques de Montréal qui propose sur son site internet une page dédiée aux réseaux sociaux sur lesquels il est actif74.

    La Bibliothèque du Congrès utilise également une large variété de ce type d'outils (blog, réseaux sociaux, etc.) et notamment Flickr pour ses collections patrimoniales de photographies et journaux75. En France, c'est par exemple le cas de la BnF pour le projet Gallica, dont la page Facebook rassemble plus de 7500 fans76 et le compte Twitter77 est suivi par près de 2300 abonnés. Même si ce type d’actions doit impérativement s’insérer dans une politique globale de communication des établissements (Leclercq 2011), c'est indéniablement par ce biais que les bibliothèques de demain renforceront leur rôle de médiation.


    image

    73 http://collections.bm-lyon.fr/presseXIX/, visité le 19/09/11.

    74 http://bibliomontreal.com/reseaux-sociaux/, visité le 19/09/11.

    75 http://www.flickr.com/photos/library_of_congress/collections/, visité le 19/09/11.

    76 https://www.facebook.com/GallicaBnF, visité le 19/09/11.

    77 http://twitter.com/#!/GallicaBnF, visité le 19/09/11.


  7. Remerciements


    Cette recherche a bénéficié du soutien de la Région Rhône-Alpes dans le cadre du Cluster 13 « Culture, patrimoine et création ». Elle n’aurait pu se dérouler dans de bonnes conditions sans le concours de la Bibliothèque municipale de Lyon, notamment de Pierre-Yves Landron. Nous remercions les répondants, pour le temps qu’ils nous ont consacré. Merci également aux étudiants de Master Technologie de l’information ayant pris en charge les aspects techniques du questionnaire en ligne (Khaled Belalia, Youcef Benaissa, Abderahim Boukmiche, Hassaan Cherrat et Eddine Lakehal Nour).


  8. Bibliographie


ASSADI Houssem (sous la dir.de). 2003. Usages des bibliothèques électroniques en ligne : projet Bibusages – rapport final, France télécom R&D, version 1.1, 25 juillet 2003 ; [en ligne] <http://www.bnf.fr/documents/bibusages_rapport.pdf> Consulté le 17 juin 2011

BARTLETT Joan, TOMS Elaine. 2005. How is Information Used? Applying task analysis to understanding information use. Actes de la conference ACSI/CAIS, London (Ontario).

BELOT Florence. 2004. Silences et représentations autour du public du patrimoine. Bulletin des bibliothèques de France, n° 5, p. 51-56 [en ligne]

<http://bbf.enssib.fr/consulter/bbf-2004-05-0051-009> Consulté le 17 juin 2011

BEQUET Gaëlle, CEDELLE Laure. 2000. Numérisation et patrimoine documentaire. Bulletin des bibliothèques de France, n° 4, p. 67-72 [en ligne]

<http://bbf.enssib.fr/consulter/bbf-2000-04-0067-007> Consulté le 17 juin 2011

BERMES Emmanuelle. 2007. Les moteurs de recherche. Bulletin des bibliothèques de France, n° 6, p. 5-10 [en ligne]

<http://bbf.enssib.fr/consulter/bbf-2007-06-0005-001> Consulté le 17 juin 2011

BOUBEE Nicole, 2010 Qu’est-ce que rechercher de l’information ? Presses de l’Enssib (collection Papiers).

BRYAN-KINNS Nick, BLANDFORD Ann. 2000. A survey of user studies for digital libraries, RIDL Working Paper, July 2000.

CAZENAVE Jean, DAGORRET Pantxika, MARQUESUZAA Christophe, MAURO Ga. 2004. La revitalisation numérique du patrimoine littéraire territorialisé. Colloque "Le numérique : impact sur le cycle de vie du document", organisé par l'EBSI et l'ENSSIB, Montréal, 13-15 octobre 2004. [en ligne]

<http://www.enssib.fr/bibliotheque-numerique/document-1213> Consulté le 17 juin 2011

CHAUDIRON Stéphane, IHADJADENE Madjid. 2010. De la recherche de l’information aux pratiques informationnelles. Études de communication, n°35, 2010. [En ligne] <http://edc.revues.org/index2257.html> Consulté le 16 juillet 2011.


CHEUK Wai-Yi B. 1999. The derivation of a "situational" information seeking and use process model in the workplace: employing sense-making. International Communication Association annual meeting, San Francisco, California, [En ligne], <http://communication.sbs.ohio-state.edu/sense- making/meet/1999/meet99cheuk.html> Consulté le 10 juillet 2011

CLAVIER Viviane. 2010. Indexer des parcours thématiques pour valoriser les collections de presse numérisée, CIDE, 13ème Congrès international sur le document électronique, Paris, 16-17 décembre 2010.

DELAUNAY Else. 1996. La sauvegarde des fonds de journaux : le partenariat des bibliothèques dans la reproduction des collections. Enrichissement et maintenance des fonds, Bulletin d'informations de l'ABF, n° 171, p. 22-25.

DOURY-BONNET Juliette. 2009. Numérisation patrimoniale : initiatives locales ou nationales, privées ou publiques, Bulletin des bibliothèques de France, n° 3, p. 78-78 [en ligne] <http://bbf.enssib.fr/consulter/bbf-2009-03-0078-004> Consulté le 17 juin 2011

FABRE Isabelle, LIQUETE Vincent, GARDIES Cécile. 2010. Pratiques informationnelles et construction des savoirs dans une communauté professionnelle. Revue Les enjeux de l’information et de la communication, supplément 2010B. [En ligne] <http://www.u-grenoble3.fr/les_enjeux> Consulté le 16 juillet 2011

FONDIN Hubert. 2001. La science de l’information : posture épistémologique et spécificité disciplinaire, Documentaliste, science de l’information, vol.38, n°2, 2001, p.112-122.

GARDIES Cécile, Fabre Isabelle, Couzinet Viviane, 2010. « Re-questionner les pratiques informationnelles », Études de communication [En ligne], 35 | 2010, mis en ligne le 01 décembre 2010. [en ligne]

<http://edc.revues.org/index2241.html> Consulté le 25 septembre 2011 GUYOT Brigitte. 2002. Mettre en ordre les activités d’information, nouvelle forme de rationalisation organisationnelle, Revue les enjeux de l’information et de la communication, laboratoire Gresec, Université Stendhal, Grenoble. [En ligne] <http://w3.u-grenoble3.fr/les_enjeux/2002/Guyot/index.php> Consulté le 10 juillet 2011

IHADJADENE Madjid. 2009. La dimension humaine de la recherche d’information : pour une épistémologie des pratiques informationnelles. Habilitation à diriger des recherches en Sciences de l’information et de la communication. Université Paris Ouest Nanterre La Défense, 284 p.

JARVELIN Kalervo, INGWERSEN Peter. 2004. Information seeking research needs extension towards tasks and technology. Information Research, 101 paper

212. [en ligne] <http://InformationR.net/ir/10-1/paper212.html> Consulté le 17 juin 2011

LECLERCQ Natacha. 2011. Valorisation du patrimoine numérisé des bibliothèques françaises sur les réseaux sociaux. Mémoire d'étude DCB, enssib,

86 p. [en ligne] <http://www.enssib.fr/bibliotheque-numerique/document- 49077> Consulté le 03 octobre 2011

LESQUINS Noémie, TESNIERE Valérie. 2006. La bibliothèque numérique européenne, Bulletin des bibliothèques de France, n° 3, p. 68-80 [en ligne]

<http://bbf.enssib.fr/consulter/bbf-2006-03-0068-012 > Consulté le 17 juin 2011

LESQUINS Noémie. 2007. Europeana : rapport de bilan sur les usages et attentes des utilisateurs, Bibliothèque nationale de France, direction des Services


et des réseaux, département de la Bibliothèque numérique [en ligne]

<http://www.bnf.fr/documents/europeana_2007.pdf > Consulté le 17 juin 2011

LUPOVICI Catherine, CLOAREC Thierry, CHARENTENAY France de. 2003. Les usages de Gallica , Bulletin des bibliothèques de France, n° 4, p. 40-44 [en ligne] <http://bbf.enssib.fr/consulter/bbf-2003-04-0040-007> Consulté le 17 juin 2011

MIRANDA Silvania.V. Arapanoff Kira.M.A. 2007. Information needs and information competencies: a case study of the off-site supervision of financial institutions in Brazil . Information Research, 132 paper 344 [En ligne]

<http://InformationR.net/ir/13-2/paper344.html> Consulté le 16 juillet 2011 PAGANELLI Céline, MOUNIER Evelyne. 2003. Information retrieval in Technical documents: from the User’s Query to the Information-Unit Tagging. Proceedings of ACM Sigdoc, San Francisco, Octobre 2003.

PALERMITI Rosalba, Polity Yolla. 2002. « Dynamiques de l'institutionnalisation sociale et cognitive des sciences de l'information en France », In Les origines des sciences de l'information et de la communication en France, regards croisés, sous la direction de R. Boure éd., LILLE, Presses universitaires du Septentrion, 2002, 182p.

PAPY Fabrice (dir). 2007. Usages et pratiques dans les bibliothèques numériques. Hermès Science, 364 pages.

POISSENOT Claude. 2002. De l'objet au point de vue : les bibliothèques entre sciences de l'information et sociologie. Recherches récentes en sciences de l'information : convergences et dynamiques, Colloque MICS/LERASS, Toulouse, 2002.

STAII Adrian, BALICCO Laurence, BERTIER Marc, CLAVIER Viviane, MOUNIER Evelyne, PAGANELLI Céline. 2006. Les pratiques informationnelles des médecins dans les centres hospitaliers universitaires : au croisement de la logique scientifique et de la culture professionnelle, Revue canadienne des sciences de l'information et de bibliothéconomie, vol. 30, n°1/2, p. 69-90, mars-juin 2006.

SCHOR Ralph, PEREZ Matthieu. 2008. Lire la presse ancienne à travers le logiciel d'analyse morphologique PhPress, Semen [En ligne]

<http://semen.revues.org/8246> Consulté le 17 juin 2011

SMOLCZEWSKA-TONA Agnieszka, LALLICH-BOIDIN Geneviève. 2008.

De l’édition traditionnelle à l’édition numérique : le cas de la presse du XIXe In Traitements et pratiques documentaires : vers un changement de paradigme ? Actes de la deuxième conférence Document numérique et société, Paris : ADBS Éditions, 2008, p. 302-303.

TETU Jean-François. 2010. L’illustration de la presse au XIXème siècle, Semen, 25 | 2008, mis en ligne le 09 juin 2010 [en ligne]

<http://semen.revues.org/8227> Consulté le 11 octobre 2001

WESTEEL Isabelle. 2009. Le patrimoine passe au numérique, Bulletin des bibliothèques de France, n°1, p. 28-35 [en ligne]

<http://bbf.enssib.fr/consulter/bbf-2009-01-0028-003> Consulté le 17 juin 2011