Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

DC 5 Helsinki

De Wicri SIC


DC 5 Helsinki
DC 5 Helsinki
Début : Oct 5 1997
Fin : Oct 8 1997
Ville : Helsinki
Pays : Finlande
Évènement en série : Workshop DC


5 ème réunion du groupe de travail «Dublin Core Metadata»

Helsinki, Finlande (6 - 8 Octobre 97)

La réunion d'Helsinki

Cette réunion sur invitation était organisée par l'Online Computer Library Center, la Bibliothèque nationale de Finlande et la Coalition for Networked Information (CNI).

Elle était co-présidée par Stuart Weibel et Juha Hakala.

Compte rendu francophone

Avertissement
Ce compte rendu avait été rédigé par Jacques Ducloy pour la liste biblio-fr en 1997. Il est repris ici dans sa forme originale comme témoignage de la perception des metadonnées à cette époque.

Un résumé pour ceux qui ne savent rien, ni du Dublin Core ni des Metadata...

On désigne sous le nom de metadata «données sur les données» un ensemble de rubriques, contenues dans ou associées à un document, et donnant des informations sur son contenu. Ces informations sont plus particulièrement destinées à être traitées par les moteurs de recherche. (le cataloguage classique est une forme de metadata et on peut dire qu'une notice MARC ou Pascal est un ensemble de metadata).

Dans le monde INTERNET/WWW, Metadata a pris un sens particulier dans la mesure où les moteurs de recherche (AltaVista, Excite...) commencent à exploiter des éléments nommés META qui figurent dans les pages HTML. Remplir les rubriques META devrait donc permettre aux auteurs de voir leurs pages mieux repérées par les serveurs.

Cela dit, les premières expériences ont montré une très grande dispersion dans l'usage de ces metadata; le «Dublin Core» identifie une initiative visant à améliorer la normalisation des Metadata en proposant un mode de catalogage sur INTERNET en respectant deux objectifs : d'une part, être plus accessible aux usagers que les traditionnels formats MARC. d'autre part faciliter l'interopérabilité des applications.

Un des résultats les plus connus du Dublin Core est la définition (et la limitation à) 15 éléments pour le catalogage sur INTERNET :

  1. Title
  2. Creator (or Author)
  3. Subject (and Keywords)
  4. Description
  5. Publisher
  6. Contributors (other)
  7. Date
  8. Type (The category of the resource, such as homepage, novel, poem,...)
  9. Format (The data representation of the resource)
  10. Identifier
  11. Source
  12. Language
  13. Relation
  14. Coverage
  15. Rights (Management)

Un exemple concret sur les metadata

remarque sur l'exemple
On trouve encore peu de pages WWW avec des metadata. Ayant donné une première version de ce papier à des collègues de l'INIST, j'avais pris comme exemple la page d'accueil de leur serveur. En cherchant (très rapidement) dans les pages des organismes nancéiens ou nationaux, je n'en ai trouvé aucun qui aurait pu servir d'exemple, c'est à dire qui contienne un embryon d'indexation. J'ai donc choisi de poursuivre cet "exercice pédagogique" à partir de ce document, qui en offrant un minimum de matière à expérimentation ou à discussion se trouve en avance par rapport à ce qui se fait en France....

Donc, en consultant la page d'accueil de l'INIST (http://www.inist.fr) vous trouverez un premier exemple de Metadata(pour les voir, activez l'option view source de votre navigateur) :

<HEAD>
<TITLE>Serveur WWW de l'INIST</TITLE>
<META NAME="GENERATOR" CONTENT="Mozilla/3.01Gold (Win95; I) [Netscape]">
<META NAME="AUTHOR" CONTENT="Pascal Siegel">
<META NAME="Author" CONTENT="Pascal Siegel">
</HEAD>

La duplication de la rubrique Author n'est pas une erreur, elle a été probablement générée par un éditeur html pour faire repérer cette information par des moteurs utilisant des conventions différentes. Cela montre bien la nécessité d'un niveau supplémentaire de normalisation, c'est le rôle du Dublin Core. Avec celui-ci, on pourrait compléter ces Metadata ainsi :

<META name="DC.title" lang="fr" content="Serveur WWW de l'INIST">
<META name="DC.title" lang="en" content="INIST home page">
<META name="DC.Creator.Corporate" content="INIST">
<META name="DC.Contributors" content="Pascal Siegel">
<META name="DC.Subjects" scheme="Pascal" lang="fr" content="Fourniture de documents,...">
<META name="DC.Subjects" scheme="Pascal"lang="en" content="Document delivery,...">

Il existe déjà des produits susceptibles de générer du Dublin Core et par exemple, celui de l'UKOLN (United Kingdom Office of Library Networks de Bath en Grande Bretagne). Si vous envoyez une URL à l'endoit indiqué dans :

vous obtiendrez une suite d'éléments. Le résultat est d'ailleurs inégal. Si vous lui soumettez la home page de l'INIST, vous obtiendrez :

<META NAME="DC.title" CONTENT="Serveur WWW de l'INIST">
<META NAME="DC.creator" CONTENT="Pascal Siegel Pascal Siegel">
<META NAME="DC.publisher" CONTENT="Institut de l'Information Scientifique et Technique - INIST">
<META NAME="DC.date" CONTENT="19971003">
<META NAME="DC.format" CONTENT="text/html">
<META NAME="DC.identifier" CONTENT="http://www.inist.fr";>

Il y a aussi une rubrique DC.subject fabriquée à partir d'un ensemble de phrases extraites du texte de la page html.

Les acteurs du Workshop DC5

La composition de ce groupe de travail est particulièrement instructive sur l'influence probable de ce WG.

Cette réunion est la cinquième d'une série qui a débuté à Dublin (Ohio) en Juin 95, les sponsors et organisateurs sont organisés autour d'un noyau dur :

avec le concours de l'organisateur local : la National Library of Finland.

La répartition des 70 participants du dernier WG est elle aussi instructive:

  • 22 participants des pays nordiques (bibliothèques essentiellement)
  • 15 venant d'organismes américains à caractère administratif (ou collectif comme le CNI) ou à caractère industriel (OCLC, Netscape, Reuters, Ford)
  • 13 venant des bibliothèques (dont la Library of Congress, représentée par Rébecca Gunter particulièrement active dans les évolutions de l'USMARC) ou de grands projets de bibliothèques électroniques (par exemple Carl Lagoze du NCSTRL et de l'Université de Cornell).
  • 8 participants du Royaume-Uni
  • 4 autres du Commonwealth (Australie 3, Nouvelle-Zélande 1, Canada 1)
  • 3 de l'Asie (2 Japonais et 1 Thaïlandais)
  • Pour le reste de l'Europe :
    • 1 représentant de la DG XIII,
    • 1 du Center for Earth Observation, 1 Allemand, 1 Néerlandais

Nous étions deux français (Anne-Marie Vercoustre de l'INRIA Rocquencourt et moi-même).

Par rapport au précédent meeting à Canberra, on constate une amélioration de la représentation européenne sur deux plans : les pays nordiques et le Royaume-Uni. Concernant les pays du Nord, leur participation était due non seulement au lieu de la conférence mais également à l'existence de grands projets fédératifs basés sur le Dublin Core.

Mon impression générale 
les nouvelles normes ou pratiques de l'information sur l'INTERNET sont élaborée par les Etats-unis qui arrivent à faire remarquablement coopérer toutes leurs composantes (bibliothèques, projets de recherche, administrations et secteur public). Le monde anglophone s'intègre assez fortement à ce mouvement. Les Pays nordiques sont en train de réussir des fortes coopérations autour du Dublin Core. Les autres pays européens sont spectateurs malgré quelques projets intéressants (en Allemagne et aux Pays-Bas) et le reste du monde totalement absent.
Une remarque supplémentaire concernant la tendance anglo-américaine
parmi les pays «spectateurs», quelques

uns, j'en ai repéré au moins 2, ont comme intervenant un chercheur d'origine américaine (par exemple notre collègue Thomas Baker, américain de pure souche, qui était le représentant du GMD en Allemagne il y a un an et qui maintenant représente la Thaïlande)

Le Dublin Core commence a être utilisé et ses recommandations commencent à être suivies d'effet

C'est la différence majeure que j'ai pu constater entre la réunion de Canberra et celle d'Helsinki. Il y a six mois, il s'agissait plutôt de réflexions normatives purement prospectives. A Helsinki, nous avons pu travailler à partir d'expériences réelles, souvent en vraie grandeur.

Vous pourrez consulter une liste de 30 projets sur :

Parmi les projets présentés, signalons un travail remarquable fait par AHDS (Arts and Humanities Data Service) et UKOLN (UK Office for Library and Information Networking) en histoire de l'art. Pour plus d'information, consulter :

http://ahds.ac.uk/public/metadata/discovery.html

Les conclusions apportées par les expérimentateurs sont plutôt encourageantes, notamment au niveau de l'interopérabilité.

Un autre résultat encourageant est la prise en compte des conclusions du dernier meeting par les acteurs de WWW. Ceux qui ont étudié le Dublin Core ont été souvent choqué à juste titre par la syntaxe assez catastrophique des qualifieurs (schema, langue et «sous-élément») qui permettent d'affiner le sens d'un élément du Dublin Core. Nous avions émis à ce sujet des recommandations à destination du W3C (World Wide Web Consortium) qui sont effectivement prises en compte dans la norme html.4.

Notons au passage la rapidité du mouvement : 2 an après les premières réflexions sur le sujet, 30 implémentations sont déjà opérationnelles (la plupart ont été réalisées pendant les 6 derniers mois). Moins de 6 mois ont été nécessaires pour qu'une recommandation du DC working Group soit effectivement traitée par les acteurs du W3C. Il est visible que le passage à une technologie de type SGML a aidé certains acteurs à devenir très «réactifs».

Evolutions du Dublin Core

Il faut distinguer deux types d'évolution, l'une concerne l'adaptation à l'évolution du monde WWW, l'autre est le résultat des premières expérimentations.

Concernant l'évolution du monde WWW, c'est autour des travaux du World Wide Web Consortium (qui est, rappelons le, hébergé par l'INRIA pour l'Europe, le MIT pour les USA et Keio University pour le Japon, avec un soutien financier de la DARPA et de la Commission Européenne - voir http://www.w3.org/). Les mots clés (désolé, encore deux nouveaux acronymes depuis 6 mois!) sont XML et RDF.

XML est, en première approximation, une simplification de la norme SGML qui tient compte de maintenant 10 ans d'expérience sur le sujet. Par exemple l'usage d'une DTD n'y est pas toujours obligatoire dans la mesure où les documents sont en balisage maximal. Un certain nombre de produits comme par exemple Dynatext fonctionnent déjà sur cette base et Microsoft a produit une bibliothèque XML en Java. Par rapport à la HTML, l'usage de XML permettra de mettre sur WWW des structures plus com- plexes avec une syntaxe souvent simplifiée, ce sera notamment le cas pour les futurs raffinements du Dublin Core.

RDF (Resource Description Framework) est un cadre général pour produire des metadata. Il devrait par exemple permettre d'introduire dans un même document des metadata propres à plusieurs communautés. Par exemple, une page Web pourrait contenir un ensemble d'éléments provenant du Dublin Core - pour un usage général, par «n'importe quel moteur de recherche courant» et contenir des ensembles plus spécialisés destinés à d'autres applications plus sophistiquées. Parmi les partenaires actifs dans RDF, citons Grif, IBM, Microsoft, OCLC, Netscape, SoftQuad) Pour en savoir plus, consulter :

L'émergence récente de ces deux normes donné beaucoup d'oxygène pour l'évolution du Dublin Core qui se concen- tre sur la description des documents en cherchant un équilibre entre deux tendances : les minimalistes et les structuralistes. En gros, les minimalistes considèrent que les formats complexes style USMARC ou TEI jouent bien leur rôle et que plus le Dublin Core reste simple, meilleur il sera. Les structuralistes, surtout lorsqu'ils pensent XML et RDF, commencent à trouver que dans bien des cas, le Dublin Core pourrait servir à décrire plus simplement des objets plus complexes que ceux que peuvent décrire les formats MARC.

Un important travail a donc consisté à proposer un nombre très limité d'extensions de la normalisation. Il a été notamment question d'autoriser l'usage de sous-éléments pour préciser le rôle d'un élément. Pour prendre un exemple, dans l'USMARC un titre donne lieu à un nombre impressionnant de variantes. Dans le Dublin Core, après un grand nombre de discussions souvent vives, en rappelant qu'il s'agissait de produire un standard destiné à l'interrogation «courante», seuls deux types de titre ont été introduits : un titre non qualifié repère le titre principal, toutes les autres variantes sont regroupées sous le sous-élément «alternative». Par exemple, pour ce docu- ment, on pourrait avoir les metadata suivantes:

<META name="DC.Title" lang="fr" content="A propos de la 5 ème réunion du groupe de travail Dublin Core Metadata">
<META name="DC.Title.Alternative" lang="en" content="Some feelings about the 5 th Dublin Core Metadata conference">

Comme on a parlé des autres mouvements normatifs, citons également la présence de certains acteurs du monde Z39.50 qui considèrent le Dublin Core comme un profil particulièrement compétitif pour des services très généraux basés sur Z39.50.

En guise de conclusion

Tout d'abord, je vous recommande vivement de suivre l'évolution du serveur

où seront bientôt donné des pointeurs sur les résultats des travaux de ce groupe de travail.

Ensuite, l'exemple cité plus haut (avec les résultats fournis par les générateurs actuels) devrait rassurer ceux qui s'inquiètent de l'évolution de leur métier. Il reste encore beaucoup à faire pour doter un document WWW des "bonnes metadata" c'est à dire des bons contenus sémantiques et non des rubriques à caractère plus administratif qui permettront de les faire repérer sur le Web.

Voir aussi

Notes et références

  1. Ce service est toujours actif en 2008
  2. Cette url ne fonctionne malheureusement plus