Identifier les identifiants : Différence entre versions

De Wicri SIC
imported>Jacques Ducloy
imported>Jacques Ducloy
(Bibliographie)
Ligne 239 : Ligne 239 :
  
 
*<span id="bib.1">[1]</span> Coates, Tom. (juin 2004). Developing a URL structure for broadcast radio sites. Plasticbag.org. Consulté le 2 avril 2007 à<br/>< http://www.plasticbag.org/archives/2004/06 /developing_a_url_structure_for_broadcast_radio_sites/ >
 
*<span id="bib.1">[1]</span> Coates, Tom. (juin 2004). Developing a URL structure for broadcast radio sites. Plasticbag.org. Consulté le 2 avril 2007 à<br/>< http://www.plasticbag.org/archives/2004/06 /developing_a_url_structure_for_broadcast_radio_sites/ >
*<span id="bib.2">[2]</span> Coyle, Karen. (juillet 2006). Identifiers: Unique, persistent, global. The Journal of Academic Librarianship, 32(4), 428-431.
+
*<span id="bib.2">[2]</span> [[a pour auteur cité::Karen Coyle|Coyle, Karen]]. (juillet 2006). Identifiers: Unique, persistent, global. The Journal of Academic Librarianship, 32(4), 428-431.
 
*<span id="bib.3">[3]</span> Fielding, Roy. (octobre 2002). Re: now://example.org/car [courriel]. Consulté le 2 avril 2007 à <br/>< http://lists.w3.org/Archives/Public/www-tag/2002Oct/0167 >
 
*<span id="bib.3">[3]</span> Fielding, Roy. (octobre 2002). Re: now://example.org/car [courriel]. Consulté le 2 avril 2007 à <br/>< http://lists.w3.org/Archives/Public/www-tag/2002Oct/0167 >
 
*<span id="bib.4">[4]</span> Hillman, Diane. (novembre 2005). Using Dublin Core. Consulté le 2 avril 2007 à <br/< http://dublincore.org/documents/usageguide/ >
 
*<span id="bib.4">[4]</span> Hillman, Diane. (novembre 2005). Using Dublin Core. Consulté le 2 avril 2007 à <br/< http://dublincore.org/documents/usageguide/ >
Ligne 259 : Ligne 259 :
 
*<span id="bib.20">[20]</span> Weibel, Stuart. (février 2007). Failure points and manifestations. Weibel Lines, 20 February 2007. Consulté le 29 mars 2007 à <br/>< http://weibellines.typepad.com/weibelines/2007/02/failure_points_.html >
 
*<span id="bib.20">[20]</span> Weibel, Stuart. (février 2007). Failure points and manifestations. Weibel Lines, 20 February 2007. Consulté le 29 mars 2007 à <br/>< http://weibellines.typepad.com/weibelines/2007/02/failure_points_.html >
 
*<span id="bib.20">[21] Xinhuanet. (juin 2004). Chinese names: A unique and beautiful name.<br/>Consulté le 2 avril 2007 à<br/>< http://www.lechinois.com/chinesename/info/chinesenameunique.html. >
 
*<span id="bib.20">[21] Xinhuanet. (juin 2004). Chinese names: A unique and beautiful name.<br/>Consulté le 2 avril 2007 à<br/>< http://www.lechinois.com/chinesename/info/chinesenameunique.html. >
 +
 
==Notes==
 
==Notes==
 
<references/>
 
<references/>

Version du 20 octobre 2010 à 18:42

Ametist-logo-lettres-small.jpg
Ametist 2 Logo oiseau.jpg
Revue Ametist
Numéro 2 (2008)
Numéro spécial archives ouvertes
Attention : Article en cours de finition

Identifier les identifiants

DC 2007 Singapour
Cet article est la traduction d’une communication présentée au DCMI Conference Proceedings à Singapour en 2007. Il est paru avec le titre original :
Identifying the Identifiers
L'original est diponible sur le site du DCMI
Traduction
réalisée par Catherine Gunet (INIST)
Compléments
* Annexe A. Portée de la description
Douglas Campbell.i
douglas.campbell@natlib.govt.nz
Mots-clés 
identifiant, symboles, description, cadre, modèle, persistant, unique, activable, intelligent, extensible, contexte
Résumé 
Une partie essentielle du travail effectué dans un environnement numérique consiste à identifier les choses et à leur attribuer des identifiants. Il faut identifier des ressources, des concepts, des agents, des relations, des correspondances, des propriétés, des espaces de nommage, des schémas, des profiles, etc. Cependant, l’attribution d’identifiants à ces choses peut se révéler déconcertante à cause de la gamme et des subtilités de sens et pourtant nous sommes capables d’identifier et d’étiqueter les choses dans notre vie de tous les jours qui est tout aussi complexe. Il serait peut-être utile de déconstruire ces processus d’identification que nous accomplissons de manière intuitive afin de reconstruire une méthode rationnelle de conception de nos identifiants.
Le présent article étudie la manière dont nous identifions les choses en comparant la similitude de leurs caractéristiques, la manière dont nous associons des symboles aux choses afin de simplifier leur identification et arrive à la conclusion que six facteurs entrent dans la composition d’un identifiant : une chose, un symbole, une association, un contexte, un agent et un souvenir. Il étudie ensuite de manière plus détaillée les qualités des identifiants dont la portée, l’unicité/la spécificité, la granularité, l’intelligence, l’« activabilité », la pérennité, l’extensibilité et le contexte. Finalement, il propose une liste simple de points utiles à la conception des identifiants.

Introduction

En tant que bibliothèque et archive nationales, la Bibliothèque nationale de Nouvelle Zélande doit identifier et gérer de nombreux types d’objets et de concepts différents. Nous avons conçu un identifiant pour gérer en interne les objets de notre collection numérique (Kebbel & Campbell, 2004), mais nous avons des difficultés à définir les étapes suivantes.

Cependant, se débattre avec les identifiants est un problème courant (NISO, 2006, mars et juillet) ; le fait que nous ne nous rendons pas compte que nous connaissons intuitivement certains aspects des identifiants et que nous l’ignorons pourrait en être la cause. Il serait peut-être utile de déconstruire la manière dont nous identifions dans notre vie de tous les jours et ainsi parvenir à un modèle pour cadrer nos conceptions des identifiants et des systèmes d’identifiants.

Nous nous servons tous, intuitivement, d’identifiants quand nous communiquons et interagissons dans notre vie de tous les jours, comme par exemple « Passez le sel s’il vous plait » ou « j’ai un billet pour la place D3 ». Par contre les systèmes informatiques ne sont pas aussi intuitifs que les êtres humains et il faut donc que nous soyons plus actifs et précis dans la manière dont nous attribuons et utilisons les identifiants.

Identifier pour communiquer la similitude

Lorsque nous communiquons, nous voulons à un moment ou à un autre faire référence à des choses (à la fois concrètes et abstraites). Nous devons alors trouver un moyen de codifier la chose à laquelle nous faisons référence dans notre message pour que, lorsque le récepteur la décode, il fasse référence à la même. (Notez que dans certains cas, l’émetteur et le récepteur sont une seule et même personne comme par exemple quand nous étiquetons et identifions des choses dans nos propres pensées). Ainsi l’identification a pour but de préserver la similitude. En effet, « identifier » est dérivé des mots latins idem (le même) et facere (faire). Pour identifier une chose, il faut que nous la différenciions des autres. Pour différencier les choses, il faut que nous comparions l’identité (ou la non similitude) de leurs caractéristiques. Pour comparer les caractéristiques, nous devons tout d’abord les définir, c'est-à-dire créer une description ou « métadonnées » (ne serait-ce que dans notre esprit). Pour créer une description nous avons la possibilité :

  • d’enregistrer les caractéristiques observables (connues sous le nom de « catalogage descriptif » dans la communauté des bibliothèques) comme par exemple la taille et la localisation ;
  • d’interpréter les autres caractéristiques existantes (connues sous le nom de « catalogage subjectif » dans la communauté des bibliothèques) comme par exemple le type d’odeur ou le sujet exprimé par les concepts ;
  • d’attribuer des caractéristiques nouvelles comme par exemple le nom, le titre, le logo ou une séquence unique de caractères (c’est-à-dire une « chaine »).

Par convenance, nous pouvons utiliser tout ou partie de ces descriptions des caractéristiques comme substituts, quand nous faisons références à des choses et que nous en discutons. Alors, au lieu d’identifier les choses par similitude en comparant leurs caractéristiques multiples, nous pouvons pré-attribuer un identifiant comparé d’une ou plusieurs caractéristiques extraites de leur description (par exemple « le grand jaune au bout »). Nous pouvons alors les différencier en comparant la similitude des identifiants (sans avoir à nous approcher des choses elles-mêmes).

Toutefois, la similitude n’est pas absolue car elle dépend du contexte et donc, une chose aura des identifiants différents pour des contextes différents, ce qui veut dire qu’un identifiant n’est valable que dans certains contextes (Paskin, 2003). Par exemple, dans le contexte de « type de récipient », on peut considérer un verre à vin et une chope comme semblables (c’est-à-dire que ce sont des « verres ») alors que dans le contexte de « type de tasse » ils sont différents. Nous attribuerions alors de manière appropriée différents identifiants dans chaque contexte en nous servant des différentes caractéristiques définies dans nos descriptions. De nombreux contextes font partie de contextes plus larges (p. ex. rue, ville, pays) et donc une identification non équivoque impose de relier entre eux des identifiants multiples.

Figure 1 - Décrire les caractéristiques et les utiliser dans les identifiants

Définir « Identifiant »

(Kunze, 2003) fournit un bon point de départ avec sa définition dépouillée d’identifiant qui se centre sur l’action plutôt que sur la fonction : « Une association entre une chaine et une chose ». Toutefois, elle omet la motivation pour l’association et cette définition pourrait être augmentée et généralisée comme suit :

  • identifiant : une association spécifiée entre un symbole et une chose ; que le symbole puisse être utilisé pour faire référence sans équivoque à une chose dans un contexte donné.

Ici une chose est toute entité, idée, action, ressource, objet, etc. et le symbole est toute marque, signe, stimulus sensoriel, chaine de caractère, etc., (la nature et le contexte non équivoques de l’association seront étudiées au chapitre suivant).

Mais un identifiant ne se résume-t-il qu’à cela ? Comme l’identification fait partie de la communication, il y a peut-être des modèles de communication théoriques qui permettent de mettre en évidence d’autres aspects utiles des identifiants. La sémiotique pourrait être un domaine d’étude approprié car elle est concernée par la manière dont nous communiquons à l’aide de signes et de symboles. Elle montre que lorsque nous communiquons, nous utilisons des symboles n’ayant pas de sens intrinsèque et pourtant ils arrivent à véhiculer un sens et à représenter des choses car nous fournissons le sens qui les entoure. On appelle souvent cela le « triangle sémiotique » (Pierce, 1931-1938 ; Ogden & Richards, 1923 ; Saussure, 1974). Les identifiants ont un rôle de connexion semblable avec les symboles et donc pourraient raisonnablement se superposer au triangle sémiotique (voir aussi la figure 2) :

  • symbole (ou representamen ou véhicule du signe ou signifiant) – le symbole identifiant ;
  • concept (ou interprétant ou sens ou signifié) – l’association et le contexte conceptualisés par le locuteur ;
  • objet (ou référent) – la chose identifiée.

Nous pouvons voir que c’est la pensée qui nait dans l’esprit de quelqu’un qui crée la relation (implicite) entre le Symbole et l’Objet. Si cette pensée est perdue, il en va de même de la relation. Ce que nous pouvons retenir de cet exercice est qu’un identifiant ne continuera d’exister tant que quelqu’un se souvient de la déclaration de l’association. La pérennité des identifiants n’est pas seulement le souvenir de l’identifiant lui-même mais aussi celui de ce qui lui est associé.

Nous pouvons aussi en conclure que les identifiants sont une manifestation de l’acte d’identifier. Ils sont séparés des descriptions ; en effet, alors que les identifiants sont souvent descriptifs, leur principal objectif est de différencier et non de décrire. L’action d’identification confère un rôle supérieur aux caractéristiques descriptives existantes sélectionnées. (Pierce, 1931-1958) a déclaré : « rien n’est un signe à moins d’être interprété comme un signe » donc si une quelconque caractéristique peut être utilisée pour identifier une chose, ce n’est qu’une fois qu’elle a été conceptualisée ou énoncée (l’association) que la caractéristique devient un identifiant.

Ainsi, nous pouvons décomposer les identifiants en six aspects :

  • une Chose ;
  • un Symbole (construit à partir des caractéristiques définies dans une description de la chose) ;
  • une Association – entre le symbole et la chose ;
  • un Contexte – à l’intérieur duquel l’association se manifeste ;
  • un Agent – qui énonce l’association et le contexte ;
  • un Souvenir (mémoire ou enregistrement) – de l’association et du contexte et idéalement de l’agent (souvent dans un enregistrement conservé par l’agent ou par un tiers.
Figure 2 - Aspects de l’identifiant dans le triangle sémiotique

Les actions et les mécanismes que nous utilisons pour étayer les identifiants, et non pas une partie des identifiants eux-mêmes, ont aussi un impact sur leur conception ; il est donc utile de les prendre en considération dans les discussions suivantes :

  • système d’identifiant : politiques, processus et/ou mécanisme pour attribuer, gérer et utiliser les identifiants ;
  • système d’identifiant peut être tout simplement « une feuille de papier et un crayon » ou bien une convention que nous utilisons pour nommer les choses.

Qualités des identifiants

Cette partie étudie plus en détails les qualités des identifiants eux-mêmes afin d’orienter la conception des identifiants. Chacune d’entre elles se limitera à un résumé et à quelques points intéressants discutés dans le cadre des modèles décrits ci-dessus. Les exemples sont en grande partie dérivés de l’environnement de la gestion des ressources d’information mais les discussions peuvent aussi s’appliquer à un niveau générique (de l’identification des choses).

Un certain nombre de questions sont soulevées la portée, l’unicité et la granularité ; dans la pratique, il est préférable de les considérer dans leur ensemble et non de manière isolée.

Portée

Il est important d’être clair sur ce qui est décrit, pour que tout identifiant puisant dans les caractéristiques de cette description identifie la chose recherchée.

  • Il n’est pas inhabituel d’éprouver un moment d’indécision lors de la création de descriptions de choses – « qu’est-on au juste en train de décrire ? » Ce qui ressemble à une seule chose peut être décrit de nombreux points de vue différents ayant des différences subtiles entre eux. Reconnaître ces différences n’est pas toujours facile. Il se peut qu’il soit préférable de considérer chaque point de vue comme une chose séparée. Par exemple, quand on prépare la description d’un article de journal, la portée peut en être soit l’article imprimé, soit l’idée derrière l’article, soit le journal sous sa forme matérielle (en tant qu’entité complète), une page numérisée, le document PDF contenant l’article numérisé, la/les page(s) web archivée(s) pour la version en ligne, la notice de l’article dans une base de données bibliographique, l’article syndiqué dans un autre journal ou un billet du journaliste dans un blog, etc., (voir Annexe A pour d’autres exemples).
  • Le principe biunivoque de la Dublin Core Metadata Initiative (DCMI) (Hillman, 2005) s’applique essentiellement ici, c’est-à-dire que chaque fois que vous devez décrire, faire une description séparée. Il faut noter que pour faciliter les choses certains formats descriptifs comme le MARC, concatènent des descriptions à niveaux multiples en une seule description, c'est-à-dire que les concepts thématiques, le format matériel et les URI http (les URL) de multiples versions en ligne sont combinés dans une notice. D’autres formats, comme EAD[1] et RDF[2] , les gardent séparées. Ces deux types de format sont utiles dans des cas différents. C’est une question de sensibilisation ; il faut prendre en considération la source et le niveau de portée de chaque élément de la description. La mise en œuvre de descriptions fondées sur le Dublin Core (DC) n’a pas toujours suivi le principe biunivoque mais la DCMI s’oriente vers plus de clarté pour la mise en œuvre dans le modèle abstrait (DCMI Abstract Model) qu’elle vient de développer (Powell, 2005).

La communauté des bibliothèques a mis en place un cadre pour prendre en considération les différences de portée, les spécifications fonctionnelles des notices bibliographiques (Functional Requirements for Bibliographic Records - FRBR) (IFLA, 1997). Ce cadre divise une ressource, c’est-à-dire un document, en quatre entités :

  • l’œuvre – la création intellectuelle (par exemple, une histoire inédite) ;
  • l’expression – acte d’exprimer l’idée sous une forme (par exemple, l’écriture, le tournage) ;
  • la manifestation – le résultat d’une expression (par exemple, un livre) ;
  • l’item – une instance matérielle particulière de la manifestation (par exemple, l’exemplaire que vous avez dans la main).

Le FRBR pourrait servir de base de cadres dans d’autres domaines.

Une fois la portée de la description claire, nous pouvons nous sentir en confiance pour attribuer des identifiants puisque le corps de l’identifiant, comme par exemple la chaîne, est dérivé des caractéristiques dans notre description. Donc, afin de s’assurer que l’identifiant corresponde à ce que nous identifions, le processus devrait être le suivant : identifier la portée de la chose décrite, la décrire (y compris l’attribution des caractéristiques comme par exemple les chaînes d’identifiants) et puis choisir un ou plusieurs identifiants basés sur cette description.

Unicité

Notre objectif quand nous identifions les choses est de pouvoir y référer sans ambigüité (c'est-à-dire les différencier) dans nos communications mais cela n’est pas toujours possible.

Un seul identifiant peut représenter de multiples choses (par exemple, la chaîne d’identifiant « John » peut servir à représenter quiconque dans le monde s’appelle John, Jonathon [sic], etc). Toute chose particulière, partageant un identifiant avec d’autres choses dans un contexte, ne peut pas être différenciée seulement par cet identifiant (par exemple, nous ne pouvons pas dire de quelle personne nous parlons quand nous disons « John » dans une pièce pleine de John ou de quel livre nous parlons quand nous disons « le livre sur les poissons » dans une bibliothèque).

Parfois, l’ensemble de choses représentées par le même identifiant à l’intérieur d’un contexte ne contient qu’un élément ; nous pouvons donc croire à tort qu’il y a une relation biunivoque entre l’identifiant et cette chose (par exemple, il n’y a qu’un seul « John » dans cette pièce, donc quand je dis « John », je ne veux désigner que cette personne spécifique et cela peut être considéré comme valide). Mais si la taille de l’ensemble augmente (p.ex. un autre John entre dans la pièce) on a l’impression qu’il s’est transformé en quelque chose de différent (par exemple « John » représente maintenant un groupe de personnes et plus seulement une seule personne), sauf que c’est en réalité son état naturel. On peut faire en sorte que les associations ne soient pas équivoques en limitant ces ensembles à un seul élément ce qui a pour résultat de rendre (correctement) valide la relation biunivoque. Pour ce faire, nous ajoutons la contrainte que chaque chose dans un contexte doit avoir un « identifiant unique » :

  • Une chose n’a qu’un seul identifiant ;
  • Un identifiant ne se rapporte qu’à une seule chose (Coyle, 2006).

Alors, une fois qu’un identifiant est attribué, il sera toujours associé à la même chose puisqu’aucune autre chose n’aura le droit d’avoir le même identifiant. Afin de rendre ces identifiants de groupe multi-choses uniques dans un certain contexte, des identifiants séparés sont nécessaires. On peut le faire soit en élargissant l’identifiant de groupe afin qu’il devienne unique dans le contexte existant (par exemple, en ajoutant une date de naissance au nom), soit en créant un nouvel identifiant dans un nouveau contexte (par exemple, en ajoutant un nombre unique à chaque personne).

La deuxième option, l’attribution d’un nouvel identifiant, rend la découverte plus longue. Une fois qu’un groupe a été découvert au moyen d’un système d’identifiant, il faut un supplément de connaissance/interaction pour identifier les membres spécifiques du groupe afin de déterminer quel nouveau système d’identifiant utiliser pour ensuite l’interroger. Prenons l’exemple d’un centre d’appel : il peut savoir qu’il y a plusieurs personnes au même numéro de téléphone ; il commence par identifier les appels entrants par l’identification de l’appelant (le numéro de téléphone), puis il demande le nom de la personne qui appelle. Toutefois, ces étapes supplémentaires ne seraient pas un tel problème si on les avait anticipées et les avaient incluses dans le système d’identifiant. Par exemple, quand on demande une page web via un URI http (autrement dit l’URL), il est courant que votre navigateur web réalise une étape de « négociation de contenu » avec le serveur pour déterminer le type de représentation à fournir en retour (par exemple, HTML, PDF, anglais, français).

Dans le monde réel, on utilise souvent la localisation comme identifiant afin de garantir l’unicité - il ne peut y avoir qu’une seule chose dans une position donnée (ou chaque être ne se présente généralement qu’une fois) dans l’ensemble. Cette idée pratique est reproduite dans une certaine mesure dans les systèmes informatiques (par exemple, le dossier/nom de fichier du système de fichier ou le numéro de notice des bases de données) bien que cette unicité puisse se limiter à ce système informatique particulier.

Au fur et à mesure que nos interactions deviennent de plus en plus globales, on souhaite souvent s’assurer que nos identifiants sont uniques globalement, ce qui veut dire que nous pouvons partager notre identifiant avec n’importe qui, tout en étant sûrs qu’ils feront encore référence à la même chose que nous. Garantir l’unicité des identifiants dans notre contexte local est faisable mais cela devient plus difficile dans un contexte global. Toutefois, cela peut nous fournir une opportunité. Si on attribue un identifiant unique global au gestionnaire de chaque contexte local, nous pouvons l’emboiter autour de l’identifiant unique au niveau local, pour obtenir un identifiant unique au niveau global comme le montre le tableau 1.

Chose Identifiant de l’autorité de nommage Identifiant local de l’autorité
Numéro de téléphone Préfixe pays (+ 64) Indicatif régional et numéro de téléphone
URI http Nom de domaine du serveur (exemple.org) Chemin sur le serveur
ISBN Pays (premiers chiffres 1 - 5) Editeur et chiffres du document
TABLEAU 1. Emboiter les identifiants locaux pour les rendre uniques au niveau global

Granularité

Nous avons vu qu’un identifiant peut représenter un groupe de choses. Le gros problème en ce qui concerne la portée et l’unicité est de savoir jusqu’à quelle profondeur faut-il aller de manière récurrente dans la division des groupes en choses identifiées séparément ?

La réponse est plus ou moins évidente : si vous avez besoin de l’identifier, alors il faut que vous l’identifiez (ou que vous en soyez capable) ! Mais malheureusement cela nous laisse toujours avec la même question !

Le choix d’une méthodologie pour définir nos besoins pourrait être utile. On pourrait commencer par définir qui va utiliser les identifiants et comment ; on pourrait aussi prendre en considération les éventuelles utilisations futures. Par exemple, en Chine, on utilise des caractères rares dans le nom des enfants, ce qui peut causer problème quand éventuellement ces enfants font une demande de permis de conduire, car ces caractères ne figurent pas dans les systèmes de bases de données (Xinhuanet, 2004). Une autre approche consiste à utiliser ou adapter les cadres ontologiques existant comme FRBR ou <indecs>[3] (Rust, 2000).

De nombreux identifiants ne sont pas destinés à être autonomes comme par exemple le numéro de la rue dans une adresse ; il vaut mieux donc les interpréter en combinaison avec des identifiants d’autres contextes. Comme nous en avons discuté ci-dessus, nous pouvons identifier la chose de manière univoque soit en raccordant les identifiants les uns aux autres (par exemple, numéro-rue-ville-pays, version-titre de la chanson-date-artiste, ou un XPath[4] à un élément XML), soit en attribuant de nouveaux identifiants directement à chaque permutation de combinaisons possibles (par exemple, un numéro unique pour chaque adresse d’un pays).

Dans la pratique, ce sont les capacités du système au sein duquel l’identifiant sera utilisé qui déterminent souvent le niveau de granularité qui sera attribué aux identifiants. Certains systèmes ne permettront pas les identifiants composés donc, il faudra créer un ensemble séparé d’identifiants et établir une correspondance avec les combinaisons.

Intelligence

Comme le corps des identifiants (par exemple, la chaîne d’identifiants) est tiré des caractéristiques décrites, il y a une tendance évidente à faire en sorte que les identifiants eux-mêmes soient descriptifs, comme par exemple « nytimes_22may2004 ». Ces identifiants « intelligents » (ou « sémantiques » ou « transparents ») peuvent alors jouer un rôle additionnel de « description ».

L’avantage des identifiants intelligents est que le souvenir est encodé directement dans l’identifiant (à condition que ce dernier soit suffisamment descriptif). Les identifiants arbitraires « passifs » (ou « opaques ») s’appuient sur des descriptions externes pour se rappeler de l’association. Les êtres humains ont plus de facilité avec les identifiants intelligents qu’avec les identifiants passifs (qui peuvent sembler n’être que des caractères aléatoires).

L’inconvénient des identifiants intelligents est qu’ils font qu’on s’attend à la manière dont ils vont se comporter, c’est-à-dire que l’association est prévisible en quelque sorte. C’est là leur faiblesse ; ils sont basés sur votre vision du monde au moment de l’attribution et on ne peut pas anticiper la manière dont cette vision du monde pourrait changer à l’avenir, ce qui pourrait avoir une incidence sur la manière dont ils se comportent. Il est utile à ce point d’étudier quelques exemples :

  • Le titre d’une chose est souvent utilisé en tant qu’identifiant mais il se peut que ce titre ne veuille rien dire (un jeu de mots par exemple) et il est prédisposé à évoluer au cours de sa vie (par exemple, le nom d’une personne peut être abrégé ou changer suite à un mariage, les noms dans les films et les séries télévisées sont souvent modifiés quand ces programmes sortent dans des pays différents).
  • La date (de production) peut sembler suffisamment stable pour qu’on puisse l’utiliser sans crainte, mais toutefois la BBC[5] a trouver que cela posait problème pour les émissions radio qui étaient rediffusées, on s’attendait à ce que l’épisode soit sur leur site web avec la date de diffusion récente plutôt que celle de la production originale et ils décidèrent éventuellement de passer à des chaînes passives pour identifier chaque épisode (Coates, 2004).
  • Il est rappellé par Kunze (Kunze, 2003) que le sens des mots peut changer dans le temps (par exemple, « gay »).
  • La finalité des identifiants peut évoluer avec le temps ; par exemple, une adresse électronique servait à l’origine à identifier une boite aux lettres électronique mais les adresses électroniques sont souvent utilisées pour se connecter à un site web, ce qui veut dire que maintenant elles sont aussi employées pour identifier une personne.

Il est courant d’utiliser la localisation comme identifiant souvent parce qu’aucun autre identifiant plus approfondi n’a été attribué, mais cela ne va pas sans risques. La pérennité peut poser problème si les choses sont réorganisées (par exemple, les livres sont changés de rayonnage, les frontières politiques d’un pays sont modifiées, les messages d’erreur « 404 not found » des pages web) ou si la localisation est définie à l’aide de méthodes spécifiques à un système qui devient obsolète ultérieurement (par exemple, une terminologie de cote propriétaire ou un fichier de page web intitulé « default.asp »).

La localisation est une caractéristique qu’il serait plus appropriée d’utiliser à un niveau de granularité plus bas comme lorsqu’on accède à une instance particulière d’une chose. La dilution est un autre risque de l’utilisation de la localisation comme identifiant. Lorsque des copies d’une chose sont disponibles à partir de plusieurs localisations, on attribue en fait plusieurs identifiants à la chose (par exemple, les bâtiments ou les URI http) au lieu d’un seul identifiant de niveau supérieur ce qui fait que chaque instance peut être identifiée comme une chose complètement différente, alors qu’en fait elles sont actuellement toutes semblables (à ce niveau supérieur) (Weibel, 2007).

Il est utile de clarifier que les URI (Universal Resource Identifier / Identifiant Universel de Ressource) commençant par « http » ne sont pas nécessairement des URL (Universal Resource Locator) reposant sur la localisation (W3C/IETF URI Planning Interest Group, 2001) ; en fait le « L » signifie localisateur (non localisation) ce que l’on pourrait considérer comme synonyme d’activable (voir chapitre suivant). Les anciennes URL étaient purement basées sur la localisation alors que maintenant bon nombre d’entre elles sont attribuées plus soigneusement ; en fait, il se trouve que ce sont simplement des identifiants commençant par « http: » (Fielding, 2002). Donc, le risque que leur localisation change ne serait pas valable. Par contre, les risques en ce qui concerne l’intelligence que nous avons discuté plus haut resteraient valables. En effet, le W3C met en garde contre le recours éventuel aux métadonnées incorporées dans les URI (W3C Technical Architecture Group, 2007).

« Activabilité »

Les identifiants sont un moyen de faire référence à des choses et d’en discuter à un niveau abstrait. A un moment ou à un autre, il est probable qu’on veuille accéder/récupérer/connaître la chose à laquelle l’identifiant fait référence. Ceci implique le rappel du souvenir de l’association entre l’identifiant et l’objet.

On peut considérer un identifiant comme « vivant » s’il y a un souvenir de ce à quoi il est associé, c'est-à-dire il est possible d’accéder d’une façon ou d’une autre à la chose ou à sa description, il faudra par exemple interroger manuellement des documents papier, mais c’est possible.

Un identifiant est « activable » (ou « résolvable » ou « dé-référençable ») s’il peut être utilisé dans un mécanisme automatisé pour accéder à l’objet identifié, ou une représentation de ce dernier, comme par exemple une clé de voiture ou un URI http (c'est-à-dire une URL).

L’« activabilité » a aussi son propre contexte car les mécanismes multiples peuvent être disponibles, bien qu’ils puissent ne pas être consistants (par exemple, l’URI d’un terme de vocabulaire contrôlé peut renvoyer à la description du terme alors que l’URI d’un tag de Flickr renvoie au contenu auquel il est associé) et qu’ils évoluent dans le temps (par exemple, actuellement, les ISBN[6] ne sont pas activables dans les navigateurs web par défaut mais il est concevable qu’ils le deviennent à l’avenir).

Certains identifiants « activables » utilisent la localisation comme identifiant (par exemple, la cote) ; c’est ce qui les rend facilement « activables » (la localisation est déjà connue). Mais, cela en fait aussi des identifiants intelligents ce qui entraine les risques que nous avons discutés au chapitre précédent.

Pérennité

Un identifiant n’est utile que si quelqu’un en a réellement besoin. Il n’est utilisable que si quelqu’un se souvient à quelle chose il est associé.

Les questions sont donc les suivantes : combien de temps un identifiant doit-il vivre et comment pouvons-nous le maintenir en vie aussi longtemps ? Le paquet d’un réseau (et son identifiant) n’a besoin de rester en vie que quelques secondes (le temps qu’il lui faut pour atteindre sa destination), une page web peut ne rester d’actualité que quelques jours ou quelques mois, alors que des établissements qui collectent, comme les bibliothèques et les archives, n’ont pas de limite quant au temps qu’ils leur faut pour conserver et identifier les choses (Coyle, 2006).

La technologie peut aider à établir la pérennité mais en fin de compte cette dernière relève de l’engagement des personnes et des organismes (Shafer et al., 1996). Le problème est moins de déterminer la durée de pérennité nécessaire que de trouver quelqu’un qui prenne le temps de considérer la pérennité des identifiants qu’il crée et de faire en sorte que cette pérennité se produise.

Assurer la pérennité est avant tout une question de mise en place des politiques sur la manière de gérer les changements dans l’environnement comme c’est le cas quand :

  • un identifiant est retiré de la circulation (y compris en s’assurant qu’il n’est pas utilisé pour identifier une autre chose) ;
  • la chose elle-même change, par exemple, quand un journal change de nom ;
  • le système d’identifiant utilisé devient obsolète, par exemple, le protocole Internet http est périmé ;
  • le détenteur de l’identifiant change.

Ces politiques peuvent inclure le degré de « mutabilité », c'est-à-dire l’acceptabilité d’associer (l’identifiant) des choses différentes dans le temps (dans l’intérêt de la continuité). Par exemple, quand un journal change de nom, nous pouvons préférer que l’identifiant existant soit associé au nouveau nom ou bien nous pouvons préférer qu’un nouvel identifiant soit créé, laissant l’ancien identifiant associé uniquement au nom précédent (avec de préférence une note indiquant le nouvel identifiant).

Nous avons vu que c’est l’aspect association de l’identifiant dont il faut se souvenir. Ceci demande du travail et des ressources et il nous faut donc rechercher les moyens de minimiser le travail nécessaire pour que cela puisse se produire. Par exemple, suivre des standards (l’union fait la force), réintégrer l’identifiant dans la chose (pour éviter de le perdre) et utiliser l’identifiant (il est difficile de justifier quelque chose qui n’est pas utilisée).

Nous avons précédemment (Kebbell & Campbell, 2004) proposé deux niveaux de granularité d’identifiants pérennes pour nos collections d’objets numériques : les identifiants pérennes (PID – Persistant IDentifier) et les localisateurs pérennes (PL – Persistant Locator). L’objectif était de différencier entre les collections d’objets que nous identifions et les localisateurs de leurs représentations actuelles (qui changeront au cours des ans en fonction de l’évolution des formats de fichiers). Nous ferons en sorte que ces identifiants localisateurs (PL) soient pérennes pour la durée de vie naturelle de la représentation mais pas plus (il serait peut-être préférable de les renommer localisateurs semi-pérennes). Il est intéressant de noter que le terme « permalien » (permalink) de la communauté des bloggeurs pourrait concrétiser ce concept de localisateur pérenne car son objectif est plus de faciliter les liens que de les identifier. Lors que ces permaliens sont plus permanents que bon nombre d’URL http classiques, ils peuvent être basés sur la localisation et donc ils peuvent se « rompre » comme par exemple quand le bloggeur transfert son blog chez un nouveau prestataire de service.

« Extensibilité »

La pérennité des identifiants concerne les identifiants individuels mais il faut aussi prendre en considération la pérennité des systèmes d’identifiants, autrement dit les politiques de conception des identifiants. Certains systèmes d’identifiants seront soumis à des demandes inattendues parce qu’ils deviennent populaires (par exemple, des adresses IP de 4 octets), ils sont utilisés de manière autre que celles pour lesquelles ils avaient été conçus (p.ex. une adresse électronique en tant qu’identifiant de connexion), ou en raison de changements d’environnement.

Nous pouvons essayer de mettre les systèmes d’identifiant à l’abri du vieillissement en les rendant extensibles, c'est-à-dire en leur intégrant la capacité de s’adapter. Ceci pourrait se faire en gardant la forme de l’identifiant aussi générique que possible, en prévoyant des « crochets » permettant d’ajouter des composants définis par les communautés, en prenant en compte l’extensibilité, en se conformant aux standards internationaux et en restant indépendants des applications.

Contexte

Les identifiants perdent une partie de leur valeur, voire toute leur valeur, si le contexte auquel ils sont destinés n’est pas connu. Il faut que le souvenir comprenne à la fois l’association et le contexte, donc les identifiants voyageront de préférence avec les détails de leur contexte comme bagage. Ces détails peuvent se situer parallèlement à l’identifiant (par exemple, « la revue à l’ISSN 1234-5678 ») ou bien en combinaison avec ce dernier (par exemple, « urn:issn:1234-5678 »). Pourtant, il est probable que des contextes encore plus larges ne soient pas déclarés : par exemple, pour comprendre « urn:issn:1234-5678 », il faut que vous compreniez qu’il s’agit d’un URI. Pour traiter un contexte, prérequis sont nécessaires.

Il faut être conscient du fait que le contexte est souvent omis quand on communique des identifiants car on s’attend (souvent à tort) à ce que le récepteur soit capable d’en déduire le contexte.

Nous avons vu qu’une chose aura probablement de nombreux identifiants dans des contextes multiples ; vous-même par exemple, en tant que personne, êtes probablement identifié de manière différente par chaque organisme avec lequel vous avez des interactions (par exemple, par votre numéro de téléphone, votre numéro de carte bancaire, etc.).

Il est extrêmement courant qu’une chose ait des identifiants multiples et cela ne devrait pas être considéré comme indésirable car l’identité est différente pour des communautés différentes. Toutefois, on pourrait considérer comme indésirable que des contextes semblables existent séparément. Cela conduit à des identifiants séparés ayant virtuellement le même sens et donc des traductions/correspondances sont nécessaires entre les identifiants autrement les personnes vont penser qu’elles discutent de choses différentes quand en fait elles discutent des mêmes. Dans de tels cas, la communication serait facilitée si les différentes communautés se mettaient d’accord pour combiner leurs identifiants et leurs contextes.

Cadre pour concevoir les identifiants

Malheureusement, la discussion précédente soulève probablement plus de problèmes qu’elle n’en résout. La liste suivante essaie de regrouper les différentes qualités des identifiants à considérer :

  • Le public – prendre en considération la manière dont les identifiants doivent être utilisés ainsi que les utilisations potentielles en aval ;
  • La portée – déterminer la/les chose(s) que l’on est en train d’identifier/décrire (portée, granularité) ;
  • Le contexte – déterminer le(s) contexte(s) dans le(s)quel(s) les choses sont identifiées ;
  • Le chevauchement – prendre en considération la relation des identifiants avec des identifiants similaires et/ou des contextes similaires ; prendre en considération la fusion ;
  • La pérennité – déterminer la durée de vie attendue de l’identifiant et les stratégies pour conserver la relation avec la chose associée pour une durée correspondante (par exemple, niveau d’engagement, ressources et politiques).
  • Concevoir le système d’identifiants :
  • Conception de la structure d’identifiants – unicité, intelligence, « activabilité », pérennité, extensibilité et communication du contexte ;
  • « Adressabilité » – est-il acceptable de combiner les identifiants pour identifier une chose particulière ou des identifiants uniques autonomes sont-ils nécessaires ?
  • Appui – politiques, processus et mécanismes.
  • Attribuer localement – mise en œuvre (dans les limites de la portée de votre contrôle) ;
  • Unicité globale – entourer les identifiants locaux d’identifiants d’autorité globale pour un usage plus large ;
  • Les utiliser ! (c'est-à-dire éviter d’utiliser des identifiants équivalents qui pourraient causer des duplications et des confusions).

Il faut noter que la mise à niveau des identifiants existants peut vouloir dire la réévaluation de politiques qui paraissaient évidentes.

Conclusion

Une analyse critique est nécessaire pour identifier les choses de manière correcte et appropriée. Malheureusement, il n’y a pas de formule magique pour sélectionner et protéger les identifiants mais tout n’est pas négatif, car nous avons besoin d’une approche très flexible pour faire face au large éventail de situations.

Toutefois, l’analyse critique, nécessaire à la conception des identifiants et des systèmes d’identifiants pour nos ressources, schémas, etc., devrait être facilitée par une meilleure compréhension de ce que nous faisons intuitivement quand nous identifions les choses et des types d’aspects que nous devons prendre en considération.

Des études supplémentaires sur la classification et le typage des identifiants, des associations et des contextes pourront soulager un peu plus nos douleurs dans la conception des identifiants.

Bibliographie

Notes

  1. Encoding Archival Description : http://www.loc.gov/ead/
  2. Resource Description Framework : http://www.w3.org/RDF/
  3. < http://www2.sub.uni-goettingen.de/cgi-bin/ssgfi/anzeige.pl?db=meta&nr=000477&ew=SSGFI >
  4. XPath est une syntaxe (non XML) pour désigner une portion d'un document XML : http://www.w3.org/TR/xpath
  5. British Broadcasting Corporation : http://www.bbc.co.uk/
  6. Internationalstandard book number : http://www.bnf.fr/PAGES/infopro/numeros/is-isbn.htm