CIDE (2015) Kergosien

De CIDE
Révision datée du 1 décembre 2017 à 15:41 par imported>Nadège Mvumina

Vers l’interopérabilité des données hétérogènes liées au patrimoine industriel textile


 
 

 
Titre
Vers l’interopérabilité des données hétérogènes liées au patrimoine industriel textile
Titre (anglais) 
Towards interoperability of geographical data related to textile industry heritage
Auteurs
Eric Kergosien
Affiliation
Université Lille 3, GERiiCO
In
CIDE'18 (Montpellier 2015)
En ligne
http://hal.univ-lille3.fr/hal-01281716v2/document
Résumé
Le projet TECTONIQ étudie les dispositifs numériques mis en place par les différents acteurs impliqués pour gérer, diffuser et échanger les informations relatives au Patrimoine Industriel Textile (PIT) sur le territoire du Nord – Pas-de-Calais. Dans cet article, nous définissons tout d’abord notre domaine d’étude, à savoir le patrimoine numérique lié à l’industrie textile. Nous proposons ensuite une méthode hybride, c’est-à-dire une approche qualitative combinée à une approche quantitative semi-automatisée, afin de dresser une cartographie des acteurs du patrimoine nous permettant d’identifier les sources existantes de documents numériques hétérogènes. L’objectif du projet à terme étant de construire une base de connaissances qui structure et relie entre elles l’ensemble de ces données en respectant les normes définies pour le Web sémantique, nous justifions notre choix d’utiliser le modèle sémantique CIDOC CRM et nous présentons un extrait d’une première ontologie produite manuellement à partir d’un extrait du jeu de documents collecté.
Mots-clés
Patrimoine de l’industrie textile, Territoire, Cartographie du Web, Organisation des connaissances, Interopérabilité, documents numériques hé- térogènes, CIDOC CRM.

Introduction

Riche d’une histoire de plus de dix siècles, le Nord – Pas-de-Calais (NPDC) est jalonné de bâtiments industriels, devenus monuments ou encore réaménagés en zones commerciales ainsi qu’en regroupements d’entreprises, témoins de ses influences historiques successives. Les documents numériques concernant le patrimoine industriel textile (PIT) sont variées (descriptifs d’objets, textes, images fixes et animées, sons, etc.) et portent sur des bâtiments, tissus, machines, techniques, acteurs, et plus généralement sur l’évolution dans le temps et dans l’espace de l’industrie textile propre à un territoire. Les acteurs institutionnels et associatifs notamment aux niveaux local et national produisent et enrichissent régulièrement ces connaissances. Pour sauvegarder et valoriser ce patrimoine, la Métropole Européenne de Lille (MEL) développe une politique de restauration ambitieuse liée à l’urbanisme, formalisée dans le Plan Local d’Urbanisme notamment. Le quartier de Moulins, Euratechnologie, la zone commerciale l’Usine de Roubaix et la Plaine Images à Tourcoing en sont autant d’exemples qui rendent le patrimoine toujours vivant, animé par des visites guidées, des expositions et des manifestations ouvertes à tous. De leur côté, les institutions expertes, notamment la DRAC et l’Inventaire général du patrimoine culturel de la Région, inventorient minutieusement l’évolution de ces sites dans le temps et dans l’espace, et travaillent ainsi à la sauvegarde de la mémoire de ce patrimoine bâti. Les archivistes, bibliothécaires et documentalistes, experts dans la conservation, le signalement et l’enrichissement des données numériques sous forme de métadonnées, participent également à la pérennisation de la mémoire relative au patrimoine matériel (objets de type tissu, machine...) et immatériel (méthodes et techniques, événements, mémoires...). Cependant, l’ensemble des contenus produits est hétérogène et sans liens explicites. Dans cet article, nous présentons les premiers résultats de nos travaux menés dans le cadre du projet TECTONIQ qui vise à l’identification et à la mise à disposition pour le plus grand nombre de la connaissance relative au PIT (matériel et immatériel) diffusée via les dispositifs numériques hétérogènes présents sur le territoire du NPDC. Une première difficulté consiste à identifier les contenus numériques relatifs au domaine étudié en prenant en compte la quantité et la qualité de ces contenus lors de la phase de collecte. Dans l’objectif de cadrer le domaine d’étude, nous précisons d’abord ce que nous entendons par Patrimoine Industriel Textile (PIT)est hétérogène et sans liens explicites.

Dans cet article, nous présentons les premiers résultats de nos travaux menés dans le cadre du projet TECTONIQ 1 qui vise à l’identification et à la mise à disposition pour le plus grand nombre de la connaissance relative au PIT (matériel et immatériel) diffusée via les dispositifs numériques hétérogènes présents sur le territoire du NPDC. Une première difficulté consiste à identifier les contenus numériques relatifs au domaine étudié en prenant en compte la quantité et la qualité de ces contenus lors de la phase de collecte. Dans l’objectif de cadrer le domaine d’étude, nous précisons d’abord ce que nous entendons par Patrimoine Industriel Textile (PIT) en nous appuyant notamment sur les définitions de l’UNESCO et du comité TICCIH (UNESCO, 2008 ; TICCIH, 2003). Nous présentons ensuite une méthode semi-automatisée pour identifier les acteurs diffusant de l’information du PIT afin ensuite de collecter les corpus numériques existants. Des verrous sont notamment associés à l’hétérogénéité des documents traités aussi bien dans leur structure que dans leur contenu (notices descriptives, rapports techniques, compte-rendu de réunions publiques, articles de journaux, blogs, interviews retranscrites...). Une tâche importante à ce niveau consiste à construire un vocabulaire contrôlé de type ontologie décrivant le patrimoine industriel textile présent dans les documents, sur lequel nous pourrons nous appuyer pour distinguer et organiser le contenu relatif au patrimoine. Parmi les standards définis pour le Web sémantique, nous justifions notre choix d’utiliser le modèle sémantique CIDOC CRM (Doerr, 2003) qui offre (1) la possibilité de décrire de façon précise les différents aspects du patrimoine, et (2) d’homogénéiser la description du domaine d’étude pré- sente dans les documents. Nous présentons une ébauche d’ontologie produite manuellement à partir d’un extrait réduit du jeu de données collecté. Cet article est organisé de la façon suivante. La section 2 fait tout d’abord un état des définitions proposées par les acteurs institutionnels internationaux. Différents formalismes standardisés pour la représentation des connaissances liées au patrimoine sont ensuite présentés et comparés. La section 3 décrit notre méthodologie générique pour identifier, cartographier, et collecter acteurs et les données relatives au patrimoine. Une première ontologie minimale définie manuellement sur la base d’un jeu de tests est présentée et discutée.



2 État des lieux

2.1 Définition du domaine : le patrimoine industriel textile

L’UNESCO 2 occupe une place centrale sur la scène internationale culturelle et a beaucoup contribué à la définition de la notion de patrimoine (UNESCO, 1954 ; 1970 ; 1982). En 1982, lors de la Déclaration de Mexico sur les politiques culturelles, l’UNESCO a reprécisé la définition en déclarant que le patrimoine culturel d’un peuple « s’étend aux œuvres de ses artistes, de ses architectes, de ses musiciens, de ses écrivains, de ses savants, aussi bien qu’aux créations anonymes, surgies de l’âme populaire, et à l’ensemble des valeurs qui donnent un sens à la vie. Il comprend les œuvres matérielles et non matérielles qui expriment la créativité de ce peuple : langue, rites, croyances, lieux et monuments historiques, littérature, œuvres d’art, archives et bibliothèques ».

L’intérêt pour le patrimoine industriel est un assez récent comme en témoigne cette citation de Jean-Pierre Babelon et André Chastel (1980) : « le patrimoine français s’est constitué par la conjonction de cinq patrimoines : la religion, la monarchie, la nation, le fait administratif et le fait technique. Le dernier porte en lui la notion de patrimoine industriel dont l’émergence s’est accélérée à partir des années 1970, même si, auparavant, des historiens avaient attiré l’attention sur cette notion désormais importante ». C’est en effet dans les années 1970 que l’on commence à comprendre que les vieux bâtiments méritaient mieux que la casse, qu’un paysage devait se protéger et que les gueules noires (nom donné aux mineurs de charbon), comme tous les ouvriers, qui vieillissaient, qui disparaissent peu à peu, ne devaient pas être gommées de la mémoire collective. Le « patrimoine industriel » s’imposa dans le discours, se généralisa dans les ouvrages et les articles. La multiplication des friches industrielles sur notre territoire et l’épineuse question de leur devenir contribuèrent à stimuler la réflexion et à susciter les débats. Le Comité international pour la conservation du patrimoine industriel en propose ensuite une définition plus précise (TICCIH, 2003) : « Le patrimoine industriel comprend les vestiges de la culture industrielle qui sont de valeur historique, sociale, architecturale ou scientifique. Ces vestiges englobent : des bâtiments et des machines, des ateliers, des moulins et des usines, des mines et des sites de traitement et de raffinage, des entrepôts et des magasins, des centres de production, de transmission et d’utilisation de l’énergie, des structures et infrastructures de transport aussi bien que des lieux utilisés pour des activités sociales en rapport avec l’industrie (habitations, lieux de culte ou d’éducation)... ».

Le textile est un des champs du patrimoine industriel au même titre que d’autres activités industrielles telles la métallurgie, la chimie, la papeterie... L’historien Laurent Marty (1984), ajoute « le textile a produit des fils, des tissus, des usines, des maisons et des quartiers, mais surtout au centre de tout cela des hommes, avec leur travail, leurs loisirs, leur vie quotidienne ». Secteur industriel majeur en France pendant de nombreuses décades, le domaine du textile implique de nombreux acteurs, qui ont produit énormément de documents numérisés, renfermant des connaissances s’étendant sur plusieurs siècles.

2.3 Formalismes du Web sémantique

L’émergence du Web sémantique depuis une quinzaine d’années a mis en évidence divers langages informatiques pour répondre aux exigences techniques exprimées par les besoins d’accès automatique au sens des informations plutôt qu’à leur forme : XML, RDF, OWL ou SPARQL en sont quelques exemples emblématiques. Mais si ces langages offrent bien les fonctionnalités nécessaires pour la mise en œuvre d’outils de traitement du sens, ils ne préjugent cependant pas de l’angle sous lequel sont abordées les données et leur signification, et ils laissent toute latitude pour en évoquer la logique. En effet, un seul mode de représentation du sens n’est pas capable à ce jour – et ne sera sans doute jamais capable – de prendre en charge la description universelle des données dans toutes leurs dimensions.

Si aucune structure informationnelle spécifique ne semble avoir été conçue pour décrire le PIT, il existe cependant plusieurs exemples de formalismes créés pour décrire les objets culturels. Les principaux formalismes sont des modèles complexes qui permettent de décrire les objets culturels tout en exprimant les relations pouvant exister entre eux soit explicitement, soit en facilitant l’utilisation d’outils du Web sémantique pour dépasser l’implicite. Il s’agit des modèles FRBR (Le Boeuf, 2013), CIDOC CRM (Doerr, 2003), et FRBRoo (Doerr et al., 2008).

FRBR (Functional Requirements for Bibliographic Records) est un modèle de description qui distingue quatre niveaux d’information portant sur un même objet (initialement bibliographique) depuis ses caractéristiques physiques qui doivent être distinguées pour chaque exemplaire (« item ») jusqu’aux spécificités les plus abstraites de sa conception (« œuvre ») en passant par les spécifications de sa mise à disposition d’un public (« manifestation ») et celles de son contenu intellectuel (« expression »). À chaque niveau de description – du plus matériel au plus conceptuel –, le renseignement des champs informationnels n’est pas forcément opéré par une explicitation locale, mais autant que faire se peut par une référence au modèle FRAD (pour les personnes physiques et morales) ou au modèle FRSAD (pour les lieux, événements, concepts et objets). Un dense réseau de relations se construit dès lors entre les œuvres, entre les autorités et entre les descripteurs qui y sont attachés, sortant des limites classiques de la fiche descriptive.

Le modèle conceptuel de référence (Conceptual Reference Model) CIDOC CRM est un modèle de représentation de données conçu par le Comité International pour la DOCumentation du Conseil International des Musées pour permettre l’interopérabilité des référencements des objets de musées, puis par extension de tout objet de patrimoine culturel physique ou non, selon la définition proposée par l’UNESCO.

Il vise à dépasser les incompatibilités sémantiques et structurales des nombreuses sources d’informations hétérogènes portant sur des réalités patrimoniales et culturelles pour faciliter l’échange de documentations et la recherche dans ces documentations. La version actuelle (ISO 21127 :2014) intègre 86 classes (acteurs, lieux, événements ou entités temporelles...) qui sont reliées entre elles par des 137 propriétés distinctes. Le modèle est assorti de plusieurs outils, dont des implémentations OWL et RDF et des utilitaires de mapping avec d’autres formalismes (UNIMARC, EDM...).

FRBRoo est une évolution « orientée objet » imaginée à partir de FRBR et de CIDOC CRM. Reprenant les quatre niveaux de description de FRBR, il fait des entités originelles des conteneurs chargés d’intégrer les classes CIDOC CRM pour assurer l’interdépendance entre les richesses des deux modèles. Très ambitieuse, l’ontologie FRBRoo est conçue pour prendre en charge, décrire et mettre en relation toute réalité de l’univers culturel. Le modèle dans son état actuel n’est pas encore stabilisé, et toutes les questions conceptuelles qu’il soulève n’ont pas encore obtenu de réponse. Son développement est néanmoins organisé de manière à ce qu’il puisse être instancié automatiquement par des données issues de ses modèles « parents », CIDOC CRM et FRBR. Du fait de son niveau élevé de maturité et de sa stabilité, de son adéquation avec les données du projet ainsi qu’avec son objectif d’agrégation de données hétérogènes, nous avons choisi de mettre en œuvre l’ontologie CRM CIDOC. Bien entendu, les outils déjà proposés, de même que son interopérabilité planifiée avec son évolution que constitue FRBRoo, nous ont également guidés dans ce choix.

3 Contributions scientifiques

3.1 Définition du patrimoine industriel textile

Dans un objectif de valorisation de l’ensemble de ces données, le projet TECTONIQ a pour objectif d’identifier, cartographier, mutualiser les données stockées dans différents formats pour les rendre interopérables. Pour ce faire, et sur la base de l’ensemble des définitions présentées ci-dessus, nous proposons tout d’abord une première explicitation de ce que nous entendons par patrimoine industriel textile afin de préciser les éléments caractéristiques du domaine que nous cherchons à identifier dans les documents textuels:

 — les biens matériels : bâtiments, machines, équipements, ateliers, usines, sites de traitements et de raffinage, magasins, centres de productions ainsi que des activités sociales en rapport avec l’industrie textile (habitations, lieux de culte ou d’éducation) ; 
 — les biens immatériels : souvenirs, événements, fêtes, image collective, production intellectuelle transmise par le savoir-faire qui peut être une succession de gestes dictés et montrés dans les centres de production. 

Nous nous intéressons à la fois au patrimoine industriel patrimonialisé et au domaine de la filière textile d’aujourd’hui qui constitue le patrimoine vivant.

3.1 Notre méthode pour l’identification des acteurs et des sources de données du domaine

Dans l’objectif d’identifier les acteurs du patrimoine produisant et/ou possédant des données numériques sur le thème du PIT tel que défini section 3.1, nous proposons une méthodologie semi-automatique composée de trois étapes : (1) identification des principaux acteurs du patrimoine sur le territoire NPDC via des entretiens semi-directifs, (2) identification du réseau numérique d’acteurs du PIT à travers la cartographie quali-quantitative du Web via Navicrawler et (3) Hyphe). L’analyse du réseau obtenu est réalisée en nous appuyant d’abord sur les cartographies obtenues via l’outil Gephi, complétées ensuite par une analyse spatiale réalisée par un démonstrateur développé en nous appuyant sur Google Maps.

1. Identification du noyau d’acteurs : sur la base d’une première veille sur le Web, nous avons identifié 60 acteurs du patrimoine. Nous avons réalisé des entretiens semi-directifs auprès de 9 de ces acteurs présents dans le NPDC et disposant de données expertes sur ce patrimoine, parmi lesquels nous pouvons citer l’Inventaire de la Région, Musée d’art et d’industrie André Diligent (La Piscine), le service de l’urbanisme de la MEL, ou encore l’association PROSCITEC9. L’ensemble des informations collectées comprend à la fois des informations sur les acteurs eux-mêmes (coordonnées, statut, type de patrimoine à disposition, etc.), les données dont ils disposent (quantité, format, etc.), et les éventuels échanges/collaborations avec d’autres autres acteurs du domaine. Ces entretiens nous ont permis d’identifier un premier noyau de 118 acteurs.

2.Construction du réseau d’acteurs via Navicrawler : pour approfondir ce premier listing d’acteurs du domaine, nous avons utilisé le crawler Navicrawler qui offre la possibilité de valider uniquement les sites que nous identifions comme liés au domaine d’étude. En suivant cette procédure, nous avons dé- fini un premier réseau de 160 acteurs.

3.Enrichissement automatique du réseau d’acteurs via Hyphe : Hyphe utilise un script qui suit et répertorie tous les liens d’un site puis tous les liens des sites qu’il rencontre et ainsi de suite selon une variable profondeur renseignée par l’utilisateur. Sur la base des 160 sites web donnés en entrée, Hyphe a fait ressortir une multitude de nouveaux sites web en précisant à chaque fois le nombre de liens entrants et sortants, respectivement pour chaque site les hyperliens pointant vers celui-ci et les hyperliens présents sur ce site et pointant vers d’autres. Un dépouillement des résultats nous a permis d’identifier 9 acteurs supplémentaires, que nous avons intégrés au réseau thématique constitué donc de 169 acteurs.