CIDE (2012) Arribe
1 Chaînes éditoriales numériques : allier efficacité et variabilité grâce à des primitives documentaires Digital publishing chains: combine efficiency and variability through document primitive s Thibaut ARRIBE (1 , 2, 3 ), Stéphane CROZAT (2) , Bruno Bachimo nt (1), Sylvain SPINELLI (3) (1) HEUDIASYC UMR CNRS 7253 , Université de Technologie de Compiègne thibaut.arribe @ utc.fr bruno.bachimont@hds.utc.fr (2) Unité ICS, Université de Technologie de Compiègne stephane.crozat@utc.fr (3 ) Société Kelis sylvain.spine lli@kelis.fr Résumé . Cette contribution s'inscrit dans le domaine de l'ingénierie documentaire, et plus particulièrement des chaînes éditoriales numériques, c'est à dire des systèmes assistant la production et la publication de documents structurés. Aprè s avoir réaffirmé l'enjeu du document structuré et l'objet de l'ingénierie documentaire, nous comparerons les notions de modèle documentaire universel et dédié. Puis nous présenterons le concept de fonction génératrice chez Cassirer et l'associerons au con c ept de primitive documentaire
un code informatique abstrayant des principes essentiels d'objets documentaires pour permettre la génération de code spécifique instanciant de multiples modèles documentaires. Nous montrerons que l'état de l'art se partage entre d'une part des solutions privilégiant l'efficacité au détriment de la variabilité (possibilité d'adaptation au contexte) par l'utilisation de modèles universels
- et d'autre part
des solutions privilégiant la variabilité au détriment de l'efficacité par l'utilisation de modèles dédiés. Nous défendrons alors qu'un niveau d'abstraction fait défaut pour mettre en œuvre de façon réaliste des systèmes alliant efficacité et variabilité. Notre contribution est une formalisation du système de conception de ch aîne éditoriale Scenari, développé en 2004. Issu de travaux visant l'optimisation de la phase de conception de chaînes éditoriales, le système Scenari propose un niveau d'abstraction supplémentaire grâce à des primitives, et permet de concevoir des chaînes éditoriales sur mesure, avec des performances économiques et d'usage inédites. CIDE.15 Novembre 2012 2 Mots - clés . document structuré, chaîne éditoriale, abstraction, génération, modèle documentaire . Abstract. This paper examines digital publishing chains, i. e. systems which assist the production and publ ication of structured documents , especially their design processes . After reasserting the issue of structured document an d the subject of document engineering, we will compare the notions of universa l and dedicated document model . W e will then introduce the concept of generating function from Cassirer and combine with the concept of docu m ent primitive
- a computer code
w h ich abstrac t s the essential principles of document objects to enable the generation of specif ic code instantiating multiple document models . We will show that the state of the art is divided between solutions favo u ring efficiency over variability (ability to adapt to the context) by the use of universal document models, and solutions that promote variability at the expense of efficiency through the use of dedicated models. We will defend that a level of abstraction is mi ssing in order to implement system s which combine efficiency and variability . Our contribution is a formali s a tion of the Scenari system, a publishing chains design system developed in 2004. Stemming from work s to optimize the design stage of publishing chains, the Scenari system offers a level of abstraction through primitives, and can design custom publishing chains with innovative use and economic performance . Keywords . structured document, publishing chain, abstraction, generation, document model. 1 Introduction Le document est un objet dont l’usage s’est considérablement démocratisé depuis l’avènement du numérique (P édauque, 2003). Les contextes donnant l ieu à l’écriture d’un document s e sont démultipliés, devenant un objet d’étude à part entière. Nous citons pour l’exemple l’étude de Zacklad (Zacklad, 2007) qui répertorie ces contextes en domaines
- «
l e domaine esth étique» (œuvres artistiques)
- «le domaine affectif
- fictionnel» (œuvres fictionnelles)
- «le
domaine politico - spirituel» (doctrines politiques, livres sacrés)
- «le domaine
moral - idéologique» (documents militants, pratiques liturgiques)
- «le domaine
s cientifique» (résultats et vulgarisations scientifiques, documents pédagogiques) et «le domaine pratique - efficace» (documentation technique, juridique, administrative). Dans cette contribution, nous nous intéressons à des contextes de forte production de d ocuments relativement homogènes (en reprenant les domaines de Zacklad, nous nous situons principalement dans les domaines «pratique - efficace» et «scientifique»). L’ingénierie documentaire a répondu à la problématique de production de masse en faisant émerg er la notion de document structuré (André et al. , 1988). Son enjeu est de contrôler l’homogénéité des documents par des structures qui s’articulent intimement avec les logiques applicatives d’édition, de manipulation et de publication. Cette mise en éviden ce de la structure permet d’instrumenter la séparation entre le fond et la forme - ou entre le fonds documentaire et ses formes (Bachimont & Crozat, 2004) - permettant ainsi une automatisation de la manipulation documentaire. Les logiciels instrumentant ce tte situation d’écriture sont appelés Cha înes éditoriales numériques : allier efficacité et variabilité gr âce à des primi tives documentaires 3 des chaînes éditoriales XML (Crozat, 2007). Ils permettent l'écriture d'un contenu en se conformant à un modèle préalablement défini. La publication s'opère par des transformations automatiques vers des standards tel s q ue PDF ou HTML. Nous qualifierons les chaînes éditoriales en fonction de deux critères
- leur
faculté à s’adapter à un nouveau contexte, la variabilité
- leur apport pour la
production et la maintenance, l’ efficacité . Un des objectifs majeurs de l’ingéni erie documentaire est de maintenir la variabilité des contenus - pour respecter la spécificité de chaque contexte d’usage - tout en améliorant l’efficacité de leur gestion - pour gérer la massification. 2 Modèle universel versus modèle dédié La notion de doc ument structuré suppose de formaliser un modèle de représentation du document permettant d’en contrôler les opérations (Barron, 1989) (Piwowarski et al. , 2002). 2.1 Modèle documentaire dédié Un modèle dédié est un modèle documentaire spécifique à un contexte d ’usage métier en particulier. Le besoin documentaire est analysé puis formalisé dans un modèle, comprenant des schémas structurels, des interfaces d’éditions, des programmes de validation, de transformation... Historiquement portées par SGML ces approches sont aujourd’hui ancrées dans les technologies XML
Schema, XSLT, DOM... L’intérêt du modèle dédié est par construction son adéquation au contexte adressé. C’est la solution juste nécessaire au problème, permettant de traiter des structures documentaire s métiers (tableaux comptables, scénarios pédagogiques, plans numériques, formats dédiés...) sans scories héritées de fonctions liées à d’autres contextes d’usage. L’utilisation d’un modèle dédié impose une forte spécificité de la chaîne éditoriale. Nous p arlerons d’une approche par création car la chaîne éditoriale doit être développée ex nihilo , permettant ainsi de répondre finement à la problématique de la variabilité. Ce gain se paie sur l’efficacité du processus, notamment en raison des coûts de mise œuvre à l’initialisation, puis en maintenance. La chaîne étant fortement adhérente au contexte par construction, elle devient obsolète dès l’évolution de ce contexte et requiert par conséquent des moyens de maintenance importants. Cette barrière rend cett e approche adaptée uniquement à des usages de niche et aux contextes relativement stables du point de vue des formats documentaires (presse, documentation technique des industries sensibles...). 2.2 Modèle documentaire universel Un modèle universel est au cont raire un modèle à forte valeur de généralité visant à circonscrire l’ensemble des usages pour une famille de contextes. Généralement porté s par un standard (W3C, OASIS...), les modèles universels visent l’intégration d’un très large ensemble de besoins, et misent sur la mutualisation des développements autour du standard. On citera par exemple DITA, DocBook, ou la partie sémantique de HTML 1 . 1 http://dev.w3.org/html5/html - author/#understanding - semantics