Nuvola apps important.png Attention, suite à une faille de sécurité, les liens vers les serveurs d'exploration sont désactivés.

-

H2PTM (2007) Gaillard

De H2PTM

Instrumentation d'un processus de publication audiovisuelle et multimédia articulant conception logique et mise en discours

Outil rhétorique de publication multimédia


 
 

 
Titre
Instrumentation d'un processus de publication audiovisuelle et multimédia articulant conception logique et mise en discours : Outil rhétorique de publication multimédia
Auteurs
Ludovic Gaillard(i,ii), Bruno Bachimont(i,ii) et Louis Chamming’s(ii)
Affiliations
(i) Heudiasyc, Heuristique et Diagnostics des Sytèmes Complexes
UMR CNRS 6599, Université de Technologie de Compiègne
P 20529, 60200 Compiègne, France
  • {prénom.nom}@utc.fr
(ii) INA, Institut National de l'Audiovisuel, Direction de la Recherche et de l'Expérimentation
4 avenue de l'Europe, 94366 Bry-sur-Marne, France
  • {initale prénom nom}@ina.fr
Dans
actes du colloque H2PTM 2007 Hammamet
publié dans H²PTM07 : Collaborer, échanger, inventer
Résumé
Nos travaux consistent à interroger les modalités d'élaboration d'un discours multimédia à dominante audiovisuelle, au moyen d'une approche rhétorique cherchant à articuler les intentions de l'auteur à la forme multimédia du discours. Nos propositions visent à élaborer une méthologie d'assistance à la publication au moyen de modèle regroupant des règles de composition discursive. Ce papier expose les principaux aspects du processus de la composition discursive ainsi que son intrumentation. Nous illustrerons notre propos par un exemple du processus de publication multimédia, basé sur la réutilisation de différentes ressources audiovisuelles et textuelles.
Mots-clés 
Rhétorique, Publication, Multimédia, Audiovisuel, Intentions, Auteur, Outil, Assistance, Modèle.

Introduction

En tant que centre d'archivage et de conservation du patrimoine, l'INA a deux missions principales : la conservation des oeuvres et leur mise à disposition. Les problématiques de numérisation étant en voie de résolution, la question de la valorisation des fonds passe désormais au premier plan. La réexploitation des archives ne consiste plus en un simple catalogage des ressources disponibles, mais en une véritable réécriture, éditorialisation des contenus par des utilisateurs-auteurs. Ces auteurs adressent leurs propos à des publics très différents (étudiants, chercheurs, grand public...) dans des contextes de publication divers. La plupart des outils d'écriture existants impliquent des prérequis techniques trop importants pour être accessible à tous. L'enjeu majeur consiste donc à instrumenter et à masquer la complexité de manipulation afin de recentrer la tâche des auteurs sur leur compétence propre, à savoir l'éditorialisation de contenus.

Nos considérons donc nos auteurs comme des experts du domaine thématique mais novices en manipulation des objets multimédias et audiovisuels. Nos travaux cherchent à leur apporter une assistance dans le processus de publication multimédia, au moyen d'une méthodologie et d'une instrumentation adaptées au processus de mise en discours, depuis son élaboration conceptuelle jusqu'à sa mise en forme finale. Par exemple, un enseignant souhaitant publier un cours sur un domaine particulier, doit être assisté, non pas en termes de sélection et délimitation du domaine thématique, mais plutôt sur la manière d'organiser et de manipuler ses ressources pour pouvoir publier des documents à dominante audiovisuelle. Notre instrumentation de la mise en discours multimédia est centrée sur une réutilisation de ressources audiovisuelles, dans des contextes divers.

Ce papier vise à présenter un processus d'assistance à la publication audiovisuelle et multimédia basé sur une approche rhétorique. Nous commencerons par présenter les différents domaines et travaux ayant trait à notre problématique. Ensuite nous exposerons brièvement de quelle manière nous convoquons la rhétorique d'un point de vue théorique et opérationnel. Enfin nous détaillerons au moyen d'un exemple, l'instrumentation proposée.

État de l'art

Principaux outils d'édition de documents audiovisuels et multimédias

La multiplication des ressources audiovisuelles à disposition a engendré une diversification de l'offre des outils de montage. A des logiciels professionnels (Premiere[1], Final Cut Pro[2], Jahshaka[3]), sont venues s'ajouter des applications locales orientées vers le néophyte (Movie maker[4], imovie[5]) ainsi que toute une panoplie d'applications web profitant de la large diffusion des technologies Ajax et Flash (JumpCut[6], EyeSpot[7]). L'objectif de ces applications est une publication "one-shot", sans souci, ni de reproductibilité, ni de déclinaisons diverses. La simplicité d'usage de ces applications leurs permet de fédérer un grand nombre d'utilisateurs occasionnels. La même vulgarisation des outils ne s'est pas encore opérée pour le domaine multimédia. Rares sont en effet les outils qui proposent une instrumentation de la forme hypermédia. La majorité de ces objets sont réalisés à l'aide de logiciels tels que Macromedia Director ou dorénavant Macromedia Flash, utilisant des formats propriétaires et non échangeables entre applications. Ces outils sont hors de portée du grand public puisqu'ils nécessitent une prise en main relativement longue et un minimum de connaissances en programmation.

Quelques rares outils d'édition multimédia ont pris le parti de se baser sur des langages de descriptions ouverts et échangeables telles que SMIL[8]. L'outil le plus abouti en la matière (Limsee2[9]) est issu des travaux du laboratoire WAM de l'INRIA. Cet éditeur WYSIWIG permet de manipuler des objets graphiques sur une ligne de temps et permet ainsi à l'auteur de se représenter le montage de sa publication. Cet éditeur s'adresse cependant à un public familier de la norme SMIL, habitué à manipuler des représentations temporelles complexes (notion de séquence, de groupement parallèle) et connaissant parfaitement l'agencement à priori qu'il souhaite donner à ces ressources.

Dans une logique voisine mais centrée davantage sur la vidéo, le projet Advene (Aubert et al., 2005) vise à développer une plate-forme de création d'hypervidéos basés sur une exploitation des multiples annotations manuelles de l'auteur. Les publications obtenues sont des visualisations enrichies des documents annotés. Les travaux de l'IRI (Institut de Recherche et de l'Innovation) de Beaubourg mérite également une attention particulière. Leur logiciel Lignes de temps[10], propose à des amateurs d'œuvres cinématographiques, une instrumentation permettant de manipuler, de critiquer et de transmettre leur propre analyse de film. Les problématiques de ces deux institutions concernent l'expérimentation des usages associés à l'analyse de vidéos beaucoup plus que la mise en place d'une chaîne documentaire de production. Notre problématique cherche en effet davantage une certaine rationalisation du processus d'écriture audiovisuel et multimédia, tandis que ces deux projets se focalisent principalement sur l'écriture dans sa singularité.

Ces différents outils de montage, qu'ils soient à destination des professionnels ou du grand public, cherchent à instrumenter le processus d'édition ; mais aucun ne questionne les logiques de production sous-jacentes. Il faut se pencher du côté des chaînes de traitement documentaire textuel pour trouver quelques éléments de réflexion.

Vers des chaînes de publication de documents audiovisuels et multimédias

L'approche couramment répandue pour les documents textuels consiste à séparer l'édition du contenu de l'édition de la mise en forme. Cette séparation des taches permet de véritables publications multisupports (Scenari (Bachimont et al., 2004)). Un même contenu, enrichi d'annotations sémantiques, peut être ainsi décliné sous la forme d'une notice textuelle imprimable, d'un site Web de présentation et de slides de présentation... Le projet Ecoute[11], à la suite du projet Epicure[12], commence désormais à questionner les modalités de création et de publication de documents multimédias[13] selon cette même approche. Délaissant une logique WYSIWYG largement répandue, ces projet optent pour une logique WYSIWYM (« What You See Is What You MEAN»[14]) centrant l'approche sur la sémantique de l'information à véhiculer et non plus sur le seul résultat graphique. Cette expression de l'intention auctoriale se matérialise par un plan, expression du cheminement souhaitée par l'auteur, ultérieurement instancié par les différents contenus disponibles. Les projets précédemments cités ne s'intéressent cependant pas aux composantes de cette activité propre à l'auteur. L'intégralité de la phase de création et d'élaboration de la trame conceptuelle est toujours implicite.

Notre approche, dans le prolongement de cette logique WYSIWYM, cherche à modéliser les différentes composantes de la création de discours. La création d'un discours est, selon nous, un compromis entre les intentions initiales de l'auteur et les ressources effectivement disponibles. Le discours effectif est le résultat d'une articulation entre ces différentes composantes au cours du processus de rédaction. Quelques projets de recherche s'intéressent aujourd'hui à la modélisation de ces structures discursives.

Travaux sur la modélisation des structures de discours

Une approche qui s'est développée ces dernières années concerne la génération automatique de publications multimédias. De nombreux travaux visent, sur la base de modélisation des différentes structures discursives, à générer des réponses structurées suite à une requête utilisateur.

DISC (Geurts, 2004) vise à proposer, à la suite d'une requête utilisateur, un discours cohérent et adapté au niveau d'expertise du domaine, en s'intéressant aux modèles narratifs thématiques. Les modèles de publication sont organisés autour de séquencement d'Unités Narratives qui permettent d'organiser les ressources sélectionnées et d'assurer une cohérence narrative pertinente de l'ensemble de la réponse. Les publications obtenues sont des montages multimédias à bases de ressources textuelles et visuelles.

Le projet VOX POPULI (Bocconi et al., 2005) s'appuie principalement sur une modélisation argumentative appliquée à un corpus purement audiovisuel. La requête utilisateur, choisissant un point de vue, génère un graphe sémantique qui est construit dynamiquement à partir des annotations thématiques et argumentatives. La qualité du projet réside dans cette véritable prise en compte de la cohérence argumentative dans la mise en discours.

Ces différents travaux, particulièrement riches d'enseignements pour notre approche, effacent la figure de l'auteur, au profit d'une mécanique de sélection des contenus, et d'agencement, visant à produire une réponse structurée en réponse à une requête utilisateur. L'auteur de ces systèmes est d'avantage un modélisateur, un paramétreur des différents modèles de publication. Leur problématique se situe au niveau de la réponse structurée bien plus que celle qui nous concerne à savoir, l'assistance à la création.

Les travaux les plus aboutis sur ces questions sont ceux du CWI, dans le cadre du projet Sample (Falkovych et al., 2004). Ce projet s'attarde sur les différentes étapes de construction du discours par un auteur, de l'exploration thématique à sa mise en discours. Ainsi le processus d'écriture multimédia (centré essentiellement sur des ressources textuelles et graphiques) se décomposent en 4 phases distinctes : Exploration et sélection du domaine thématique, élaboration de la structure discursive, sélection effective des ressources, proposition de mise en forme. Le traitement du genre est particulièrement soigné avec une proposition d'articulation entre une structure narrative de discours, des fonctions discursives et des éléments structurels. Dans la base d'annotation, chaque élément est décrit thématiquement mais également en terme de rôle discursif (notion de citation, de résumé, de définition). Le modèle de genre propose une structure discursive, prescrivant une sélection thématique des ressources, mais prenant également en compte leurs rôles. Ainsi pour un prologue, le système privilégie les introductions ou les citations.

Une grande majorité de ces différents travaux utilisent la RST (Rhetorical Structure Theory) (Mann et al., 1988), laquelle est centrée sur l'analyse de la structure rhétorique des textes. Cette théorie présuppose une cohérence globale et une progression narrative dans tout discours, qui peut être alors déconstruite. Notre approche cherche quant à elle tout à interroger le processus de production de discours, tel qu'il peut être décrit dans le cadre de la rhétorique classique.

La rhétorique comme cadre de réflexion

La tradition rhétorique

La rhétorique, originairement « art de la pratique discursive », est souvent réduite à une simple stylistique. L’approche proposée s'appuie sur la rhétorique, en ne la considérant pas seulement comme un répertoire de figures stylistiques, mais plutôt comme une approche plus générale de construction de discours, dans laquelle la forme contribue au sens. La rhétorique d'Aristote (Aristote, 1967) constitue la première analyse systématique de l'art oratoire, définissant les différentes composantes auxquelles l'orateur sera confronté. On distingue traditionnellement quatre phases : l'inventio, la dispositio, l'elocutio et l'actio. Chaque phase mobilise des structures différentes, travaillant les unes au niveau purement logique et intentionnel, les autres au niveau de la mise en discours effective et instanciées par les ressources disponibles. Cette distinction, centrale dans notre approche, est omniprésente dans les travaux de l'historienne médiévale Carruthers. Dans son étude des pratiques de mémorisation (Carruthers, 2002), elle détaille précisément l'activité d'écriture et les étapes de son procesus, tels qu'ils étaient envisagés à l'époque. Sa distinction entre res et dictamen nous permet de bien distinguer, d'un côté l'inventio et la dispositio (res), de l'autre l'élocutio et l'actio (dictamen). Cette distinction, au coeur de notre problématique, articule le passage d'une organisation purement logique en une structure discursive temporelle.

Dans une perspective opérationnelle, nous retenons les étapes rhétoriques suivantes :

- L'inventio, lieu de sélection des arguments, concerne la sélection en intention constituant le propos. L'auteur organise conceptuellement sa structure en fonction de la thématique traitée. C'est l'espace des idées, au sens strict.
- La dispositio, lieu de l'organisation, toujours en intention, des différents éléments structurels sont organisés en terme de rôles, éventuellement positionnés séquentiellement dans le discours prévu. C'est la structure intentionnelle du discours, organisation raisonnée de l'espace conceptuel précédent.
- Elocutio, lieu de la production effective du discours. La structure intentionnelle est instanciée avec les ressources disponibles, jugées pertinentes au moyen des règles de sélection. On obtient ainsi la structure concrète du discours.

Ces différents niveaux, étant constamment mis en jeu et entremêlés lors de la création d'un discours, nous croyons fortement à l'intérêt d'une instrumentation graphique permettant une appréhension visuelle de ces nombreuses articulations.

Des outils d'assistance à l'organisation des idées

Les outils de brainstorming ou de mind map (MindManager[15], FreeMind[16]), dans lesquels l'utilisateur organise spatialement ses idées, nous semblent un paradigme de représentation pertinent. Le logiciel Osmose (Esposito, 2005) propose ainsi d'instrumenter l'organisation d'un plan en une publication de type slide-show. Contrairement aux outils classiques tel que Power Point, on cherche à bien distinguer les phases d'organisation logique et de publication. Le logiciel propose ainsi un espace graphique d'organisation logique des idées et un espace de mise en forme et de prévisualisation de l'arborescence obtenue, en slides. Cette séparation fond-forme contribue à une meilleure vue du processus discursif à condition de ne pas imposer une séquentialité des tâches trop contraignante. Il est en particulier nécessaire de pouvoir à tout moment agir sur l'un ou l'autre des modes de création. Osmose contribue à faciliter la séparation des tâches grâce à ses interfaces graphiques. L'absence de toute sémantique des liens, lors de l'organisation logique du discours, est cependant une limite importante. Une fois de plus, toutes les intentions sous-jacentes aux choix des ressources sont implicites. Une limitation également importante concerne l'approche purement textuelle des publications visées. Il est certes possible d'associer des sons ou vidéos lors de la phase de constitution du plan mais ces ressources doivent être préparés à l'extérieur de l'application (impossibilité soit de segmenter, soit de pointer un segment en particulier). De telles ressources temporelles ne sont traitées en publication que comme des documents associés, déclenchés en complément du slide et non comme constitutifs du discours. L'unité de publication minimale est donc la page, et non pas une unité temporelle, comme il serait souhaitable dans le cadre de publications centrées sur des corpus vidéos.

Spécificité de notre approche

Nos travaux visent à assister des auteurs dans un processus de publication basées principalement sur des ressources vidéos. Dans une logique prolongeant le WYSIWYM, nous cherchons à dégager les différentes structures impliquées dans la création d'un discours. Ces structures sont guidées par les intentions implicites de l'auteur. Nous pensons que la tâche de celui-ci doit pouvoir être centrée sur l'organisation rhétorique du domaine thématique, la complexité inhérente à la manipulation technique d'éléments de nature hétérogène devant être masquée. Dans ce but, nous proposons un processus de création de discours audiovisuel et multimédia basé sur une mise en œuvre des intentions de l'auteur. Le propos dans cet article n'est pas de détailler les différentes structures discursives et les articulations s'y référant (Gaillard et al., 2007) mais de présenter globalement le processus de publication et l'instrumentation proposée. Ce processus repose sur une séparation entre la phase d'élaboration logique et la phase de mise en narration des ressources. L'instrumentation proposée pour ces différentes étapes s'inspire des travaux connexes, à savoir, Osmose pour le pôle d'élaboration logique, et Limsee2 pour le pôle d'organisation temporelle des ressources. Nous cherchons à donner à l'auteur la possibilité d'un va-et-vient permanent entre ces deux pôles. La possibilité d'une telle démarche repose sur des mécanismes de sélection et de transformation appropriés. Nous allons examiner en premier lieu le point de vue de l'indexation lié à la sélection ; puis, en deuxième lieu, nous détaillerons l'instrumentation du processus de création du discours, et les transformations associées.

Une logique d'indexation

La sélection des ressources ne peut s'effectuer correctement que si elles ont été préalablement décrites et indexées de façon appropriée. Dans le cadre de notre recherche, les ressources de base sont constituées par des éléments audiovisuels, dûment indexés en vue d'une publication de type audiovisuel, multimédia, ou site web. Or les pratiques d'indexation courantes se sont établies en fonction des requêtes de la production audiovisuelle classique, et ne sont que partiellement, voire pas du tout, adaptées aux besoins spécifiques des nouveaux types de publication envisagés ici. Il est donc nécessaire de reprendre à nouveaux frais la question des objectifs et des méthodes de l'indexation, en fonction de l'évolution des usages qui la finalisent. A partir de là, on est conduit à examiner la question des méthodes de description des ressources audiovisuelles, car les pratiques d'indexation dépendent en premier lieu des grilles de description qu'elles mettent en œuvre. Il se trouve que cette problématique recoupe directement certaines des recherches menées par l'INA en vue de mettre la puissance des outils numériques au service de la gestion informatisée de ses fonds, dont une large part est déjà numérisée. Si, par rapport aux demandes de la production audiovisuelle classique, l'indexation des documents audiovisuels traditionnellement pratiquée à l'INA présente une valeur opérationnelle satisfaisante, elle apparaît en revanche insuffisamment adaptée aux besoins générés par la numérisation des outils et des supports.

La réflexion sur ces questions nous a conduit à entreprendre depuis quelques années, dans le cadre de la Direction de la recherche et de l'expérimentation de l'INA, une recherche visant à reprendre à nouveaux frais la problématique d'une description sémiotique des objets audiovisuels (Chamming's, 2003). L'objet de cette recherche est de développer des méthodes de description des "objets audiovisuels" tenant résolument compte des spécificités du langage audiovisuel. Ce n'est pas le lieu de le développer ici, mais il résulte de ces spécificités qu'il n'existe pas à proprement parler de "grammaire" du langage audiovisuel, qui aurait valeur prescriptive, analogue à celle qui gouverne la morphologie et la syntaxe des langues naturelles, autrement dit : l'audiovisuel est un langage, mais ce n'est pas une langue. Il n'existe que des "grammaires" locales, à valeurs énonciative et esthétique, liées par l'usage à un genre et à un style donnés. Dans ces conditions, un genre donné codifie une manière typique, culturellement cohérente et reconnaissable par le public visé, d'intégrer les différentes composantes de l'expression audiovisuelle. Cette constatation nous a conduit à privilégier une approche descriptive de type sémiotique, se plaçant méthodologiquement au point de vue de la réception, appliquée à des corpus homogènes en termes de genre.

L'intérêt de cette approche, par rapport au présent propos (indexer pour sélectionner), c'est qu'une telle description sémiotique constitue en fait un puissant outil d'analyse, capable de "déconstruire" les différents genres de discours audiovisuels. Elle rend ainsi possible la décomposition des objets audiovisuels constituant les ressources, en collections d'éléments dûment indexés et réutilisables pour la publication.

Instrumenter la création de discours

Notre propos consistant à instrumenter un processus de publication audiovisuelle et multimédia, c'est une rhétorique élargie qui nous fournira le cadre théorique pertinent pour modéliser le processus en question. Celui-ci consiste à séparer l'organisation logique du discours de son instanciation matérielle avec les ressources disponibles. Un auteur élabore donc premièrement le plan souhaité, puis le système se charge ensuite de lui proposer une ébauche de mise en discours en fonction des ressources disponibles. Nous illustrerons cette approche par un exemple de publication multimédia, basé sur différentes ressources audiovisuelles et textuelles traitant du film Apocalypse Now[17]. Le type de publication envisagé s'apparente à un travail de critique multimédia, visant à organiser des commentaires personnels, des notes d'archives, des références web, avec des extraits du film, en vue d'une diffusion sur un site personnel de type blog.

L'organisation logique du discours

Dans cet exemple, nous supposerons déjà effectuées la délimitation et l'exploration du domaine thématique. Ainsi notre auteur possède, suite à cette exploration préalable, une quantité de ressources thématiquement homogènes, qu'il cherche à organiser pour produire son discours. Dans un premier temps, il s'agit pour lui d'élaborer la structure intentionnelle correspondant à l'organisation logique et argumentative de son discours. Cette structure organise la dimension thématique (De quoi on parle ?) avec la dimension argumentative (Comment on en parle ?). La Figure 1 concerne, par exemple, l'élaboration d'une sous-partie thématique concernant le traitement des « bunnies » dans le film. L'auteur, au sein d'un espace graphique, organise ses différentes ressources, en spécifiant les rôles discursifs qu'il souhaite leur associer. Ainsi, certains extraits vidéos sont mobilisés comme éléments d'analyse, des éléments textuels permettent de commenter ou de contextualiser un extrait vidéo... En fonction du genre de la publication, le système contrôle la validité sémantique et rhétorique des différents éléments proposés à l'auteur.

L'organisation souhaitée du discours s'effectue ainsi au sein d'un même ensemble structurel, thématiquement homogène, indépendamment de la mise en forme et de la progression narrative. Le graphe de l'organisation logique ne porte aucune information quant à l'agencement final des ressources (Quels éléments sont en parallèle ? Quel est l'ordre d'apparition ?) mais indique les différents rôles souhaités par l'auteur dans la publication. Nous appelons le résultat de cette étape le discours intentionnel.

L'instanciation de ce discours intentionnel en discours concret correspond au passage d'une structure logique à une première proposition de mise en ordre effective des ressources disponibles.

Figure 1. Du discours intentionel au discours concret

Organisation temporelle

Alors que le discours intentionnel est potentiel, un plan souhaité par l'auteur, le discours concret est une ébauche prévisualisable d'organisation temporelle et interactive des ressources. Des règles de transformation pour la mise en forme sont déclenchées par les relations du graphe intentionnel. En fonction du modèle de publication sélectionné, les règles appliquées peuvent varier et proposer ainsi une progression différente. Dans la figure 1, la déclaration du modèle de genre précise plusieurs contraintes, notamment :

- Proposer une progression discursive basée sur une approche inductive : Un extrait comme exemple puis une explication pour un propos plus général.
- Effectuer un montage compact via une superposition éventuelle d'éléments
- Ne jamais superposer la consultation de deux vidéos, ni de deux textes
- Les digressions se traduisent par des liens externes
- Une légende se positionne temporellement, une fois les autres éléments placés, dans les intervalles laissés disponibles.
- Chaque texte doit s'afficher pendant un minimum de temps, etc.

En fonction des différentes librairies de règles mobilisées par le genre, un même agencement logique peut donner lieu à plusieurs organisations très diverses. Ainsi, la figure 2 propose, à partir de trois éléments organisés logiquement, des mises en forme différentes, jouant sur la simultanéité ou non de la lecture et de l'enchainement temporel des éléments.

La déclaration du modèle de genre contient des règles de transformation qui associent à chaque système de relations (explique, analyse, contextualise...) une structure temporelle exprimable en logique de Allen (Allen, 1983), en fonction de la nature des ressources. Les relations posées par l'auteur dans la structure intentionnelle et le modèle de genre sélectionné permettent la production d'une proposition de montage des ressources.

Figure 2. Un même modèle logique, des mises en discours effectives différentes

Ajustement et mise en forme

Nos règles de transformation permettent de produire une ébauche de publication. A partir celle-ci, l'auteur peut prévisualiser un premier résultat et ajuster le montage résultant. Ces ajustements concernent la mise en forme finale du propos pour des publications audiovisuelles et multimédia, mise en forme qui touche non seulement la dimension graphique, mais également les dimensions temporelles et interactives. Il est important de noter que les modifications d'ordre structurel (« telle partie devrait être présente plus tôt ») ou argumentative (« il manque une explication ») ne doivent pas être effectuées à ce niveau, mais dans l'espace logique d'organisation. Ce type de modification n'est pas du ressort de la simple mise en forme mais dépend de choix argumentatifs et discursifs. En changeant simplement la sémantique d'une relation entre deux éléments, l'auteur produira un agencement physique différent, du simple fait de l'application des règles. Les formats de publication retenus sont actuellement le SMIL[18] pour la dimension multimédia, et le formalisme XTL[19] pour le montage physique de vidéos.

Nous avons volontairement simplifié l'exemple traité (ressources présélectionnées, règles d'agencement élémentaires...) afin de présenter globalement les deux étapes principales de notre processus. Nous allons maintenant généraliser l'approche en introduisant la possibilité d'effectuer une sélection des ressources, corrélée aux aspects thématiques, ainsi qu'aux dimensions spécifiques de l'indexation.

Généralisation de l'approche

Dans l'exemple précédent, les règles de transformation n'opéraient que sur des éléments thématiques sélectionnés au préalable et non pas sur la sélection elle-même des ressources. Dans le cas de projets mobilisant de volumineux corpus audiovisuels, il est nécessaire d'élargir l'espace logique pour que l'organisation intentionnelle prenne en compte la sélection des ressources (« j'aimerai que mon discours parle de telle thématique de telle manière »). Le système de règles doit donc effectuer au préalable une recherche et une sélection thématiques, puis appliquer aux candidats pertinents les mécanismes de transformation présentés précédemment. La sélection porte alors, non seulement sur la composante thématique, mais également sur les différents descripteurs utilisés par l'indexation.

Dans le cadre du projet SAPHIR[20], le corpus d'étude est constitué de reportages de journaux télévisés traitant de la crise politique du CPE. Notre approche vise à produire des synthèses audiovisuelles par recombinaison d'éléments (un extrait de la bande sonore illustré par différents extraits vidéo). La phase d'indexation est alors beaucoup plus riche, permettant de distinguer entre les significations portées par la couche sonore (« ce dont on parle »), et celles de la couche visuelle (« ce qui est montré »), ainsi que les principaux rôles propres au genre. Dans ces cas, nos règles de sélection et de transformation opèrent sur les différents niveaux de description, permettant de satisfaire des requêtes telles que la recherche d'au « moins trois d'extrait visuels devant illustrer ce qui est dit dans la bande sonore ». Des règles d'évaluation traitant de la forme (cadrage, taille des plans) permettent ensuite d'évaluer la pertinence des candidats et de proposer un montage répondant aux principales contraintes du modèle.

Nous ne détaillerons pas ici les technologies utilisées dans le projet SAPHIR, précisons seulement que l'environnement général est développé sous Eclipse, que les mécanismes d'annotations et de requêtes thématiques sont basées sur les graphes conceptuels (Chein et al., 1992) et enfin que les mécanismes de transformations sont basées sur l'environnement SYGXML (Nanard et al., 2006).

Conclusion

L'objectif de cet article était de présenter l'instrumentation d'un processus d'assistance à la création de documents audiovisuels et multimédias. En distinguant la phase d'élaboration logique de la phase de sélection et de montage des ressources, et en leur attribuant respectivement un espace propre, nous permettons aux auteurs de se concentrer sur leur savoir-faire. Ces deux phases distinctes nécessitent des interfaces appropriées. L'auteur doit pouvoir agir à tout moment du processus sur l'un et l'autre des espaces d'écriture, en affinant son organisation argumentative dans l'espace logique, en matérialisant et précisant des mises en forme dans l'espace temporel. Les différents mécanismes de règles de sélection et de transformation assurent alors l'articulation entre les structures de ces deux espaces.

Références

[Allen, 1983] Allen, J.F., « Maintaning knowledge about temporal intervals », Com. ACM, 1983, p 832-883.
En ligne : [1]  (consulté le 22 mars 2012)

[Aristote, 1967] Aristote, « Rhétorique », trad. M. Dufour, Les Belles Lettres, Paris, 1967.

[Aubert, 2005] Aubert, O. et Prié, Y., « Advene: active reading through hypervideo », ACM Hypertext'05, Sep 2005.
En ligne : http://liris.cnrs.fr/advene/doc/acm_ht05-advene.pdf  (consulté le 22 mars 2012)

[Bachimont, 2004] Bachimont, B. et Crozat, S., « Instrumentation numérique des documents : pour une séparation fonds/forme », Revue I3 vol 4, num 1, pp:95-104. 05 juillet 2004.
En ligne : http://www.utc.fr/~bachimon/Publications_attachments/BachimontRI32004.pdf  (consulté le 22 mars 2012)

[Bocconi, 2005] Bocconi, S., Nack, F. et Hardman, L., « Supporting the generation of argument structure within video sequences », ACM Hypertext’05, pages 75–84, New York, NY, USA, 2005.
En ligne : http://dl.acm.org/citation.cfm?id=1083371  (consulté le 22 mars 2012)

[Carruthers, 2002] Carruthers, M., « Le livre de la mémoire », 2002. Macula.

[Chamming's, 2003] Chamming's, L., « Pour une description sémiotique de l'audiovisuel ». Actes "sémiologie 2003". Paris, Novembre 2003.

[Chein, 1992] Chein, M. et Mugnier, M.L., « Conceptual Graphs: Fundamental Notions, Revue d'Intelligence Artificielle », Revue d'Intelligence Artificielle, volume 6-4, pages 365-406, 1992.

[Esposito, 2005] Esposito, N., « Osmose : un logiciel libre de présentation multimédia basé sur une nouvelle approche », Journée du libre 2005.

[Falkovych, 2004] Falkovych, K., Nack, F., Van Ossenbruggen, J. et Rutledge, L., « Sample: Towards a framework for system-supported multimedia authoring », in 10th International Multimedia Modeling Conference (MMM 2004), January 2004, Brisbane, Australia.
En ligne : http://staff.science.uva.nl/~nack/papers/falkovych-nack-ossen-rutledge-04.pdf  (consulté le 22 mars 2012)

[Gaillard, 2007] Gaillard, L., Nanard, J., Bachimont, B. et Chamming's, L., « Intentions based authoring process », SADPI 2007 proceedings, to appear in ACM DL, ISBN 978-1-15159-668-4.
En ligne : http://hal-lirmm.ccsd.cnrs.fr/lirmm-00138194/en/  (consulté le 22 mars 2012)

[Geurts, 2004] Geurts, J., Bocconi, S., Van Ossenbruggen, J. et Hardman, L., « Towards ontology-driven discourse: From semantic graphs to multimedia presentations », in Proceedings of the 10th International Multimedia Semantic Web Conference, p.362, January 5-7, 2004.
En ligne : http://homepages.cwi.nl/~media/publications/iswc2003.pdf  (consulté le 22 mars 2012)

[Mann, 1988] Mann, W.C. et Thompson, S.A., « Rhetorical structure theory: towards a functional theory of text organization ». Text 8 (3) (1988), 243-281.
En ligne : http://www.sfu.ca/rst/pdfs/Mann_Thompson_1987.pdf  (consulté le 22 mars 2012)

[Nanard, 2006] Nanard, M., Nanard. J., Chauché, J. et King, P.R., « A structural computing approach to the production of multimedia document series », New Review on Hypermedia and Multimedia, Vol. 12 (2), 2006, 165-190.
En ligne : http://hal-lirmm.ccsd.cnrs.fr/lirmm-00123964/en/  (consulté le 22 mars 2012)

Notes