CIDE (2004) Enjalbert : Différence entre versions

Version actuelle datée du 30 décembre 2016 à 23:10

Actualité d’une approche sémantique du document électronique

titre

Actualité d’une approche sémantique du document électronique

auteurs

Patrice Enjalbert⁽¹⁾ et Mauro Gaio⁽²⁾

Patrice.Enjalbert@info.unicaen.fr

Mauro.Gaio@univ-pau.fr

Affiliations: (1) GREYC, Université de Caen, Campus II, Bd du Mal Juin, 14032 Caen Cedex - France; (2) LIUPPA, Université de Pau et des Pays de l'Adour, Avenue de l'Université, BP 1155, 64013 Pau Cedex - France
In: CIDE'07 (La Rochelle 2004)
Mots-clés: sémantique, document numérique, méthodologie.
PDF accessible: Via l'ensemble des actes : doc:actes/Actes-Cide7.pdf

Sommaire

1 Introduction
2 Objectifs
- 2.1 Organisation et description de corpus documentaires
- 2.2 Analyse du « contenu » des documents
3 Références bibliographiques
4 Notes

Résumé: Nous tentons dans cet article, à partir d’une analyse des contributions à CIDE 7 au sein d’un ensemble plus vaste de recherches actuelles, de cerner ce que peut être une approche sémantique du document numérique, d’en discerner les caractéristiques et les lignes de force. Nous distinguons ce qui relève des objectifs et des méthodes, pour nous interroger sur ce qui fonde l’unité de ces travaux sous le signe du « sémantique ».

La suite de cette page est un simple copier/coller à partir d'un support tel que PDF ou Word.

Il a été laissé en ligne dans l'état pour permettre une sélection de type « full text » par le moteur de recherche du wiki.

Sa présence permet également d'améliorer la cohérence sémantique du wiki. Nous avons donc préconisé une approche opportuniste où les améliorations et finitions sont réalisées en fonction des besoins des utilisateurs de ce wiki.

Toute contribution pour améliorer la présentation est bienvenue.

Abstract: In this paper, we try to synthesise the various contributions to CIDE 7 among a wider range of current research, in order to determine what a semantic approach of numerical document can be, and draw out the main trends and characteristics. We dis tinguish objectives and methods, questioning on what « semantic » ground the unity of these works can rely. Key-words: semantics, numeric al document, methodology. 13 Actualité d’une approche sémantique du document numérique

Introduction

La décision de proposer le thème des « approches sémantiques » pour la septième occurrence de CIDE est liée à l’observation et à une analyse de certaines tendances actuelles de la recherche concernant les documents numériques.

Une première constatation, assez répandue, touche aux limites qui paraissent atteintes par les techniques « standard » de recherche documentaire. Celles-ci sont, on le sait et pour faire bref, basées sur des analyses de type statistiques de formes directement « perceptibles » par un programme: les mots (ou graphies) qui constituent un texte. A ces techniques on souhaiterait opposer des méthodes traitant véritablement du « contenu » des documents, même et bien sûr, appréhendé de manière très partielle pour des raisons d’efficacité. Le gain attendu est à la fois en termes de rappel (plusieurs mots peuvent tomber sous le même concept objet de la recherche), de richesse de l’interrogation (dépasser la combinaison booléenne d’indicateurs), mais aussi d’appréhension par l’utilisateur des résultats de sa requête.

Une autre version, peut-être moins « radicale », serait de poser le problème en termes d’échelle du corpus documentaire ciblé: au « tout venant » des méthodes à base d’analyse de données, au prix d’une « finesse sémantique » moins grande — des méthodes plus riches, atteignant le « sens » de manière plus profonde, pouvant et devant être développées pour des espaces thématiques plus restreints et des tâches plus spécifiques.

Liée à cette première préoccupation est la volonté de décrire, de structurer des corpus documentaires, selon des espaces de connaissances — souvent baptisées ontologies — de référence. Cette structuration étant réalisée « à la main » au cours de la constitution du corpus, ou bénéficiant de traitements de contenu des documents comme évoqué plus loin. Il s’agit de présenter à l’utilisateur « l’espace documentaire » selon des concepts qui lui sont a priori familiers, qui « font sens » pour lui. On reconnaîtra ici le projet du « Web Sémantique », qui concerne d’ailleurs l’accès à des objets plus généraux que des documents (du moins dans une acception usuelle) tels que des services de toute nature.

La troisième observation est celle d’un essor et de succès remarquables, de procédures de traitement du contenu « à grande échelle ». Certes, il s’agit de traitements relativement limités, mais certains résultats nous semblent tout à fait impressionnants. Le cas d’école en la matière est constitué par la technologie dite de « l’extraction d’information ». Nous reviendrons plus loin sur cette technologie, mais rappelons ici qu’il s’agit de remplir, à partir de textes courts et ciblés (tels que des dépêches d’agence) des « fiches » collationnant les informations factuelles principales. Les meilleurs systèmes sont parvenus à une qualité de l’ordre de 80 % par rapport aux performances humaines avec des temps de développement qui deviennent proches de l’industriellement acceptable. On peut montrer que les méthodes développées dans ce cadre ont des retombées et des prolongements très important en termes de recherche d’information « par le contenu » comme évoqué plus haut. Une autre remarque cruciale est que ces techniques d’analyse sémantique limitée de documents textuels ont leur exact pendant dans d’autres modalités, qu’il s’agisse d’images fixes, de vidéo ou de documents sonores, notamment musicaux. L’idée d’un accès au « sens », à « l’information elle-même » (encore une fois, fut-ce de manière partielle) au delà des formes directement perceptibles, semble ainsi s’imposer comme une direction de recherche crédible « en vraie grandeur ».

Complétons encore par deux autres observations, que nous développerons moins ici, mais d’importance. La première concerne plus les « traitements humains » que les « traitements machine ». Elle concerne les usages spécifiques suscités par la forme numérique du document: c’est par exemple l’idée de la navigation dans de vastes ensembles de documents, qui conduit à de nouvelles stratégies d’appropriation, de « construction du sens ». Ce qu’il convient d’étudier à la fois en tant que procédure cognitive nouvelle (donc informative sur la cognition en tant que telle) et pour en tirer des indications sur la bonne manière d’organiser la navigation et structurer les espaces documentaires. L’ultime remarque concerne l’impact de la disponibilité de corpus numériques, et des procédures documentaires qui les accompagnent, pour des études en sémantique On touche-là à certains aspects d’une « linguistique de corpus » dont l’actualité n’est plus à démontrer. On peut supposer – mais les auteurs sont moins informés sur ce point – que ce type de démarche se développe ou peut se développer aussi par rapport à d’autres média, en terme d’analyse de « documents », artistiques par exemple.

Si l’on partage peu ou prou ces constats, il devient à coup sûr scientifiquement pertinent parler d’approches sémantiques du document numérique et de chercher à confronter et mieux asseoir des démarches de ce type. Tel a été l’objectif de CIDE 7. L’appel (dont les grandes lignes sont reprises dans la préface) a été volontairement très ouvert, de manière à permettre le plus large « balisage », avec le moins d’a priori possible, de ce nouveau champ.

Nous voudrions maintenant, en nous appuyant fortement sur ces différentes contributions^[1], tenter de préciser ce qui nous paraît être quelques orientations de recherche pertinentes et prometteuses, et esquisser une cartographie possible du champ de recherche. Classiquement, nous commencerons par la question des objectifs, des tâches,visés, avant de nous intéresser aux méthodes pour les atteindre ou réaliser. Nous pourrons alors poser et discuter la question de l’unité de travaux ainsi rassemblés, et somme toutes assez divers, sous le signe de la sémantique.

Objectifs

Nous allons donc examiner ici des objectifs de recherche – en relation avec le document numérique – que l’on peut, à notre sens, et à un titre ou un autre, qualifier de sémantiques. Cette qualification est à l’évidence problématique si l’on considère la diversité des objectifs en question. Aussi tenterons-nous, en même temps qu’une description de fait, d’interroger le terme même de « sémantique ». En accord avec l’esprit d’ouverture de l’appel à communication rappelé plus haut, nous prendrons au sérieux la « revendication » par les auteurs d’une telle qualification de leurs travaux, la considérant comme une bonne heuristique dans notre réflexion. Il nous semble pouvoir mettre en évidence trois champs d’étude (ou trois facettes du même champ) que nous allons examiner succinctement. Il ne s’agit évidemment pas d’une « nomenclature » figée et complète. Mais quelques lignes de force, au moins à titre d’hypothèse, nous semblent se dégager.

Organisation et description de corpus documentaires

L’optique est ici essentiellement macroscopique. Il s’agit de considérer les collections documentaires et leur organisation et description en vue d’un usage donné: on retrouve là la problématique de l’indexation en recherche documentaire (RD) « traditionnelle », mais aussi la structuration hypertextuelle ou toute autre structuration propre à « navigation » dans les bases documentaires, l’organisation spécifique de documentations techniques ou de corpus artistiques (musicaux par exemple), etc.

Quelle peut être la caractérisation d’une approche sémantique de la question ? Nous proposons l’idée suivante: la mise en évidence d’un certain espace de « valeurs », « notions », « concepts » (selon les points de vue ou les a priori théoriques) stabilisé et doté d’une organisation propre?, auquel les documents sont rapportés, et qui peut « faire sens » (pour parler intuitivement) pour l’usager. Plusieurs articles de la conférence peuvent se discuter sous cet angle. Dans (Crestan et al.)^[2] deux espaces sont envisagés (dans une finalité de RD classique): lepremier est structuré en « environ 800 dimensions » correspondant à des « concepts » représentés par des « sacs de mots », et censés permettre de repérer tout mot de la langue française ; le second est constitué d’entités nommées (personnes, lieux, dates...) dont il faut bien voir que ce sont en effet des entités concrètes (par nature typées), différentes de leurs réalisations langagières, qui peuvent être multiples. (Bénel) s’intéresse spécifiquement aux documents archéologiques, et à l’annotation de segments documentaires, permettant une indexation et un « arpentage » des collections, dans l’optique « d’offrir (...) des assistants à la construction du sens dans les bibliothèques numériques ». La référence à un corps de connaissances archéologiques est extrêmement nette, l’un des points traités étant la gestion de points vue divers selon les experts.(Bonardi et Rousseau) étudient l’indexation d’œuvres musicales: ils montrent comment les collections de CD sont actuellement rangés selon des critères fixes de genre, auteur etc., critiquent cette pratique et prônent une approche centrée sur des notions de prototype et de similarité: on voit donc là un débat entre deux modes d’indexation, un traditionnel qui serait sans doute celui des « ontologies » et un mode original, d’inspiration cognitive (prototype). Il faudrait encore mentionner le travail de (Besson et al.) sur les bases d’image mais nous y reviendrons plus loin.

Les contributions de (Charlet et al.) et (Cerbah) proposent un regard un peu différent. La première présente une méthode de constitution semi-automatique d’un index d’ouvrage scientifique: pour être bref, disons qu’il s’agit d’une application de procédures d’acquisition de terminologie. Elle nous paraît bien relever du cadre proposé plus haut, dans la mesure où les auteurs la positionnent (entre autres) en terme d’ingénierie des connaissances: il s’agirait en quelque sorte de faire émerger et d’acquérir le corps de connaissances terminologiques, auquel l’ouvrage pourra alors être « rapporté ».(Cerbah) s’inscrit dans « une approche structurée de la documentation technique », conduisant à « fragmenter tout fonds documentaire en unités autonomes au contenu clairement spécifié » mises en relation par des hyperliens. Son insistance sur la nécessité d’une « interprétation plus ou moins profonde du contenu textuel balisé » (pour être mis en hypertexte) nous paraît de nouveau adéquate avec l’exigence mise en avant dans notre proposition d’une identification claire, en termes de domaine de connaissance (ici: un domaine technique), de l’espace de repérage.

Bien évidemment, la problématique que nous décrivons est aussi au cœur du dit « web sémantique » et de ses fameuses « ontologies ». Quelques remarques pour conclure ce premier aspect. D’abord pour souligner que la question de cette « indexation sémantique » peut être abordée de manière indépendante de celle des traitements: quels sont les bons principes et modes de description/structuration ? L’indexation elle-même pouvant être réalisée « à la main » comme dans (Bénel) ou dans beaucoup de travaux du web sémantique. Par contre on peut aussi s’interroger sur la manière d’indexer automatiquement (ou semi-automatiquement) les documents une fois le mode d’organisation choisi, ce qui nous conduit inévitablement au problème des traitements « sémantiques » (ou « du contenu » etc.) des documents. Enfin, notons que la question se pose quel que soit le média.

Analyse du « contenu » des documents

Nous pourrons partir ici de la technologie dite de l’Extraction d’Information (EI) (Poibeau, 2003), évoquée plus haut comme emblématique de progrès récents en « analyse de contenu ». Il ne sera sans doute pas évident pour tout le monde de l’appréhender dans son caractère sémantique. Beaucoup d’auteurs, peut-être la majorité, y voient une question « technologique » relativement neutre, concernant par exemple l’utilisation d’automates (ou transducteurs) pour reconnaître les « motifs » ou « patrons » textuels porteurs de l’information à extraire, et de méthodes d’apprentissage pour acquérir ces motifs. Et lorsque des considérations linguistiques sont invoquées, c’est bien souvent sous l’angle de l’analyse syntaxique,dite en l’occurrence « légère » (« shallow parsing »). Pourtant il est facile de montrer la filiation avec les projets de « compréhension automatique » développés en Intelligence Artificielle dans les années 1980, dans une mutuelle fécondation avec d’autres traditions d’ingénierie linguistique et documentaire. Or qui dit « compréhension », automatique ou non, dit évidemment « sémantique ». Le fait qu’elle soit en EI partielle, limitée orientée, ciblée ... n’y change rien ^[3]

Nous n’insisterons pas d’avantage ici sur cette technologie, non représentée en tant que telle dans CIDE 7. Mais nous pensons qu’elle a constitué une véritable rupture dans l’histoire des traitements automatiques du « contenu » textuel et constitue à ce titre un repère méthodologique majeur. Par ailleurs, nous esquissons dans (Dupont, 2002) quelques pistes pour des travaux en sémantique linguistique, susceptibles de repousser certaines « limites» des systèmes actuels.

A priori, l’EI constitue une tâche disjointe de la Recherche Documentaire ou Recherche d’Information (RI) traditionnelle: dans le modèle « de base », des techniques de RD sont mises en œuvre en amont d’un système d’EI, pour extraire d’un flux textuel les documents qui, de par leur thématique, sont susceptibles d’être traités. En fait la situation est aujourd’hui beaucoup plus riche et complexe, et la recherche a largement évolué vers un croisement entre méthodes d’EI d’une part, et tâches et techniques(éventuellement requalifiées) de RD/RI de l’autre. De nombreux exemples en témoignent, caractérisés par: 1) des requêtes « structurées », dépassent le traditionnel assemblage de mots ; et 2) une recherche de « motifs » textuels (comme en EI) susceptibles de les « matcher » en un sens ou un autre.

Exemple: « Trouvez les documents (ou segments documentaires) concernant les transactions financières en Europe d'un montant supérieur à 1 MEuro » (Ciravegna, 1999) ou « le retard scolaire dans l ’Ouest dans les années 1980 / la sécurité maritime dans la Manche » (Bilhaut, 2003).

Le représentant le plus avancé de cette tendance est la technologie dite des systèmes de Question/Réponse (« Question Answering »), dans lequel il s’agit de répondre automatiquement à des questions telles que : « Qui est l’auteur du "Dernier tango à Paris", Quels autres films a-t-il réalisé récemment ? », ou (dans un manuel Unix) : « Comment fait-on pour changer les droits d’accès? Que fait la commande "tar" ». On trouvera sur les sites de TREC de nombreuses références sur cette nouvelle problématique de recherche (Voorhees, 2001). Avec des objectifs plus classiques, deux articles de CIDE 7 proposent des analyses de contenu au service de tâches de type RD, (Crestan) déjà mentionné et (Hurault-Plantet). (Valette) pose une question un peu différente : le problème est d’identifier les sites web racistes. L’auteur y montre qu’une analyse de contenu assez fine et débarrassée de beaucoup d’a priori communs est nécessaire : prise en compte de la mise en forme visible au delà du lexique lui-même (le rouge et les majuscules sont de bons indicateurs de sites racistes), importance du contexte (les termes a priori racistes/non racistes s’échangent de manière étonnante), importance du « genre » (ici : pages web), etc.

Nous abordons maintenant une question très intéressante, et représentée significativement dans CIDE 7, à savoir un parallèle frappant entre ces problématiques textuelles et des travaux qui se développent pour des documents relevant d’autres média : image, vidéo, son. La question de l’accès à des bases d’images à travers non des légendes ou autres descriptifs (ou pas seulement), mais grâce à une analyse des images elles-mêmes, apparaît aujourd’hui comme une nécessité, posant d’ailleurs des problèmes scientifiques et techniques difficiles. Il en est de même pour la vidéo et le son.

Dans cette problématique de l’accès au contenu, si la tendance majeure est sans doute aujourd’hui d’identifier ce « contenu » à des traits, des descripteurs, disons « physiques » (dominances de couleur, de textures, spectres de fréquences...) une tendance se développe qui se positionnera par exemple en termes d’ interprétation d’image. Autrement dit, une tendance que l’on peut effectivement qualifier de sémantique. Nous nous référerons ici à deux contributions de CIDE 7.

Les travaux de (Besson et al.) concernent la constitution de bases d’images, et se positionnent d’emblée dans une démarche intégrant cette dimension sémantique. Les auteurs discutent explicitement ce qui peut opposer des approches « syntaxiques » et « sémantiques ». Les premières correspondent précisément pour eux à l’extraction de paramètres physiques,tandis que les secondes « consistent à réduire l’image à un ensemble d’objets sémantiques (identifiés par leur signification dans le monde réel) reliés éventuellement par des relations sémantiques (qui correspondent à une interprétation de l’image comme reproduction du monde réel) ». On peut discuter la référence au « monde réel » comme critère de « sémanticité », ^[4] mais le contraste avec les « paramètres physiques » n’en est que plus patent.

Notre seconde référence sera pour les travaux de Hugues Vinet (Vinet). Nous nous référerons ici particulièrement au projet CUIDADO (Vinet, 2002) visant à développer un système de « Navigation dans des bases de données musicales ». Il s’agit en fait d’un projet très riche, mais dont un des aspects sera de pouvoir répondre (par une sélection d’œuvres) à des requêtes du type : « Je veux des morceaux à tempo rapide, de type Rock / des morceaux proches de ceux-ci / constituer un programme de tempo de plus en plus rapide, avec plus de 60 % de vocal féminin ». Cela est réalisé par une combinaison / enchaînement de modèles et de traitements : traitement du signal, modèles perceptifs, symboliques, cognitifs, modèles de description de contenu...

Les dernières « couches » intègrent donc, comme on le voit sur l’exemple, un véritable niveau symbolique, relevant de connaissances musicales élaborées allant jusqu’à une notion de genre musical (ici, le Rock). L’examen détaillé du modèle en couches proposé fait apparaître un parallèle saisissant avec les tâches et niveaux d’analyse en langue.

Finalement, revenant aux documents textuels, nous voudrions relever dans cette rubrique une série d’autres travaux non réductibles à des tâches d’EI/RI, mais impliquant une authentique analyse de contenu. Il s’agit de travaux qui se situent plus dans une perspective théorique (linguistique en l’occurrence) qu’applicative, que l’on peut rapidement situer comme « analyse textuelle ». Ici, c’est plutôt les technologies du document numérique qui sont mises à contribution pour un travail de sémantique linguistique plutôt que l’inverse. Cette tendance est représentée dans

4 Cf. infra section 4. Nous dirions que la référence à des « objets et relations » issus d’un domaine d’expérience et de connaissances nous situent bien dans le cadre proposé en 2.1. CIDE 7 par (Lessard et al.) et (Leblanc).

Le premier s’intéresse à la détection d’une forme particulière, mais récurrente, de structuration du discours narratif : les « topoï narratifs » qui évoquent en quelque sorte, dans des contextes très divers, des scénarios plus ou moins stéréotypés. Le second étudie les occurrences du « je présidentiel » dans les discours de vœux de bonne année, et cette étude est précisément l’occasion de réflexions méthodologiques sur l’utilisation des techniques d’analyses de cooccurrences dans une perspective herméneutique.

2.3 Segmentation et structuration de documents

Ce troisième aspect est plus délicat à cerner, mais clairement présent dans CIDE 7. Deux articles sont particulièrement typiques : (Cerbah) déjà cité, et (Smolczewska, Lallich-Boidin). Ce dernier se présente comme cherchant « à définir un modèle de structuration et d’enrichissement de l’information technique qui constituera la base de la construction d’une représentation du contenu du document technique à partir de son texte intégral (...) résultat de plusieurs étapes intermédiaires telles que :

1. La segmentation du document en unités d’information autonomes ;
2. La caractérisation du contenu de chaque unité ;
3. Le filtrage des unités pertinentes par rapport aux unités non pertinentes pour l’utilisateur ;
4. La construction de liens entre les unités exprimant des parcours de lecture

possibles. »

Les second et troisième points nous renvoient aux deux aspects précédemment discutés. Ce qui est nouveau ici sont l’importance attachée aux opérations de segmentation et de mise en relation hypertextuelle des segments ainsi délimités. Cela nous paraît à peu de chose près la même problématique et les mêmes objectifs que ceux de (Cerbah), avec également en vue le document technique (mais avec des méthodes différentes).

Tout se passe comme si une certaine structuration du texte, en terme de segments interreliés, était une composante à part entière de la « perception sémantique » d’un document par un lecteur. Cette perception étant révélée par les parcours de lecture.Les dispositifs proposés par ces auteurs tentent alors de repérer automatiquement cette structure pour aider le lecteur dans sa découverte. En fait, il nous semble que cette démarche est aussi un des aspects du travail de (Charlet et al.), puisque les index pointent sur le texte (structuration), renvoyant à des segments dont la définition, « l’empan », (segmentation) est considéré par les auteurs comme une tâche importante et difficile : « la difficulté étant de sélectionner les [occurrences d’un terme] les plus pertinentes et de définir la taille de l’empan de texte auquel il est pertinent de renvoyer ». On pourrait aussi voir dans un domaine non représenté dans CIDE 7, le résumé automatique, une occurrence de l’approche « structurelle ». Nous pensons ici particulièrement au résumé « par extraction », dans lequel il s’agit de repérer des segments de texte pertinents pour constituer un résumé — et tout en gardant un lien sur le document original, dans une perspective de navigation intra-documentaire (Minel, 2003). Est-ce là une question et une approche « sémantique » ? Nous y reviendrons dans la quatrième partie.

Finalement il nous semble que cette préoccupation « structurelle » est aussi au cœur d’un article très différent, à savoir (Boukottaya, Vanoirbeek). L’article pose le problème de correspondances entre XML-schémas, de manière à « échanger des données XML entre applications Web autonomes et hétérogènes ». Ce qui est ici significatif de notre propos est la fonction sémantique de la structurationmême, qui nous semble exprimée par les auteurs, lorsqu’elles parlent « d’information sémantique nichée dans la structure du document »

(« semantic informationnested within the document structure »). « La sémantique est d’abord capturée à travers l’explicitation de la signification du nom des éléments, et ensuite à travers l’analyse du point de vue du concepteur du XML-schéma, exprimée par l’organisation logique du contenu XML (...) ».

3.Méthodes

La question que nous posons maintenant est la suivante : Y a-t-il des méthodes spécifiques d’une approche sémantique ? Et/ou des regards particuliers sur des méthodes « plus générales » ? Ici, plus que jamais, la réflexion est prospective, l’enjeu étant de réfléchir sans a priori aux moyens à mettre en œuvre pour réaliser des objectifs tels que présentés ci-dessus. Nous distinguerons trois « types » de méthodes, en remarquant d’emblée que les applications les combinent en général.

3.1 Méthodes sémiotiques propres aux différents médias

C’est évidemment la première caractéristique possible d’une approche sémantique. Rappelons que le terme « sémiotique » désigne l’étude des divers systèmes de signes, quels qu’ils soient : ici donc le texte, l’image, la vidéo, le document sonore, et sans oublier la dimension « hyperdocument ». Une « approche sémantique » va donc souvent se référer à une connaissance relativement élaborée du « fonctionnement » de ces différents « mode sémiotiques ».

Un certain nombre de travaux de CIDE 7 déjà mentionnés entrent dans cette « rubrique » : (Besson et al.) mettent en œuvre des méthodes d’analyse et d’interprétation d’image : (Vinet) développe un modèle sémiotique complet du document musical ; (Cerbah), (Smolczewska,Lallich-Boidin), (Charlet), (Crestan et al. ) réfèrent à des modèles linguistiques, avec une composante sémantique forte, du lexique (Cerbah) au discours (Smolczewska, Lallich-Boidin), (Lessard et al.). Nous avons déjà eu l’occasion (section 2.2) d’insister sur la dimension sémantique de

l’Extraction d’Information et de mentionner nos propres recherches pour développer des méthodes en rapport — au delà d’ailleurs de l’EI stricto sensu, jusqu’à des applications en Recherche d’Information et en structuration de documents composites.

D’autres auteurs font une référence peut-être encore plus explicite à une théorie sémantique particulière. C’est le cas de (Valette) avec la sémantique différentielle de François Rastier, qui trouve là une application particulièrement originale et stimulante au « web », débouchant sur une approche non triviale — en gros « anti-ontologique », et intégrant des facettes variées, non exclusivement linguistiques au sens usuel du terme. (Perlerin, Ferrari) se réfère également à la sémantique différentielle avec une application à la détection des métaphores et un prolongement plus large sur la conception d’outils d’exploration de textes. Enfin (Dutoit et al.) proposent une réflexion personnelle très « amont » sur le thème « forme et sens », autour des applications industrielles développées par ces auteurs en ingénierie linguistique.Toutes ces tentatives illustrent une voie de recherche qui nous semble fondamentale, et susceptible (à plus ou moins long terme, il est vrai) de contribuer significativement à repousser certaines limites de l’ingénierie documentaire évoquées en introduction.

3.2 Ingénierie des connaissances

Ce second aspect a en fait déjà été introduit dans le « schéma » proposé en section 2.1. Il est aussi, à l’évidence, porté par la communauté du « Web Sémantique » et ses « ontologies » et autres formats de description de contenu (RDF, Topic maps etc.). Toute personne familière avec l’IA reconnaît dans ces formats des avatars de formalismes de représentation des connaissances développés dans les années 80 — avec une tentative d’application « en vraie grandeur » particulièrement réjouissante.

Il s’agit donc ici d’insister sur la nécessaire prise en considération du facteur « ingénierie des connaissances » dans une approche sémantique du document. Cette conception va à l’encontre de bien des idées reçues et de bien des pratiques courantes. L’idée communément admise est effet plutôt que seuls des « traitements de surface », « de la forme » sont possible, pour une double raison de temps de développement et de temps de calcul.

Il y aurait à s’interroger sur la prégnance de cet a priori méthodologique. Tradition de la RD ? Méconnaissance des acquis de l’ingénierie des connaissances, en termes de méthodes et d’outils ? Tradition linguistique volontiers formaliste (le « primat de la syntaxe ») ? On pourrait engager un débat salutaire... Mais il nous semble que l’histoire est en train de trancher. Le « Web sémantique » gèrera des connaissances ou ne sera pas. Les combinaisons Ingénierie des connaissances /

Ingénierie linguistique sont devenues une réalité solide (voir par exemple tout ce qui touche à l’extraction de terminologie) (Charlet, 2000). L’EI a de longue date bien mis en évidence, et les besoins impératifs en ingénierie des connaissances, et la possibilité de développer des méthodes « légères » (« shallow knowledge ») appropriées (Piacenza, 1997).

3.3 Méthodes de structuration du document

La dernière « facette » considérée ici concerne la structuration du document. Il s’agit donc au départ de méthodes on ne peut plus « généralistes » et « ingénieuriales », mais qui trouvent ici des applications et, peut-être, un « regard » particuliers. On pense ici typiquement aux technologies XML et hypermédia. En fait, presque tous les articles de CIDE 7 utilisent les premières, et beaucoup les secondes (dans le but de faciliter la navigation ou autre « arpentage » de bases documentaires). Aux articles déjà cités ajoutons (Blanchon, Boitet), dans le domaine de la traduction automatique interactive. Le système proposé enrichit le texte par des annotations portant sur les segments reconnus comme ambigus par le logiciel de traduction. Ces annotations sont en quelque sorte dynamiques, et ouvrent une boîte de dialogue permettant à l’utilisateur de choisir parmi plusieurs traductions proposées. Cette contribution nous paraît significative d’une idée somme toute assez simple, mais peut-être fructueuse : l’enrichissement du texte apportant des nouveaux « éléments de sens » et susceptible d’aider le lecteur à sa propre « interprétation ». Et insistons encore, sur (Boukottaya, Vanoirbeek) qui, on l’a vu, proposent une appréhension proprement sémantique d’XML lui-même, à travers la notion de matching / correspondance de XML schemas. Se dessine ainsi, pensons-nous, un domaine à explorer : quels outils de structuration / annotation développer à l’appui d’approches sémantique ? Et comment, en retour, donner une assise sémantique à ces outils ?

4.Conclusion : qu’est-ce qu’une « approche sémantique » du document numérique ?

Le parcours que nous venons d’opérer, autour des contributions à CIDE 7, d’un ensemble de travaux actuels qualifiables de « sémantiques » à un titre ou un autre laisse apparaître une belle variété d’objectifs et de méthodes. La question se pose alors de l’unité de ces problématiques. Par ailleurs, il semble évident que cette diversité questionne la notion même de sémantique. Le sujet est trop ancien et parcouru de courants philosophiques, linguistiques, sémiologiques... trop divers pour espérer proposer une réponse « claire et définitive » ! Pour autant il nous paraît tout à fait pertinent de nous poser la question du « fait sémantique » en regard des nouvelles pratiques à l’œuvre dans le document numérique : à la fois pour éclairer ces dernières, et pour apporter peut-être un regard nouveau, ou renouvelé, sur le « fait » en lui-même. Nous tenterons donc dans cette dernière section de repérer quelques lignes de force transverses émergeant, nous semble-t-il, des travaux examinés ^[5], sans manquer de se poser la question critique de l’apport concret, pratique, d’un point de vue sémantique ainsi qualifié au développement des technologies documentaires.

4.1 Dimensions d’une sémantique du document

Trois « dimensions » nous paraissent particulièrement caractériser un « regard sémantique » sur le document. Précisons bien encore ici qu’il ne s’agit pas de « découper » un ensemble d’objectifs ou de méthodes qui seraient disjointes d’autres pratiques documentaires, mais de cerner certaines manières de les aborder.

1. Une dimension Document-Connaissances

Ce point a déjà été présenté en section 2.1. Une caractéristique majeure, peut- être même « la » caractéristique essentielle et quasiment définitoire du « fait sémantique » est de rapporter une donnée (perçue ou déjà construite comme signe) à un espace de référence accepté ou posé à un moment déterminé par le lecteur. C’est cet espace que nous appellerons ici « connaissances » selon la tradition en Intelligence Artificielle et parce que ce terme marque bien l’idée d’une certaine « stabilité » de l’espace en question. Par ailleurs le terme convient bien dans la mesure où beaucoup de documents ont une fonction informationnelle. Il pourrait être problématique ou partiel pour des documents artistiques, par exemple – tels que les documents musicaux – et demander alors un certain élargissement, respectant l’idée générale de référence stabilisée. Cette notion de connaissance nous paraît également reprendre, de manière plus appropriée, l’idée de « référence au monde réel » constitutive de nombre de sémantiques formelles du langage, et reprise ici à propos de l’image par(Besson et al.) : en vérité, l’idée d’une telle référence directe au monde « tel qu’il est » paraît surprenante à propos de documents images dont on sait les transformations numériques (quand ce n’est les travestissements) qu’il peuvent subir.

La médiation par une notion de « connaissance », de « représentation du monde » paraît nécessaire. Quoi qu’il en soit, le fait de porter attention à un « niveau Connaissance » extérieur en quelque sorte aux documents eux-mêmes, et dont l’élaboration fait partie de l’ingénierie documentaire, paraît bien émerger de nombre de travaux analysés ci-dessus.

2. Une dimension Document-Document

Il y a deux facettes à cette dimension. La première est de noter que de nombreux traitements vont se traduire in fine par la création de nouveaux documents, enrichissant d’une manière ou d’une autre le document (ou l’ensemble de documents) traité. On pense là par exemple à des index, qui restent évidemment liés aux documents, notamment au moyen d’hyperliens. Mais aussi aux annotations diverses des documents telles que les entités nommées d’un (Crestan), ou les annotations de désambiguïsation de (Blanchon, Boitet). Un autre exemple typique est celui du résumé automatique.

Le schéma est ici celui d’un ajout de nouvelles informations, intégré au document ou, ce qui revient au même, notées dans un nouveau document relié au document traité.La seconde dimension (non exclusive de la première) concerne l’idée de structuration du document. Découvrir l’organisation d’un document, sa structure, semble faire partie intégrante de l’activité de « lecture », comme relevé dans la section 2.3. C’est aussi une perspective clairement et avec force énoncée dans (Vignaux). C’est toute la problématique de l’hyperdocument qui se dessine ici en perspective. On pourrait donc évoquer ici une sémantique à la Peirce, reprise notamment par U. Eco (Eco, 1985) présentant le sémiotique comme renvoi de signe à signe ^[6]. Avec probablement des actualisations importantes liées aux technologies employées. Une direction importante, pensons-nous, pour « penser le document numérique ».

3. Une dimension Humain-Document

Finalement, il convient évidemment de ne pas oublier l’utilisateur humain qui prend connaissance du document. Remarquons que cette problématique n’est pas toujours présente : ainsi dans le modèle « classique » de l’Extraction d’Information, les traitements visent à constituer des bases de données à partir des faits extraits des textes traités : un support d’information qui n’a donc plus rien à voir avec les documents initiaux. Mais à côté de ces approches, il en existe d’autres dont une préoccupation importante est précisément la prise en compte de l’appropriation du document par le lecteur, et des moyens d’y aider. Il est frappant que l’idée de « navigation documentaire » soit présente en quelque sorte « en perspective » dans de nombreux articles de CIDE 7, quel que soit le centre d’intérêt principal.Mais c’est évidemment encore (Vignaux) qui développe avec le plus de force et de détails ce point de vue. L’étude en temps que tels des modes d’appropriation du document et des moyens, appuyés sur les technologies numériques, d’y aider, constitue donc bien une des facettes d’une approche sémantique.

4.2« Qu’est-ce qu’on gagne ? »

Nous pensons avoir ainsi dégagé quelques points de convergence forts qui constituent (ou : participent de) l’unité d’approches revendiquées comme sémantiques. Le lecteur sceptique pourra néanmoins se demander ce qu’apporte un tel regard sur le document. N’est-ce qu’un habillage théorique particulier sans conséquence pratique ? Nous pensons que non, et voudrions pour conclure relever un certain nombre de points sur lesquels l’apport méthodologique nous paraît important. 6 « Un signe, s'adresse à quelqu'un (...) crée (...) un signe équivalent, ou peut-être un signe plus développé » (Peirce).

1) L’identification du (des) « problème(s) » et de son (leur) ampleur.

S’il est effectivement question in fine de « faire du sens » pour l’utilisateur, alors, qu’on le veuille ou non, on est confronté aux questions complexes qui caractérisent « le sémantique ». Le savoir peut éviter des impasses, par exemple la recherche de progrès exclusivement dans des techniques d’analyse de données basées sur des « formes pures » — ou des déconvenues prévisibles : par exemple, on peut penser que les travaux actuels sur le « Question Answering » mésestiment gravement l’ampleur des problèmes à traiter.

2) Un point de vue unificateur entre différents médias, entre différentes tâches pouvant se combiner.

De plus en plus nous aurons à traiter de documents multimédia. Si l’on en reste aux technologies, aux procédés de calcul, les traitements risquent de longtemps diverger. Un point de vue sémantique — ou, en l’occurrence, sémiotique— peut nous permettre de penser l’intégration des différentes informations et supports.

3) Un décloisonnement des méthodes

Il est trop souvent convenu d’opposer méthodes numériques et linguistiques, linguistique et ingénierie des connaissances, reconnaissance et interprétation d’image, traitement du signal et niveau symbolique... Alors même que de plus en plus de travaux mêlent ces différents niveaux (voir ici (Cerbah), (Charlet), (Vinet) par exemple). La reconnaissance d’objectifs communs « de haut niveau » peut laisser la place à l’intégration de ces techniques et méthodes.

4) Le développement de méthodes sémiotiques spécifiques

Nous pensons qu’un investissement « de fond » en relation avec des théories relativement approfondies des différents « modes sémiotiques » (langue, image, son, vidéo...) est une des voies pour progresser, qu’il s’agisse de « traitement du contenu » ou « d’appropriation humaine du document »

5) Un « retour théorique »

Inversement, le développement d’une telle approche du document numérique est de nature à renouveler nos conceptions du fait sémantique, ne serait-ce que parce que s’offre ainsi un champ d’expérimentation et d’objectivation totalement nouveau. La « linguistique de corpus » (ici dans sa composante sémantique) en a déjà pris conscience depuis quelques temps et indique en quelque sorte une voie prometteuse.

Références bibliographiques

[F. Bilhaut, (2003) T., Charmois Y., Mathet] ↑ Bilhaut F., Charnois T., Enjalbert P., Mathet Y., « Passage extraction in geographical documents », Proc. Intelligent Information Systems 2003, New Trends in Intelligent Information Processing ans Web Mining, Zakopane, Poland, 1-4 Juin 2003, pp. 121-130.

[J. Charlet, (2000)] ↑ Charlet. J., « Ingénierie des connaissances », (éd.) Eyrolles, 2000.

[F. Ciravegna, (1999)] ↑ Ciravegna F., « FACILE: Classifying Texts Integrating Pattern matching and Information Extraction », Proceedings of IJCAI'99 pp. 890-895, 1999.

[M. Dupont (2002) M., Vuillaume B., Victorri Y., Mathet] ↑ Dupont M., « Nouvelles tendances en extraction d’informations », Techniques et Sciences Informatiques », vol 21 n°1/2002, 2002, pp. 37-64, 2002.

[U. Eco (1985)] ↑ Eco U., « Lector in Fabula », Le livre de Poche, Coll. "Essais", n°4098, 1985.

[P. Enjalbert (1996)] ↑ Enjalbert P., « De l'interprétation (sens, structures et processus) », Intellectica, vol 23, n° 2, pp. 79-120, 1996.

[M. Gaio (2001)] ↑ Gaio M., « Traitements de l’information géographique: représentations et structures », Mémoire d’Habilitation à Diriger les Recherches, Université de Caen, 2001.

[J-C. Minel (2003)] ↑ Minel J-L., « Filtrage sémantique. Du résumé automatique à la fouille de textes », Hermès, 2003.

[M.-T Piacenza (1997)] ↑ « Information Extraction », Piacenza M.-T., (éd.), Springer Verlag, 1997.

[T. Poibeau (2003)] ↑ « Extraction automatique d’information », Hermès, 2003.

[H. Vinet (2002) Vinet H., Herrara P., Pachet F.,] ↑ « The CUIDADO Project », Proc. Int. Conf. On Music Information Retrieval, IRCAM, Paris, 2002, pp. 197-203.

[E.M. Voorhees (2001)] ↑ «Overview of the TREC 2001 Question Answering Track », http://trec.nist.gov/pubs/trec10/t10\_proceedings.html, 2001.

Notes

↑ Dont l’interprétation dans les lignes qui suivent est évidemment de notre seule responsabilité.
↑ Les références sous cette forme portent sur des articles du présent volume.
↑ 3 A la vérité, en est-il jamais autrement ?
↑ Cf. infra section 4. Nous dirions que la référence à des « objets et relations » issus d’un domaine d’expérience et de connaissances nous situent bien dans le cadre proposé en 2.1.
↑ « Émergence » sous un certain regard, cela va sans dire, conditionnée par certaines positions de principe développées notamment dans (Enjalbert, 1996) et (Gaio, 2001).
↑ « Un signe, s'adresse à quelqu'un (...) crée (...) un signe équivalent, ou peut-être un signe plus développé » (Peirce).

[1] Dont l’interprétation dans les lignes qui suivent est évidemment de notre seule responsabilité.

[2] Les références sous cette forme portent sur des articles du présent volume.

[3] 3 A la vérité, en est-il jamais autrement ?

[4] Cf. infra section 4. Nous dirions que la référence à des « objets et relations » issus d’un domaine d’expérience et de connaissances nous situent bien dans le cadre proposé en 2.1.

[5] « Émergence » sous un certain regard, cela va sans dire, conditionnée par certaines positions de principe développées notamment dans (Enjalbert, 1996) et (Gaio, 2001).

[6] « Un signe, s'adresse à quelqu'un (...) crée (...) un signe équivalent, ou peut-être un signe plus développé » (Peirce).

[1]

[2]

[3]

[4]

[5]

[6]

CIDE (2004) Enjalbert : Différence entre versions

Version actuelle datée du 30 décembre 2016 à 23:10

Sommaire

Introduction

Objectifs

Organisation et description de corpus documentaires

Analyse du « contenu » des documents

Références bibliographiques

Notes

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils

@@ Ligne 33 : / Ligne 33 : @@
 Actualité d’une approche sémantique du document numérique
+{{CIDE début corps}}
 ==Introduction==
-La  décision  de  proposer  le  thème  des  «  approches  sémantiques  »  pour  la
+La décision de proposer le thème des « approches sémantiques » pour la
-septième  occurrence  de  CIDE est  liée  à  l’observation  et  à  une  analyse  de  certaines
+septième occurrence de CIDE est liée à l’observation et à une analyse de certaines
 tendances actuelles de la recherche concernant les documents numériques.
-Une  première  constatation,  assez  répandue,  touche  aux  limites  qui  paraissent  atteintes  par  les  techniques  «  standard  »  de  recherche  documentaire.  Celles-ci  sont,
+Une première constatation, assez répandue, touche aux limites qui paraissent atteintes par les techniques « standard » de recherche documentaire.
-on  le  sait  et  pour  faire  bref,  basées  sur  des  analyses  de  type  statistiques  de  formes
+Celles-ci sont, on le sait et pour faire bref, basées sur des analyses de type statistiques de formes
-directement   «   perceptibles   »   par   un   programme   :   les   mots   (ou   graphies)   qui
+directement « perceptibles » par un programme: les mots (ou graphies) qui constituent un texte.
-constituent un texte. A ces techniques on souhaiterait opposer des méthodes traitant
+A ces techniques on souhaiterait opposer des méthodes traitant véritablement du « contenu » des documents, même et bien sûr, appréhendé de
-véritablement  du  «  contenu  »  des  documents,  même,  et  bien  sûr,  appréhendé  de
+manière très partielle pour des raisons d’efficacité.
-manière  très  partielle  pour  des  raisons  d’efficacité.  Le  gain  attendu  est  à  la  fois  en
+Le gain attendu est à la fois en termes de rappel (plusieurs mots peuvent tomber sous le même concept objet de la
-termes  de  rappel  (plusieurs  mots  peuvent  tomber  sous  le  même  concept  objet  de  la
+recherche), de richesse de l’interrogation (dépasser la combinaison booléenne d’indicateurs), mais aussi d’appréhension par l’utilisateur des résultats de sa requête.
-recherche),  de  richesse  de  l’interrogation  (dépasser  la  combinaison  booléenne
-d’indicateurs), mais aussi d’appréhension par l’utilisateur des résultats de sa requête.
 Une autre version, peut-être moins « radicale », serait de poser le problème en
-termes  d’échelle  du  corpus  documentaire  ciblé  :  au  «  tout  venant  »  des  méthodes  à
+termes d’échelle du corpus documentaire ciblé: au « tout venant » des méthodes à
-base  d’analyse  de  données,  au  prix  d’une  «  finesse  sémantique  »  moins  grande  —
+base d’analyse de données, au prix d’une « finesse sémantique » moins  grande —
 des méthodes plus riches, atteignant le « sens » de manière plus profonde, pouvant et
-devant  être  développées  pour  des  espaces  thématiques  plus  restreints  et  des  tâches
+devant être développées pour des espaces thématiques plus restreints et des tâches plus spécifiques.
-plus spécifiques.
 Liée à cette première préoccupation est la volonté de décrire, de structurer des
-corpus  documentaires,  selon  des  espaces  de  connaissances  —  souvent  baptisées
+corpus documentaires, selon des espaces de connaissances — souvent baptisées ontologies — de référence.
-ontologies  —  de  référence.  Cette  structuration  étant  réalisée  «  à  la  main  »  au  cours
+Cette  structuration  étant  réalisée « à la main » au cours
-de la constitution du corpus, ou bénéficiant de traitements de contenu des documents
+de la constitution du corpus, ou bénéficiant de traitements de contenu des documents comme évoqué plus   loin.
-comme   évoqué   plus   loin.   Il   s’agit   de
+Il s’agit de présenter à l’utilisateur « l’espace documentaire » selon des concepts qui lui sont a priori  familiers, qui « font sens » pour lui.
-présenter   à   l’utilisateur   «   l’espace
+On reconnaîtra ici le projet du « Web Sémantique », qui concerne d’ailleurs l’accès à des objets plus généraux que des documents (du moins dans une acception
-documentaire  »  selon  des  concepts  qui  lui  sont  a  priori  familiers,  qui  «  font  sens  »
-pour lui. On reconnaîtra ici le projet du
-« Web Sémantique », qui concerne d’ailleurs
-l’accès à des objets plus généraux que
-des documents (du moins dans une acception
 usuelle) tels que des services de toute nature.
-La  troisième  observation  est  celle  d’un
+La troisième observation est celle d’un essor et de succès remarquables, de procédures de traitement du contenu « à grande échelle ».
-essor,  et  de  succès  remarquables,  de
+Certes, il s’agit de traitements relativement limités, mais certains résultats nous semblent tout à fait impressionnants.
-procédures  de  traitement  du  contenu  «  à  grande  échelle  ».  Certes,  il  s’agit  de
+Le cas d’école en la matière est constitué par la technologie dite de « l’extraction  d’information ».
-traitements  relativement  limités,  mais  certains  résultats  nous  semblent  tout  à  fait
+Nous reviendrons plus loin sur cette technologie, mais rappelons ici qu’il s’agit de remplir, à partir de textes courts et ciblés (tels que
-impressionnants. Le cas d’école en la matière est constitué par la technologie dite de
+des dépêches d’agence) des « fiches » collationnant les informations factuelles principales.
-«  l’extraction  d’information  ».  Nous  reviendrons  plus  loin  sur  cette  technologie,
+Les meilleurs systèmes sont parvenus à une qualité de l’ordre de 80 % par rapport aux performances humaines avec des temps de développement qui
-mais rappelons ici qu’il s’agit de remplir, à partir de textes courts et ciblés (tels que
+deviennent  proches de l’industriellement acceptable.
-des  dépêches  d’agence)  des  «  fiches  »
+On peut montrer que les méthodes développées dans ce cadre ont des retombées et des prolongements très
-collationnant  les  informations  factuelles
+important en termes de recherche d’information « par  le  contenu » comme évoqué plus haut.
-principales.  Les  meilleurs  systèmes  sont  parvenus  à  une  qualité  de  l’ordre  de  80  %
+Une autre remarque cruciale est que ces techniques d’analyse sémantique limitée de documents textuels ont leur exact pendant dans d’autres modalités, qu’il
-par  rapport  aux  performances  humaines  avec  des  temps  de  développement  qui
+s’agisse d’images fixes, de vidéo ou de documents sonores, notamment  musicaux.
-deviennent  proches  de  l’industriellement
+L’idée d’un accès au « sens », à « l’information elle-même » (encore une fois, fut-ce de manière partielle) au delà des formes
-acceptable.  On  peut  montrer  que  les
+directement perceptibles, semble ainsi s’imposer comme une direction de recherche crédible « en vraie grandeur ».
-méthodes  développées  dans  ce  cadre  ont  des  retombées  et  des  prolongements  très
-important  en  termes  de  recherche  d’information  «  par  le  contenu  »  comme  évoqué
-plus haut. Une autre remarque cruciale est que ces techniques d’analyse sémantique
-limitée  de  documents  textuels  ont  leur  exact  pendant  dans  d’autres  modalités,  qu’il
-s’agisse  d’images  fixes,  de  vidéo  ou  de  documents  sonores,  notamment  musicaux.
-L’idée d’un accès au « sens », à « l’information elle-même » (encore une fois, fut-ce
-de  manière  partielle)  au  delà  des  formes
-directement  perceptibles,  semble  ainsi
-s’imposer comme une direction de recherche crédible « en vraie grandeur ».
-Complétons  encore  par  deux  autres  observations,  que  nous  développerons
+Complétons encore par deux autres observations, que nous développerons moins ici, mais d’importance.
-moins ici, mais d’importance. La première concerne plus les « traitements humains »
+La première concerne plus les « traitements humains » que les « traitements machine ».
-que les « traitements machine ». Elle concerne les ''usages spécifiques'' suscités par la
+Elle concerne les ''usages spécifiques'' suscités par la forme numérique du document: c’est par exemple l’idée de la navigation dans de
-forme  numérique  du  document  :  c’est  par  exemple  l’idée  de  la  navigation  dans  de
+vastes ensembles de documents, qui conduit à de nouvelles stratégies d’appropriation, de « construction du sens ».
-vastes    ensembles    de    documents,    qui    conduit    à    de    nouvelles    stratégies
+Ce qu’il convient d’étudier à la fois en tant que procédure cognitive nouvelle (donc informative sur la cognition en tant que
-d’appropriation, de « construction du sens ». Ce qu’il convient d’étudier à la fois en
-tant que procédure cognitive nouvelle (donc informative sur la cognition en tant que
 telle) et pour en tirer des indications sur la bonne manière d’organiser la navigation
-et  structurer  les  espaces  documentaires.  L’ultime  remarque  concerne  l’impact  de  la
+et structurer les espaces documentaires.
-disponibilité   de   corpus   numériques,   et
+L’ultime remarque concerne l’impact de la disponibilité de corpus numériques, et des procédures documentaires qui les
-des   procédures   documentaires   qui   les
+accompagnent, pour des études en sémantique On touche-là à certains aspects d’une « linguistique de corpus » dont l’actualité n’est plus à démontrer.
-accompagnent, pour des études
+On peut supposer –  mais les auteurs sont moins informés sur ce point – que ce type de démarche se
-en sémantique On touche-là à certains aspects d’une
+développe ou peut se développer aussi par rapport à d’autres média, en terme d’analyse de « documents », artistiques par exemple.
-« linguistique de corpus » dont l’actualité n’est plus à démontrer. On peut supposer
-–  mais  les  auteurs  sont  moins  informés  sur  ce  point  –  que  ce  type  de  démarche  se
-développe  ou  peut  se  développer  aussi  par  rapport  à  d’autres  média,  en  terme
-d’analyse de « documents », artistiques par exemple.
-Si l’on partage peu ou prou ces constats, il devient à coup sûr scientifiquement
+Si l’on partage peu ou prou ces constats, il devient à coup sûr scientifiquement pertinent
-pertinent  parler  d’approches  sémantiques  du  document  numérique  et  de  chercher  à
+parler d’approches sémantiques du document numérique et de chercher à confronter et mieux asseoir des démarches de ce type. Tel a été l’objectif de CIDE 7.
-confronter et mieux asseoir des démarches de ce type. Tel a été l’objectif de CIDE 7.
+L’appel (dont les grandes lignes sont reprises dans la préface) a été volontairement
-L’appel (dont les grandes lignes sont repris
+très ouvert, de manière à permettre le plus large « balisage », avec le moins d’a priori possible, de ce nouveau champ.
-es dans la préface) a été volontairement
-très  ouvert,  de  manière  à  permettre  le  plus  large  «  balisage  »,  avec  le  moins  d’a
+Nous voudrions maintenant, en nous appuyant fortement sur ces différentes
-priori
+contributions<ref>Dont l’interprétation dans les lignes qui suivent est évidemment de notre seule
-possible, de ce nouveau champ.
+responsabilité. </ref>, tenter de préciser ce qui nous paraît être quelques orientations de
+recherche  pertinentes et prometteuses, et esquisser  une  cartographie  possible du champ de recherche.
+Classiquement, nous commencerons par la question des objectifs, des tâches,visés, avant de nous intéresser aux
+méthodes pour les atteindre ou  réaliser.
+Nous pourrons alors poser et discuter la question de l’unité de travaux ainsi rassemblés, et somme toutes assez divers, sous le signe de la sémantique.
-Nous  voudrions  maintenant,  en  nous  appuyant  fortement  sur  ces  différentes
-contributions<ref>Dont   l’interprétation   dans   les   lignes   qui   suivent   est   évidemment   de   notre   seule
-responsabilité. </ref>,  tenter  de  préciser  ce  qui  nous  paraît  être  quelques  orientations  de
-recherche  pertinentes  et  prometteuses,  et
-esquisser  une  cartographie  possible  du
-champ  de  recherche.  Classiquement,  nous  commencerons  par  la  question  des
-objectifs, des
-tâches
-, visés, avant de nous intéresser aux
-méthodes pour les atteindre
-ou  réaliser.  Nous  pourrons  alors  poser  et  discuter  la  question  de  l’unité de  travaux  ainsi rassemblés, et somme toutes assez divers, sous le signe de la sémantique.
 ==Objectifs==
-Nous  allons  donc  examiner  ici  des  objectifs  de  recherche  –en  relation  avec  le
+Nous allons donc examiner ici des objectifs de recherche – en  relation  avec  le
-document numérique – que l’on peut, à notre sens, et à un titre ou un autre, qualifier
+document numérique – que l’on peut, à notre sens, et à un titre ou un autre, qualifier de sémantiques.
-de sémantiques. Cette qualification est à
+Cette qualification est à l’évidence problématique si l’on considère
-l’évidence problématique si l’on considère
+la diversité des objectifs en question.
-la diversité des objectifs en question. Aussi tenterons-nous, en même temps qu’une
+Aussi tenterons-nous, en même temps qu’une
-description  de  fait,  d’interroger  le  terme  même  de  «  sémantique  ».  En  accord  avec
+description de fait, d’interroger le terme même de « sémantique ».
-l’esprit  d’ouverture  de  l’appel  à  communication  rappelé  plus  haut,  nous  prendrons
+En accord avec l’esprit d’ouverture de l’appel à communication rappelé plus  haut, nous  prendrons
-au  sérieux  la  «  revendication  »  par  les  auteurs  d’une  telle  qualification  de  leurs
+au sérieux la « revendication » par les auteurs d’une telle qualification de leurs
-travaux,  la  considérant  comme  une  bonne  heuristique  dans  notre  réflexion.  Il  nous
+travaux, la considérant comme une bonne heuristique dans notre réflexion.
-semble pouvoir mettre en évidence trois champs d’étude (ou trois facettes du même
+Il nous semble pouvoir mettre en évidence trois champs d’étude (ou trois facettes du même
-champ) que nous allons examiner succincte
+champ) que nous allons examiner succinctement.
-ment. Il ne s’agit évidemment pas d’une
+Il ne s’agit évidemment pas d’une « nomenclature » figée et complète.
-« nomenclature » figée et complète. Mais quelques lignes de force, au moins à titre
+Mais quelques lignes de force, au moins à titre d’hypothèse, nous semblent se dégager.
-d’hypothèse, nous semblent se dégager.
 ===Organisation et description de corpus documentaires===
-L’optique  est  ici  essentiellement  macroscopique.  Il  s’agit  de  considérer  les
-collections  documentaires et  leur  organisation  et  description  en  vue  d’un  usage
-donné  :  on  retrouve  là  la  problématique  de  l’indexation  en  recherche  documentaire
-(RD)  «  traditionnelle  »,  mais  aussi  la  structuration  hypertextuelle  ou  toute  autre
-structuration  propre  à  «  navigation  »  dans  les  bases  documentaires,  l’organisation
-spécifique  de  documentations  techniques  ou  de  corpus  artistiques  (musicaux  par
-exemple), etc.
-Quelle   peut   être   la   caractérisation   d’une   approche   sémantique   de   la
+L’optique est ici essentiellement macroscopique. Il s’agit de considérer les
-question ? Nous proposons l’idée suivante : la mise en évidence d’un certain
+collections documentaires et leur organisation et description en  vue  d’un  usage
-espace
+donné: on retrouve là la problématique de l’indexation en recherche documentaire
-de
+(RD) « traditionnelle », mais aussi la structuration hypertextuelle ou toute autre
-« valeurs »,
+structuration propre à « navigation » dans les bases documentaires, l’organisation
-« notions »,  « concepts » (selon  les  points  de  vue  ou  les
+spécifique de documentations techniques ou de corpus artistiques (musicaux par exemple), etc.
-a  priori
-théoriques)
-stabilisé et  doté  d’une
-organisation  propre
-,  auquel  les  documents  sont
-rapportés
-, et qui peut « faire sens » (pour parler intuitivement) pour l’usager.
-Plusieurs  articles  de  la  conférence  peuvent  se  discuter  sous  cet  angle.  Dans
-([[A pour article cité::CIDE (2004) Crestan|Crestan et al.]])<ref>Les références sous cette forme portent sur des articles du présent volume.</ref> deux espaces sont envisagés (dans une finalité de RD classique) : le
-premier   est   structuré   en   «   environ   800   dimensions   »   correspondant   à   des
-« concepts » représentés par des « sacs de mots », et censés permettre de repérer tout
-mot  de  la  langue  française  ;  le  second  est  constitué  d’entités  nommées
-(personnes, lieux,  dates...)  dont  il  faut  bien  voir  que  ce  sont  en  effet  des
-entités concrètes (par
-nature   typées),   différentes   de   leurs   réalisations   langagières,   qui   peuvent   être
-multiples.  (Bénel)  s’intéresse  spécifiquement  aux  documents  archéologiques,  et  à
-l’annotation   de   segments   documentaires,   permettant   une   indexation   et   un
-«  arpentage  »  des  collections,  dans  l’optique  «  d’offrir  (...)  des  assistants  à  la
-construction du sens dans les bibliothèques numériques ». La référence à un corps de
-connaissances archéologiques
-est  extrêmement  nette,  l’un  des  points  traités  étant  la
-gestion  de  points  vue  divers  selon  les  experts.  (Bonardi  et  Rousseau)  étudient
-l’indexation  d’œuvres  musicales  :  ils  montrent  comment  les  collections  de  CD  sont
-actuellement  rangés  selon  des  critères  fixes  de  genre,  auteur  etc.,  critiquent  cette
-pratique  et  prônent  une  approche  centrée  sur  des  notions  de  prototype  et  de
-similarité  :  on  voit  donc  là  un  débat  entre  deux  modes  d’indexation,  un  traditionnel
-qui  serait  sans  doute  celui  des  «  ontologies  »  et  un  mode  original,  d’inspiration
-cognitive  (prototype).  Il  faudrait  encore  mentionner  le  travail  de  (Besson
-et al.)  sur
-les bases d’image mais nous y reviendrons plus loin.
+Quelle peut être la caractérisation d’une approche sémantique de la question ?
+Nous proposons l’idée suivante: la mise en évidence d’un certain
+espace de « valeurs », « notions », « concepts » (selon les points de vue ou les
+a priori théoriques) stabilisé et  doté  d’une organisation  propre, auquel les documents sont
+rapportés, et qui peut « faire sens » (pour parler intuitivement) pour l’usager.
+Plusieurs  articles  de  la  conférence  peuvent  se  discuter  sous  cet  angle.
+Dans ([[A pour article cité::CIDE (2004) Crestan|Crestan et al.]])<ref>Les références sous cette forme portent sur des articles du présent volume.</ref> deux espaces sont envisagés (dans une finalité de RD classique): lepremier est structuré en « environ 800 dimensions » correspondant à des « concepts » représentés par des « sacs de mots », et censés permettre de repérer tout
+mot de la langue française ; le second est constitué d’entités nommées
+(personnes, lieux,  dates...) dont il faut bien  voir que ce sont en effet  des
+entités concrètes (par nature typées), différentes de leurs réalisations langagières, qui peuvent être multiples.
+(Bénel) s’intéresse spécifiquement aux documents archéologiques, et à
+l’annotation de segments documentaires, permettant une indexation et un
+« arpentage » des  collections, dans l’optique « d’offrir (...) des assistants à la
+construction du sens dans les bibliothèques numériques ».
+La référence à un corps de connaissances archéologiques est extrêmement nette, l’un des points traités étant la
+gestion de points vue divers selon les experts.(Bonardi et Rousseau) étudient
+l’indexation d’œuvres musicales: ils montrent comment les collections de CD sont
+actuellement rangés selon des critères fixes de genre, auteur etc., critiquent cette
+pratique et prônent une approche centrée sur des notions de prototype et de
+similarité: on voit donc là un débat entre deux modes d’indexation, un traditionnel
+qui serait sans doute celui des « ontologies » et un mode original, d’inspiration
+cognitive (prototype).
+Il faudrait encore mentionner le travail de (Besson et al.) sur les bases d’image mais nous y reviendrons plus loin.
-Les  contributions  de  (Charlet
+Les contributions de (Charlet et al.) et (Cerbah) proposent un regard un peu
-et  al.)  et  (Cerbah)  proposent  un  regard  un  peu
 différent. La première présente une méthode de constitution semi-automatique d’un
-index d’ouvrage scientifique : pour être bref, disons qu’il s’agit d’une application de
+index d’ouvrage scientifique: pour être bref, disons qu’il s’agit d’une application de
-procédures  d’acquisition  de  terminologie.  Elle  nous  paraît  bien  relever  du  cadre
+procédures d’acquisition de terminologie.
-proposé  plus  haut,  dans  la  mesure  où  les  auteurs  la  positionnent  (entre  autres)  en
+Elle nous paraît bien relever du cadre proposé plus haut, dans la mesure où les auteurs la positionnent (entre autres) en terme d’ingénierie des connaissances: il s’agirait en quelque sorte de faire émerger et d’acquérir le corps de connaissances terminologiques, auquel l’ouvrage pourra alors être « rapporté ».(Cerbah) s’inscrit dans « une approche structurée de la
-terme d’ingénierie des connaissances : il s’agirait en quelque sorte de faire émerger et  d’acquérir
+documentation technique », conduisant à « fragmenter tout fonds documentaire en
-le  corps  de  connaissances  terminologiques,  auquel  l’ouvrage  pourra
+unités autonomes au contenu clairement spécifié » mises en relation par des hyperliens.
-alors  être  «  rapporté  ».  (Cerbah)  s’inscrit  dans  «  une  approche  structurée  de  la
+Son insistance sur la nécessité d’une « interprétation plus ou moins profonde du contenu  textuel balisé » (pour être mis en hypertexte) nous paraît de nouveau adéquate avec l’exigence  mise en avant dans notre proposition d’une identification claire, en termes de domaine de connaissance (ici: un domaine technique), de l’espace de repérage.
-documentation  technique  »,  conduisant  à  «  fragmenter  tout  fonds  documentaire  en
-unités  autonomes  au  contenu  clairement  spécifié  »  mises  en  relation  par  des
-hyperliens.  Son  insistance  sur  la  nécessité  d’une  «  interprétation  plus  ou  moins
-profonde  du  contenu  textuel  balisé  »  (pour  être  mis  en  hypertexte)  nous  paraît  de
-nouveau  adéquate  avec  l’exigence  mise  en  avant  dans  notre  proposition  d’une
-identification  claire,  en  termes  de  domaine  de  connaissance  (ici  :  un  domaine
-technique), de l’espace de repérage.
-Bien  évidemment,  la  problématique  que  nous  décrivons  est  aussi  au  cœur  du
+Bien évidemment, la problématique que nous décrivons est aussi au cœur du
 dit « web sémantique » et de ses fameuses « ontologies ». Quelques remarques pour
-conclure  ce  premier  aspect.  D’abord  pour  souligner  que  la  question  de  cette
+conclure ce premier aspect. D’abord pour souligner que la question de cette
-«  indexation  sémantique  »  peut  être  abordée  de  manière  indépendante  de  celle  des
+« indexation sémantique » peut être abordée de manière indépendante de celle des
-traitements  :  quels  sont  les  bons  principes  et  modes  de  description/structuration  ?
+traitements: quels sont les bons principes et modes de description/structuration ?
 L’indexation elle-même pouvant être réalisée « à la main » comme dans (Bénel) ou
 dans beaucoup de travaux du web sémantique. Par contre on peut aussi s’interroger
-sur   la   manière   d’indexer   automatiquement   (ou   semi-automatiquement)   les
+sur la manière d’indexer automatiquement (ou semi-automatiquement) les documents une fois le mode d’organisation choisi, ce qui nous conduit inévitablement au problème des traitements « sémantiques » (ou « du contenu » etc.) des documents.
-documents   une   fois   le   mode   d’organisation   choisi,   ce   qui   nous   conduit
+Enfin, notons que la question se pose quel que soit le média.
-inévitablement au problème des traitements « sémantiques » (ou « du contenu » etc.)
-des documents. Enfin, notons que la question se pose quel que soit le média.
 ===Analyse du « contenu » des documents===
-Nous  pourrons  partir  ici  de  la  technologie  dite  de  l’Extraction  d’Information  (EI) [{{CIDE lien citation|PIA 97}}] [{{CIDE lien citation|POI 03}}], évoquée plus haut comme emblématique de progrès récents en  «  analyse  de  contenu  ».  Il  ne  sera  sans  doute  pas  évident  pour  tout  le  monde  de
-l’appréhender  dans  son  caractère  sémantique.  Beaucoup  d’auteurs,  peut-être  la
+Nous  pourrons  partir  ici  de  la  technologie  dite  de  l’Extraction  d’Information  (EI) ({{CIDE lien citation|Poibeau, 2003}}), évoquée plus haut comme emblématique de progrès récents en «  analyse  de  contenu  ».  Il  ne  sera  sans  doute  pas  évident  pour  tout  le  monde  de l’appréhender  dans  son  caractère  sémantique.  Beaucoup  d’auteurs,  peut-être  la
-majorité,  y  voient  une  question  «  technologique  »  relativement  neutre,  concernant
+majorité, y voient  une  question «  technologique  »  relativement  neutre,  concernant
-par   exemple   l’utilisation   d’automates   (o
+par exemple l’utilisation d’automates (ou transducteurs) pour reconnaître les
-u   transducteurs)   pour   reconnaître   les
+« motifs » ou « patrons » textuels porteurs de l’information à extraire, et de méthodes d’apprentissage pour acquérir ces motifs.
-«   motifs   »   ou   «   patrons   »   textuels   porteurs   de   l’information   à   extraire,   et   de
+Et  lorsque  des  considérations linguistiques sont invoquées, c’est bien souvent sous l’angle de l’analyse syntaxique,dite en l’occurrence « légère » (« shallow parsing »).
-méthodes  d’apprentissage  pour  acquérir  ces  motifs.  Et  lorsque  des  considérations
-linguistiques sont invoquées, c’est bien souvent sous l’angle de l’analyse syntaxique,
-dite en l’occurrence « légère » (« shallow parsing »).
 Pourtant il est facile de montrer la filiation avec les projets de « compréhension
 automatique » développés en Intelligence Artificielle dans les années 1980, dans une
-mutuelle    fécondation    avec    d’autres    tr
+mutuelle fécondation avec d’autres traditions d’ingénierie linguistique et
-aditions    d’ingénierie    linguistique    et
+documentaire. Or  qui  dit  «  compréhension  »,  automatique  ou non,  dit  évidemment  «  sémantique  ». Le  fait qu’elle  soit  en  EI partielle,  limitée  orientée, ciblée ... n’y change rien <ref> 3 A la vérité, en est-il jamais autrement ? </ref>
-documentaire  [DUP  02]  [POI  03].  Or  qui  dit  «  compréhension  »,  automatique  ou
-non,  dit  évidemment  «  sémantique  ».  Le  fait  qu’elle  soit  en  EI  partielle,  limitée  orientée, ciblée ... n’y change rien
-<ref> 3 A la vérité, en est-il jamais autrement ? </ref>
+Nous n’insisterons pas d’avantage ici sur cette technologie,  non  représentée  en  tant  que  telle dans CIDE 7.
+Mais nous pensons qu’elle a constitué une véritable rupture dans l’histoire des traitements automatiques du « contenu » textuel et constitue à ce titre un repère méthodologique majeur.
+Par ailleurs, nous esquissons  dans  ({{CIDE lien citation|Dupont, 2002}}) quelques pistes  pour des travaux en sémantique linguistique, susceptibles de repousser certaines « limites» des systèmes actuels.
-Nous n’insisterons pas d’avantage ici sur cette
+A priori, l’EI constitue une tâche  disjointe de la Recherche Documentaire ou
-technologie,  non  représentée  en  tant  que  telle  dans  CIDE  7.  Mais  nous  pensons
+Recherche d’Information (RI) traditionnelle: dans le modèle « de base », des
-qu’elle a constitué une véritable rupture dans l’histoire des traitements automatiques
+techniques de RD sont mises en œuvre en amont d’un système d’EI, pour extraire
-du  «  contenu  »  textuel  et  constitue  à  ce  titre  un  repère  méthodologique  majeur.  Par
-ailleurs,  nous  esquissons  dans  [DUP  02]  quelques  pistes  pour  des  travaux  en
-sémantique linguistique, susceptibles de repousser certaines « limites» des systèmes
-actuels.
-A  priori,  l’EI  constitue  une  tâche  disjointe  de  la  Recherche  Documentaire  ou
-Recherche  d’Information  (RI)  traditionnelle  :  dans  le  modèle  «  de  base  »,  des
-techniques  de  RD  sont  mises  en  œuvre  en  amont d’un  système  d’EI,  pour  extraire
 d’un flux textuel les documents qui, de par leur thématique, sont susceptibles d’être
-traités.  En  fait  la  situation  est  aujourd’hui  beaucoup  plus  riche  et  complexe,  et  la
+traités. En fait la situation est aujourd’hui beaucoup plus riche et complexe, et la
-recherche a largement évolué vers un croisement entre méthodes d’EI d’une part, et tâches   et   techniques   (éventuellement   requalifiées)   de   RD/RI   de   l’autre.   De nombreux exemples en témoignent, caractérisés par : 1) des requêtes « structurées »,
+recherche a largement évolué vers un croisement entre méthodes d’EI d’une part, et tâches   et   techniques(éventuellement requalifiées) de RD/RI de l’autre.
-dépassent  le  traditionnel  assemblage  de  mots  ;  et  2)  une  recherche  de  «  motifs  »
+De nombreux exemples en témoignent, caractérisés par: 1) des requêtes « structurées »,
-textuels  (comme  en  EI)  susceptibles  de  les  «  matcher  »  en  un  sens  ou  un  autre.
+dépassent le traditionnel assemblage de mots ; et 2) une recherche de « motifs »
+textuels (comme en EI) susceptibles de les « matcher » en un sens ou un autre.
-Exemple  :  «  Trouvez  les  documents  (ou  segments  documentaires)  concernant  les
+Exemple: « Trouvez les documents (ou  segments  documentaires) concernant  les
-transactions financières en Europe d'un montant supérieur à 1 MEuro » [CIR 99] ou
+transactions financières en Europe d'un montant supérieur à 1 MEuro » ({{CIDE lien citation|Ciravegna, 1999}}) ou « le retard scolaire dans l ’Ouest dans les années 1980 / la sécurité maritime dans la Manche » ({{CIDE lien citation|Bilhaut, 2003}}).
-« le retard scolaire dans l ’Ouest dans les années 1980 / la sécurité maritime dans la
-Manche » [BIL 03].
 Le  représentant  le  plus  avancé  de  cette  tendance  est  la  technologie  dite  des
 systèmes  de  Question/Réponse  («  Question  Answering  »),  dans  lequel  il  s’agit  de
 répondre automatiquement à des questions telles que : « Qui est l’auteur du "Dernier
-tango  à  Paris",  Quels  autres  films  a-t-il  réalisé  récemment  ?  »,  ou  (dans  un  manuel
+tango  à  Paris",  Quels  autres  films  a-t-il  réalisé  récemment  ?  »,  ou  (dans  un  manuel  Unix) :  « Comment  fait-on  pour  changer  les  droits  d’accès?  Que  fait  la  commande "tar"  ».  On  trouvera  sur  les  sites  de  TREC  de  nombreuses  références  sur  cette  nouvelle problématique de recherche ({{CIDE lien citation|Voorhees, 2001}}).
-Unix) :  « Comment  fait-on  pour  changer  les  droits  d’accès?  Que  fait  la  commande
-"tar"  ».  On  trouvera  sur  les  sites  de  TREC  de  nombreuses  références  sur  cette  nouvelle problématique de recherche [VOO 01].
 Avec  des  objectifs  plus  classiques,  deux  articles  de  CIDE  7  proposent  des
 analyses  de  contenu  au  service  de  tâches  de  type  RD,  (Crestan)  déjà  mentionné  et
@@ Ligne 283 : / Ligne 218 : @@
 problématiques  textuelles  et  des  travaux  qui  se  développent  pour  des  documents
 relevant  d’autres  média  :  image,  vidéo,  son.  La  question  de  l’accès  à  des  bases
-d’images  à  travers  non  des  légendes  ou  autres  descriptifs  (ou  pas  seulement),  mais  grâce  à  une  analyse  des  images  elles-mêmes,  apparaît  aujourd’hui  comme  une  nécessité,  posant d’ailleurs des problèmes scientifiques et techniques difficiles. Il en
+d’images  à  travers  non  des  légendes  ou  autres  descriptifs  (ou  pas  seulement),
+mais  grâce  à  une  analyse  des  images  elles-mêmes,  apparaît  aujourd’hui  comme  une
+nécessité,  posant d’ailleurs des problèmes scientifiques et techniques difficiles. Il en
 est de même pour la vidéo et le son.
@@ Ligne 289 : / Ligne 226 : @@
 traits,  des  descripteurs,  disons  «  physiques  »  (dominances  de  couleur,  de  textures,
 spectres  de  fréquences...)  une  tendance  se  développe  qui  se  positionnera  par
-exemple  en  termes  d’ interprétationd’image.
+exemple  en  termes  d’ interprétation d’image. Autrement  dit,  une  tendance  que  l’on
-Autrement  dit,  une  tendance  que  l’on
 peut   effectivement   qualifier   de   sémantique.   Nous   nous   référerons   ici   à   deux
 contributions de CIDE 7.
@@ Ligne 303 : / Ligne 238 : @@
 dans  le  monde  réel)  reliés  éventuellement  par  des  relations  sémantiques  (qui
 correspondent  à  une  interprétation  de  l’image  comme  reproduction  du  monde
-réel)   ».   On   peut   discuter   la   référence   au   «   monde   réel   »   comme   critère   de
+réel)   ».   On   peut   discuter   la   référence   au   «   monde   réel   »   comme   critère   de « sémanticité », <ref>   Cf. infra section  4.  Nous  dirions  que  la  référence  à  des  «  objets  et  relations » issus  d’un domaine d’expérience et de connaissances nous situent bien dans le cadre proposé en 2.1. </ref> mais  le  contraste  avec  les  «  paramètres  physiques  »  n’en  est  que plus patent.
-« sémanticité », <ref>   Cf. infra section  4.  Nous  dirions  que  la  référence  à  des  «  objets  et  relations  »
-issus  d’un domaine d’expérience et de connaissances nous situent bien dans le cadre proposé en 2.1. </ref>
-mais  le  contraste  avec  les  «  paramètres  physiques  »  n’en  est  que
-plus patent.
 Notre  seconde  référence  sera  pour  les  travaux  de  Hugues  Vinet  (Vinet).  Nous
-nous   référerons   ici   particulièrement   au   projet   CUIDADO   [VIN   02]   visant   à
+nous   référerons   ici   particulièrement   au   projet   CUIDADO   ({{CIDE lien citation|Vinet, 2002}})   visant   à  développer  un  système  de  «  Navigation  dans des  bases  de  données  musicales  ».  Il  s’agit  en  fait  d’un  projet  très  riche,  mais  dont  un  des  aspects  sera  de  pouvoir   répondre  (par  une  sélection  d’œuvres)  à  des  requêtes  du  type  :  «  Je  veux  des   morceaux  à  tempo  rapide,  de  type  Rock  /  des  morceaux  proches  de  ceux-ci / constituer  un  programme  de  tempo  de  plus  en  plus  rapide,  avec  plus  de  60  %  de vocal féminin ». Cela est réalisé par une combinaison / enchaînement de modèles et de  traitements  :  traitement  du  signal,  modèles  perceptifs,  symboliques,  cognitifs, modèles  de  description  de  contenu...
-développer  un  système  de  «  Navigation  dans des  bases  de  données  musicales  ».
-Il  s’agit  en  fait  d’un  projet  très  riche,  mais  dont  un  des  aspects  sera  de  pouvoir
-répondre  (par  une  sélection  d’œuvres)  à  des  requêtes  du  type  :  «  Je  veux  des
-morceaux  à  tempo  rapide,  de  type  Rock  /  des  morceaux  proches  de  ceux-ci  /
-constituer  un  programme  de  tempo  de  plus  en  plus  rapide,  avec  plus  de  60  %  de
-vocal féminin ». Cela est réalisé par une combinaison / enchaînement de modèles et
-de  traitements  :  traitement  du  signal,  modèles  perceptifs,  symboliques,  cognitifs,
-modèles  de  description  de  contenu...
-Les  dernières  «  couches  »  intègrent  donc,  comme  on  le  voit  sur  l’exemple,
+Les dernières  «  couches  »  intègrent  donc,  comme  on  le  voit  sur  l’exemple,
-un  véritable  niveau  symbolique,  relevant  de
+un  véritable  niveau  symbolique,  relevant  de connaissances musicales élaborées allant jusqu’à une notion de genre musical (ici, le Rock). L’examen détaillé du modèle en couches proposé fait apparaître un parallèle saisissant avec les tâches et niveaux d’analyse en langue.
-connaissances musicales élaborées allant jusqu’à une notion de genre musical (ici, le
-Rock). L’examen détaillé du modèle en couches proposé fait apparaître un parallèle
-saisissant avec les tâches et niveaux d’analyse en langue.
 Finalement,  revenant  aux  documents  textuels,  nous  voudrions  relever  dans
-cette rubrique une série d’autres travaux non réductibles à des tâches d’EI/RI, mais impliquant  une
+cette rubrique une série d’autres travaux non réductibles à des tâches d’EI/RI, mais impliquant  une authentique  analyse  de  contenu.  Il  s’agit  de  travaux  qui  se  situent  plus  dans  une  perspective  théorique  (linguistique  en  l’occurrence)  qu’applicative,
-authentique  analyse  de  contenu.  Il  s’agit  de  travaux  qui  se  situent  plus  dans  une  perspective  théorique  (linguistique  en  l’occurrence)  qu’applicative,
 que  l’on  peut  rapidement  situer  comme  «  analyse  textuelle  ».  Ici,  c’est  plutôt  les
 technologies  du  document  numérique  qui  sont  mises  à  contribution  pour  un  travail
 de sémantique linguistique plutôt que l’inverse. Cette tendance est représentée dans
-  Cf.
+Cf. infra section  4.  Nous  dirions  que  la  référence  à  des  «  objets  et  relations  »  issus  d’un domaine d’expérience et de connaissances nous situent bien dans le cadre proposé en 2.1. CIDE 7 par (Lessard et al.) et (Leblanc).
-infra
-section  4.  Nous  dirions  que  la  référence  à  des  «  objets  et  relations  »  issus  d’un
-domaine d’expérience et de connaissances nous situent bien dans le cadre proposé en 2.1.
-CIDE 7 par (Lessard
-et al.) et (Leblanc).
+Le premier s’intéresse à la détection d’une  forme particulière, mais récurrente, de structuration du discours narratif : les « topoï narratifs  »  qui  évoquent  en  quelque  sorte,  dans  des  contextes  très  divers,  des  scénarios   plus   ou   moins   stéréotypés. Le second   étudie   les   occurrences   du   «  je  présidentiel  »  dans  les  discours  de vœux  de  bonne  année,  et  cette  étude  est  précisément   l’occasion   de   réflexions
-Le premier s’intéresse à la détection d’une
-forme particulière, mais récurrente, de structuration du discours narratif : les « topoï
-narratifs  »  qui  évoquent  en  quelque  sorte,  dans  des  contextes  très  divers,  des
-scénarios   plus   ou   moins   stéréotypés.
-Le second   étudie   les   occurrences   du   «  je  présidentiel  »  dans  les  discours  de
-vœux  de  bonne  année,  et  cette  étude  est  précisément   l’occasion   de   réflexions
 méthodologiques   sur   l’utilisation   des
 techniques d’analyses de cooccurrences dans une perspective herméneutique.
@@ Ligne 353 : / Ligne 260 : @@
 '''2.3 Segmentation et structuration de documents'''
-Ce  troisième  aspect  est  plus  délicat  à  cerner,  mais  clairement  présent  dans
+Ce troisième  aspect  est  plus  délicat  à  cerner,  mais  clairement  présent  dans
 CIDE  7.  Deux  articles  sont  particulièrement  typiques  :  (Cerbah)  déjà  cité,  et (Smolczewska, Lallich-Boidin). Ce dernier
 se présente comme cherchant « à définir un  modèle  de  structuration  et  d’enrichissement  de  l’information  technique  qui  constituera la base de la construction d’une représentation du contenu du document technique   à   partir   de   son   texte   intégral   (...)   résultat   de   plusieurs   étapes
@@ Ligne 360 : / Ligne 267 : @@
 *1.   La segmentation du document en unités d’information autonomes ;
 *2.   La caractérisation du contenu de chaque unité ;
-*3.   Le  filtrage  des  unités  pertinentes
+*3.   Le filtrage des unités pertinentes par rapport aux unités non pertinentes pour l’utilisateur ;
-par  rapport  aux  unités  non  pertinentes
+*4.   La construction de liens entre les unités exprimant des parcours de lecture
-pour l’utilisateur ;
-*4.   La  construction  de  liens  entre  les  unités  exprimant  des  parcours  de  lecture
 possibles. »
 Les second et troisième points nous renvoient aux deux aspects précédemment
 discutés.  Ce  qui  est  nouveau  ici  sont  l’importance  attachée  aux  opérations  de
 segmentation et  de  mise  en  relation  hypertextuelle
-des  segments  ainsi  délimités.
+des  segments  ainsi  délimités. Cela nous paraît à peu de chose près la même problématique et les mêmes objectifs que ceux de (Cerbah), avec également en vue le document technique (mais avec des méthodes différentes).
-Cela nous paraît à peu de chose près la même problématique et les mêmes objectifs
-que ceux de (Cerbah), avec également en vue le document technique (mais avec des
-méthodes différentes).
 Tout  se  passe  comme  si  une  certaine  structuration  du  texte,  en  terme  de
-segments   interreliés,   était   une   composante   à   part   entière   de   la   «   perception
+segments   interreliés,   était   une   composante   à   part   entière   de   la   «   perception  sémantique  »  d’un  document  par  un  lecteur.  Cette  perception  étant  révélée  par  les parcours de lecture.Les dispositifs proposés par ces auteurs tentent alors de repérer
-sémantique  »  d’un  document  par  un  lecteur.  Cette  perception  étant  révélée  par  les
-parcours de lecture.
-Les dispositifs proposés par ces auteurs tentent alors de repérer
 automatiquement cette structure pour aider le lecteur dans sa découverte.
 En fait, il nous semble que cette démarche est aussi un des aspects du travail de
-(Charlet et  al.),  puisque  les  index  pointent sur  le  texte  (structuration),  renvoyant  à
+(Charlet et  al.),  puisque  les  index  pointent sur  le  texte  (structuration), renvoyant à
 des  segments  dont  la  définition,  «  l’empan  »,  (segmentation)  est  considéré  par  les
 auteurs comme une tâche importante et difficile : « la difficulté étant de sélectionner
 les [occurrences d’un terme] les plus pertinentes et de définir la taille de l’empan de
-texte  auquel  il  est  pertinent  de  renvoyer  ».  On  pourrait  aussi  voir  dans  un  domaine
+texte  auquel  il  est  pertinent  de  renvoyer  ».  On  pourrait  aussi  voir  dans  un  domaine non  représenté  dans  CIDE  7,  le  résumé  automatique,  une  occurrence  de  l’approche «  structurelle  ».  Nous  pensons  ici  particulièrement  au  résumé  «  par  extraction  », dans  lequel  il  s’agit  de  repérer  des  segments  de  texte  pertinents  pour  constituer un résumé — et tout en gardant un lien sur le document original, dans une perspective de navigation intra-documentaire ({{CIDE lien citation|Minel, 2003}}). Est-ce là une question et une approche « sémantique » ? Nous y reviendrons dans la quatrième partie.
-non  représenté  dans  CIDE  7,  le  résumé  automatique,  une  occurrence  de  l’approche
-«  structurelle  ».  Nous  pensons  ici  particulièrement  au  résumé  «  par  extraction  »,
-dans  lequel  il  s’agit  de  repérer  des  segments  de  texte  pertinents  pour  constituer
-un résumé — et tout en gardant un lien sur le document original, dans une perspective de navigation
-intra-documentaire [MIN 03]. Est-ce là une question et une approche
-« sémantique » ? Nous y reviendrons dans la quatrième partie.
 Finalement il nous semble que cette préoccupation « structurelle » est aussi au
@@ Ligne 399 : / Ligne 291 : @@
 données  XML  entre  applications  Web  autonomes  et  hétérogènes  ».  Ce  qui  est  ici
 significatif de notre propos est la fonction sémantique de la structurationmême, qui
-nous   semble   exprimée   par   les   auteurs,   lorsqu’elles   parlent   «   d’
+nous   semble   exprimée   par   les   auteurs,   lorsqu’elles   parlent
-information sémantique nichée  dans  la  structure  du  document  »
+« d’information sémantique nichée  dans  la  structure  du  document »
-(«  semantic  informationnested  within  the  document  structure  »).
+(« semantic  informationnested  within  the  document  structure  »).
 «  La  sémantique  est  d’abord  capturée  à  travers  l’explicitation de la signification
-du nom des éléments, et ensuite à travers l’analyse
+du nom des éléments, et ensuite à travers l’analyse du point de vue du concepteur du XML-schéma, exprimée par l’organisation logique du contenu XML (...) ».
-du point de vue du concepteur du XML-schéma, exprimée par l’organisation logique
-du contenu XML (...) ».
 '''3.Méthodes'''
@@ Ligne 416 : / Ligne 304 : @@
 méthodes  «  plus  générales  »  ?    Ici,  plus  que  jamais,  la  réflexion  est  prospective,
 l’enjeu  étant  de  réfléchir  sans  a  priori aux  moyens  à  mettre  en  œuvre  pour  réaliser
-des  objectifs  tels  que  présentés  ci-dessus.
+des  objectifs  tels  que  présentés  ci-dessus. Nous  distinguerons  trois  «  types  »  de
-Nous  distinguerons  trois  «  types  »  de
 méthodes, en remarquant d’emblée que les applications les combinent en général.
 '''3.1 Méthodes sémiotiques propres aux différents médias'''
 C’est   évidemment   la   première   caractéristique   possible   d’une   approche
 sémantique.  Rappelons  que  le  terme  «  sémiotique  »  désigne  l’étude  des  divers
-systèmes  de  signes,  quels  qu’ils  soient  :  ici  donc  le  texte,  l’image,  la  vidéo,  le
+systèmes  de  signes,  quels  qu’ils  soient  :  ici  donc  le  texte,  l’image,  la  vidéo,
-document  sonore,  et  sans  oublier  la  dimension  «  hyperdocument  ».  Une  «  approche
+le document  sonore,  et  sans  oublier  la  dimension  «  hyperdocument  ».  Une  «  approche
 sémantique  »  va  donc  souvent  se  référer  à  une  connaissance  relativement  élaborée
 du « fonctionnement » de ces différents « mode sémiotiques ».
@@ Ligne 439 : / Ligne 326 : @@
 des  méthodes  en  rapport  —  au  delà  d’ailleurs  de  l’EI  stricto  sensu,  jusqu’à  des
 applications   en   Recherche   d’Information   et   en   structuration   de   documents
-composites [DUP 02].
+composites.
 D’autres  auteurs  font  une  référence  peut-être  encore  plus  explicite  à  une
 théorie sémantique  particulière.  C’est  le  cas  de  (Valette)  avec  la  sémantique
@@ Ligne 452 : / Ligne 338 : @@
 (Dutoit et  al.)  proposent  une  réflexion  personnelle  très  «  amont  »  sur  le  thème
 «  forme  et  sens  »,  autour  des  applications  industrielles  développées  par  ces  auteurs
-en ingénierie linguistique.
+en ingénierie linguistique.Toutes   ces   tentatives   illustrent   une   voie   de   recherche   qui   nous   semble fondamentale,  et  susceptible  (à  plus  ou  moins  long  terme,  il  est  vrai)  de  contribuer significativement   à   repousser   certaines   limites   de   l’ingénierie   documentaire évoquées en introduction.
-Toutes   ces   tentatives   illustrent   une   voie   de   recherche   qui   nous   semble
-fondamentale,  et  susceptible  (à  plus  ou  moins  long  terme,  il  est  vrai)  de  contribuer
-significativement   à   repousser   certaines   limites   de   l’ingénierie   documentaire
-évoquées en introduction.
 '''3.2 Ingénierie des connaissances'''
 Ce  second  aspect  a  en  fait  déjà  été  introduit  dans  le  «  schéma  »  proposé  en
-section   2.1.   Il   est   aussi,   à   l’évidence,   porté   par   la   communauté   du   «   Web
+section   2.1.   Il   est   aussi,   à   l’évidence,   porté   par   la   communauté   du   «   Web Sémantique  »  et  ses  «  ontologies  »  et  autres  formats  de  description  de  contenu
-Sémantique  »  et  ses  «  ontologies  »  et  autres  formats  de  description  de  contenu
 (RDF,  Topic  maps  etc.).  Toute  personne  familière  avec  l’IA  reconnaît  dans  ces
-formats des avatars de formalismes de re
+formats des avatars de formalismes de représentation des connaissances développés
-présentation des connaissances développés
+dans  les  années  80  —  avec  une  tentative  d’application  «  en  vraie  grandeur  »  particulièrement réjouissante.
-dans  les  années  80  —  avec  une  tentative  d’application  «  en  vraie  grandeur  »
-particulièrement réjouissante.
 Il  s’agit  donc  ici  d’insister  sur  la  nécessaire  prise  en  considération  du  facteur
@@ Ligne 479 : / Ligne 358 : @@
 Tradition  de  la  RD  ?  Méconnaissance  des  acquis  de  l’ingénierie  des  connaissances,
 en termes de méthodes et d’outils ?  Tradition linguistique volontiers formaliste (le
-«  primat  de  la  syntaxe  »)  ?  On  pourrait  engager  un  débat  salutaire...  Mais  il  nous
+«  primat  de  la  syntaxe  »)  ?  On  pourrait  engager  un  débat  salutaire...  Mais  il  nous semble  que  l’histoire  est  en  train  de  trancher.  Le  «  Web  sémantique  »  gèrera  des connaissances  ou  ne  sera  pas.  Les  combinaisons  Ingénierie  des  connaissances  /
-semble  que  l’histoire  est  en  train  de  trancher.  Le  «  Web  sémantique  »  gèrera  des
-connaissances  ou  ne  sera  pas.  Les  combinaisons  Ingénierie  des  connaissances  /
 Ingénierie linguistique sont devenues une réalité solide (voir par exemple tout ce qui
-touche à l’extraction de terminologie) [CHA 00]. L’EI a de longue date bien mis en
+touche à l’extraction de terminologie) ({{CIDE lien citation|Charlet, 2000}}).
-évidence, et les besoins impératifs en ingénierie des connaissances, et la possibilité
+L’EI a de longue date bien mis en  évidence, et les besoins impératifs en ingénierie des connaissances, et la possibilité de  développer  des  méthodes  «  légères  »  («  shallow  knowledge  »)  appropriées  ({{CIDE lien citation|Piacenza, 1997}}).
-de  développer  des  méthodes  «  légères  »  («  shallow  knowledge  »)  appropriées  [PIA  97].
 '''3.3 Méthodes de structuration du document'''
@@ Ligne 495 : / Ligne 370 : @@
 et   « ingénieuriales », mais qui trouvent ici des applications et, peut-être, un « regard » particuliers. On pense ici typiquement aux technologies XML et hypermédia.
 En fait, presque tous les articles de CIDE 7 utilisent les premières, et beaucoup
-les  secondes  (dans  le  but  de  faciliter  la  navigation  ou  autre  «  arpentage  »  de  bases
+les  secondes  (dans  le  but  de  faciliter  la  navigation  ou  autre  «  arpentage  »  de  bases documentaires). Aux articles déjà cités ajoutons (Blanchon, Boitet), dans le domaine
-documentaires). Aux articles déjà cités ajoutons (Blanchon, Boitet), dans le domaine
 de la traduction automatique interactive. Le système proposé enrichit le texte par des
 annotations  portant  sur  les  segments  reconnus  comme  ambigus  par  le  logiciel  de
@@ Ligne 503 : / Ligne 377 : @@
 proposées. Cette contribution nous paraît significative d’une idée somme toute assez
 simple, mais peut-être fructueuse : l’enrichissement du texte apportant des nouveaux
-«  éléments  de  sens  »  et  susceptible  d’aider  le  lecteur  à  sa  propre  «  interprétation  ».
+«  éléments  de  sens  »  et  susceptible  d’aider  le  lecteur  à  sa  propre  «  interprétation  ». Et  insistons  encore,  sur  (Boukottaya,  Vanoirbeek)  qui,  on  l’a  vu,  proposent  une appréhension  proprement  sémantique  d’XML  lui-même,  à  travers  la  notion  de matching / correspondance de XML schemas.
-Et  insistons  encore,  sur  (Boukottaya,  Vanoirbeek)  qui,  on  l’a  vu,  proposent  une
-appréhension  proprement  sémantique  d’XML  lui-même,  à  travers  la  notion  de
-matching / correspondance de XML schemas.
 Se  dessine  ainsi,  pensons-nous,  un  domaine  à  explorer  :  quels  outils  de
 structuration   /   annotation   développer   à   l’appui   d’approches   sémantique   ?   Et
 comment, en retour, donner une assise sémantique à ces outils ?
 '''4.Conclusion      :      qu’est-ce      qu’une      «      approche      sémantique » du document numérique ?'''
 Le parcours que nous venons d’opérer, autour des contributions à CIDE 7, d’un
@@ Ligne 523 : / Ligne 391 : @@
 parcouru  de  courants  philosophiques,  linguistiques,  sémiologiques...  trop  divers
 pour espérer proposer une réponse « claire et définitive » ! Pour autant il nous paraît
-tout  à  fait  pertinent  de  nous  poser  la  question  du  «  fait  sémantique  »  en  regard  des
+tout  à  fait  pertinent  de  nous  poser  la  question  du  «  fait  sémantique  »  en  regard  des nouvelles  pratiques  à  l’œuvre  dans  le  document  numérique  :  à  la  fois  pour  éclairer ces  dernières,  et  pour  apporter  peut-être un  regard  nouveau,  ou  renouvelé,  sur  le  «  fait  »  en  lui-même.  Nous  tenterons  donc dans  cette  dernière  section  de  repérer quelques  lignes  de  force  transverses  émergeant,  nous  semble-t-il,  des  travaux examinés <ref>  «  Émergence  »  sous  un  certain  regard,  cela  va  sans  dire,  conditionnée  par  certaines positions de principe développées notamment dans ({{CIDE lien citation|Enjalbert, 1996}}) et ({{CIDE lien citation|Gaio, 2001}}). </ref>, sans  manquer  de  se  poser  la  question  critique  de  l’apport  concret, pratique,   d’un   point   de   vue   sémantique   ainsi   qualifié   au   développement   des technologies documentaires.
-nouvelles  pratiques  à  l’œuvre  dans  le  document  numérique  :  à  la  fois  pour  éclairer
-ces  dernières,  et  pour  apporter  peut-être
-un  regard  nouveau,  ou  renouvelé,  sur  le  «  fait  »  en  lui-même.  Nous  tenterons  donc
-dans  cette  dernière  section  de  repérer
-quelques  lignes  de  force  transverses  émergeant,  nous  semble-t-il,  des  travaux
-examinés <ref>  «  Émergence  »  sous  un  certain  regard,  cela  va  sans  dire,  conditionnée  par  certaines
-positions de principe développées notamment dans [ENJ 96] et [GAI  01]. </ref>
-, sans  manquer  de  se  poser  la  question  critique  de  l’apport  concret, pratique,   d’un   point   de   vue   sémantique   ainsi   qualifié   au   développement   des technologies documentaires.
 '''4.1 Dimensions d’une sémantique du document'''
@@ Ligne 543 : / Ligne 402 : @@
 '''1. Une dimension Document-Connaissances'''
 Ce point a déjà été présenté en section 2.1. Une caractéristique majeure, peut-
@@ Ligne 557 : / Ligne 415 : @@
 un certain élargissement, respectant l’idée générale de référence stabilisée.
 Cette notion de connaissance nous paraît également reprendre, de manière plus
-appropriée,  l’idée  de  «  référence  au  m
+appropriée,  l’idée  de  «  référence  au  monde  réel  »  constitutive  de  nombre  de  sémantiques  formelles  du  langage,  et  reprise ici  à  propos  de  l’image  par(Besson et  al.)  :  en  vérité,  l’idée  d’une  telle  référence  directe  au  monde  «  tel qu’il  est  »  paraît  surprenante  à  propos  de  documents  images  dont  on  sait  les
-onde  réel  »  constitutive  de  nombre  de  sémantiques  formelles  du  langage,  et  reprise
-ici  à  propos  de  l’image  par
-(Besson et  al.)  :  en  vérité,  l’idée  d’une  telle  référence  directe  au  monde  «  tel
-qu’il  est  »  paraît  surprenante  à  propos  de  documents  images  dont  on  sait  les
 transformations numériques (quand ce n’est les travestissements) qu’il peuvent
 subir.
 La médiation par une notion de « connaissance », de « représentation du
-monde » paraît nécessaire.  Quoi  qu’il  en  soit,  le  fait  de  porter  attention  à  un  «  niveau  Connaissance  »
+monde » paraît nécessaire. Quoi  qu’il  en  soit,  le  fait  de  porter  attention  à  un  «  niveau  Connaissance  » extérieur en quelque sorte aux documents
-extérieur en quelque sorte aux documents
+eux-mêmes, et dont l’élaboration fait partie de l’ingénierie documentaire, paraît bien émerger de nombre de travaux analysés ci-dessus.
-eux-mêmes, et dont l’élaboration fait
-partie de l’ingénierie documentaire, paraît bien émerger de nombre de travaux
-analysés ci-dessus.
 '''2. Une dimension Document-Document'''
 Il  y  a  deux  facettes  à  cette  dimension.  La  première  est  de  noter  que  de
-nombreux  traitements  vont  se  traduire
+nombreux  traitements  vont  se  traduire in  fine par  la  création  de  nouveaux
-in  fine par  la  création  de  nouveaux
 documents, enrichissant d’une   manière   ou   d’une   autre   le   document   (ou
 l’ensemble  de  documents)  traité.  On  pense  là  par  exemple  à  des  index,  qui
@@ Ligne 586 : / Ligne 436 : @@
 Le  schéma  est  ici  celui  d’un  ajout  de  nouvelles  informations,  intégré  au
 document ou, ce qui revient au même, notées dans un nouveau document relié
-au document traité.
+au document traité.La  seconde  dimension  (non  exclusive  de  la  première)  concerne  l’idée  de structuration du   document.   Découvrir   l’organisation   d’un   document,   sa
-La  seconde  dimension  (non  exclusive  de  la  première)  concerne  l’idée  de
-structuration du   document.   Découvrir   l’organisation   d’un   document,   sa
 structure,  semble  faire  partie  intégrante  de  l’activité  de  «  lecture  »,  comme
-relevé dans la section 2.3. C’est aussi
+relevé dans la section 2.3. C’est aussi une perspective clairement et avec force
-une perspective clairement et avec force
+énoncée dans (Vignaux). C’est toute la problématique de l’hyperdocument qui
-énoncée dans (Vignaux). C’est toute la
+se dessine ici en perspective. On  pourrait  donc  évoquer  ici  une  sémantique  à  la  Peirce,  reprise  notamment  par U. Eco ({{CIDE lien citation|Eco, 1985}}) présentant le sémiotique comme renvoi de signe à signe <ref> « Un signe, s'adresse à quelqu'un (...) crée (...) un signe équivalent, ou peut-être un signe plus développé » (Peirce). </ref>. Avec   probablement   des   actualisations   importantes   liées   aux   technologies  employées. Une direction importante, pensons-nous, pour « penser le document numérique ».
-problématique de l’hyperdocument qui
-se dessine ici en perspective.
-On  pourrait  donc  évoquer  ici  une  sémantique  à  la  Peirce,  reprise  notamment
-par U. Eco [ECO 85] présentant le sémiotique comme renvoi de signe à signe <ref>
-« Un signe, s'adresse à quelqu'un (...) crée (...) un signe équivalent, ou peut-être un signe
-plus développé » (Peirce). </ref>. Avec   probablement   des   actualisations   importantes   liées   aux   technologies
-employées. Une direction importante, pensons-nous, pour « penser le document
-numérique ».
 '''3. Une dimension Humain-Document'''
@@ Ligne 610 : / Ligne 450 : @@
 des faits extraits des textes traités : un support d’information qui n’a donc plus
 rien  à  voir  avec  les  documents  initiaux.  Mais  à  côté  de  ces  approches,  il  en
-existe  d’autres  dont  une  préoccupation  im
+existe  d’autres  dont  une  préoccupation  importante  est  précisément  la  prise  en
-portante  est  précisément  la  prise  en
+compte de l’appropriation du document par le lecteur, et des moyens d’y aider.
-compte de l’appropriation du document par le lecteur,
-et des moyens d’y aider.
 Il  est  frappant  que  l’idée  de  «  navigation  documentaire  »  soit  présente  en
 quelque  sorte  «  en  perspective  »  dans  de  nombreux  articles  de  CIDE  7,  quel
-que soit le centre d’intérêt principal.
+que soit le centre d’intérêt principal.Mais c’est évidemment encore (Vignaux)
-Mais c’est évidemment encore (Vignaux)
 qui développe avec le plus de force et de détails ce point de vue.
 L’étude  en  temps  que  tels  des  modes  d’appropriation  du  document  et  des
@@ Ligne 630 : / Ligne 467 : @@
 tel  regard  sur  le  document.  N’est-ce  qu’un  habillage  théorique  particulier  sans
 conséquence  pratique  ?  Nous  pensons  que  non,  et  voudrions  pour  conclure  relever
-un  certain  nombre  de  points  sur  lesquels  l’apport  méthodologique  nous  paraît
+un certain nombre  de  points  sur  lesquels  l’apport  méthodologique  nous  paraît
-important.
+important. 6 « Un signe, s'adresse à quelqu'un (...) crée (...) un signe équivalent, ou peut-être un signe plus développé » (Peirce).
-« Un signe, s'adresse à quelqu'un (...) crée
-(...) un signe équivalent, ou peut-être un signe
-plus développé » (Peirce).
+'''1)  L’identification du (des) « problème(s) » et de son (leur) ampleur. '''
-'''1)   L’identification du (des) « prob lème(s) » et de son (leur) ampleur. '''
+S’il est effectivement question in fine de « faire du sens » pour l’utilisateur,
-S’il est effectivement question  in fine de « faire du sens » pour l’utilisateur,
 alors, qu’on le veuille ou non, on est confronté aux questions complexes qui
-caractérisent  «  le  sémantique  ».
+caractérisent  «  le  sémantique  ». Le  savoir  peut  éviter  des  impasses,  par
-Le  savoir  peut  éviter  des  impasses,  par
+exemple la recherche de  progrès exclusivement dans   des   techniques   d’analyse   de   données basées sur des « formes pures   »   —   ou   des  déconvenues  prévisibles  :  par  exemple,  on  peut  penser  que  les  travaux actuels  sur  le  «  Question  Answering
-exemple   la   recherche   de   progrès
-exclusivement dans   des   techniques   d’analyse   de   données   basées   sur   des   «   formes   pures   »   —   ou   des
-déconvenues  prévisibles  :  par  exemple,  on  peut  penser  que  les  travaux
-actuels  sur  le  «  Question  Answering
 »  mésestiment  gravement  l’ampleur
 des problèmes à traiter.
 '''2)   Un  point  de  vue  unificateur  entre  différents  médias,  entre  différentes  tâches pouvant se combiner.'''
 De plus en plus nous aurons à traiter de documents multimédia.
 Si l’on en reste  aux  technologies,  aux  procédés  de  calcul,  les  traitements  risquent  de
 longtemps  diverger.  Un  point  de  vue  sémantique  —  ou,  en  l’occurrence,
-sémiotique—  peut  nous  permettre  de  penser  l’
+sémiotique—  peut  nous  permettre  de  penser  l’intégration des  différentes informations et supports.
-intégrationdes  différentes
-informations et supports.
 '''3)  Un décloisonnement des méthodes'''
 Il    est    trop    souvent    convenu    d’opposer    méthodes    numériques    et
 linguistiques,  linguistique  et  ingénierie  des  connaissances,  reconnaissance
 et  interprétation  d’image,  traitement  du  signal  et  niveau  symbolique...
 Alors  même  que  de  plus  en  plus  de  travaux  mêlent  ces  différents  niveaux
-(voir  ici  (Cerbah),  (Charlet),  (Vin
+(voir  ici  (Cerbah),  (Charlet),  (Vinet)  par  exemple).  La  reconnaissance
-et)  par  exemple).  La  reconnaissance
+d’objectifs communs « de haut niveau » peut laisser la place à l’intégration de ces techniques et méthodes.
-d’objectifs communs « de haut niveau
-» peut laisser la place à l’intégration
-de ces techniques et méthodes.
+'''4)  Le développement de méthodes sémiotiques spécifiques'''
-'''4)  Le développement de méthodes sémiotiques spécifiques'''
+Nous pensons qu’un investissement  «  de  fond  »  en relation  avec  des
-Nous  pensons  qu’un  investissement  «  de  fond  »  en  relation  avec  des
 théories  relativement  approfondies  des  différents  «  modes  sémiotiques  »
-(langue,  image,  son,  vidéo...)  est  une  des  voies  pour  progresser,  qu’il
+(langue, image, son,  vidéo...) est  une  des  voies  pour  progresser,  qu’il
 s’agisse  de  «  traitement  du  contenu  »  ou  «  d’appropriation  humaine  du
 document »
+'''5)  Un « retour théorique »'''
-'''5)  Un « retour théorique »'''
+Inversement, le développement d’une telle approche du document
-Inversement,   le   développement   d’une   telle   approche   du   document
 numérique  est  de  nature  à  renouveler  nos  conceptions  du  fait  sémantique,
-ne  serait-ce  que  parce  que  s’offre  ai
+ne  serait-ce  que  parce  que  s’offre ainsi  un  champ  d’expérimentation  et
-nsi  un  champ  d’expérimentation  et
 d’objectivation totalement nouveau. La « linguistique de corpus » (ici dans
-sa  composante  sémantique)  en  a  déjà  pris  conscience  depuis  quelques
+sa  composante  sémantique) en  a  déjà  pris  conscience  depuis  quelques
 temps et indique en quelque sorte une voie prometteuse.
+==Références bibliographiques==
+{{CIDE biblio
+ |id=Bilhaut, 2003
+ |id édité=[[A pour auteur cité:: Frédérik Bilhaut|F. Bilhaut]],  (2003)
+ T., Charmois Y., Mathet
+ |texte=Bilhaut F., Charnois T., Enjalbert P., Mathet Y., « Passage extraction in geographical documents »,'' Proc. Intelligent Information Systems'' 2003, New Trends in Intelligent Information Processing ans Web Mining, Zakopane, Poland, 1-4 Juin 2003, pp. 121-130.
+}}
+{{CIDE biblio
+ |id=Charlet, 2000
+ |id édité=[[ A pour auteur cité:: Jean Charlet|J. Charlet]], (2000)
+ |texte=Charlet. J., « Ingénierie des connaissances », (éd.) ''Eyrolles'', 2000.
+}}
+{{CIDE biblio
+ |id=Ciravegna, 1999
+ |id édité=[[ A pour auteur cité:: Fabio Ciravegna|F. Ciravegna]], (1999)
+ |texte=Ciravegna F., « FACILE:  Classifying Texts Integrating Pattern matching and Information Extraction », ''Proceedings of IJCAI'99'' pp. 890-895, 1999.
+}}
+{{CIDE biblio
+ |id=Dupont, 2002
+ |id édité=[[ A pour auteur cité:: M. Dupont|M. Dupont]] (2002)
+M.,  Vuillaume B., Victorri Y., Mathet
+ |texte=Dupont M., « Nouvelles  tendances en extraction d’informations », ''Techniques et Sciences Informatiques'' », vol 21 n°1/2002, 2002, pp. 37-64, 2002.
+}}
+{{CIDE biblio
+ |id=Eco, 1985
+ |id édité=[[ A pour auteur cité:: Umberto Eco|U. Eco]] (1985)
+ |texte=Eco U., « Lector in Fabula », ''Le livre de Poche, Coll.'' "Essais", n°4098, 1985.
+}}
+{{CIDE biblio
+ |id=Enjalbert, 1996
+ |id édité=[[ A pour auteur cité:: Patrice Enjalbert|P. Enjalbert ]] (1996)
+ |texte=Enjalbert P., « De l'interprétation (sens, structures et processus) », ''Intellectica'', vol 23, n° 2, pp. 79-120, 1996.
+}}
+{{CIDE biblio
+ |id=Gaio, 2001
+ |id édité=[[ A pour auteur cité:: Mauro Gaio|M. Gaio]] (2001)
+ |texte=Gaio M., « Traitements de l’information géographique: représentations et structures »,'' Mémoire d’Habilitation à Diriger les Recherches, Université de Caen'', 2001.
+}}
+{{CIDE biblio
+ |id=Minel, 2003
+ |id édité=[[ A pour auteur cité:: Jean-Luc Minel|J-C. Minel ]] (2003)
+ |texte=Minel J-L., « Filtrage sémantique. Du résumé automatique à la fouille de textes », ''Hermès'', 2003.
+}}
+{{CIDE biblio
+ |id=Piacenza, 1997
+ |id édité=[[ A pour auteur cité:: Piacenza M.-T|M.-T Piacenza]] (1997)
+ |texte= « Information Extraction », Piacenza M.-T., (éd.), ''Springer Verlag'', 1997.
+}}
-==Références bibliographiques==
 {{CIDE biblio
-  |id=BIL   03
+  |id=Poibeau, 2003
-  |texte=Bilhaut   F.,   Charnois   T.,   Enjalbert   P.,   Mathet   Y.,   «   Passage   extraction   in   geographical  documents  »,  Proc.  Intelligent  Information  Systems  2003,  New  Trends in Intelligent Information Processing ans Web Mining, Zakopane, Poland,
+  |id édité=[[ A pour auteur cité:: Thierry Poibeau|T. Poibeau]] (2003)
--4 Juin 2003, pp. 121-130. }}
+  |texte= « Extraction automatique d’information », ''Hermès'', 2003.
-[CHA 00]   Charlet J. (éd.) « Ingénierie des connaissances »,
+}}
-Eyrolles
-, 2000.
-[CIR 99]     Ciravegna,  F.
-et  al.
-,  «  FACILE:  Classifying  Texts
-Integrating  Pattern  matching
-and Information Extraction »,
-Proceedings of IJCAI'99
-, pp. 890-895, 1999.
-[DUP  02]     Dupont  M.,  Vuillaume
-J.-M.,  Victorri  B.,  Enjalbert  P.,  Mathet  Y.,  «  Nouvelles
-tendances  en  extraction  d’informations  »,
-Techniques  et  Sciences  Informatiques
-,
-vol 21 n°1/2002, 2002, pp. 37-64, 2002.
-[ECO 85]   Eco U., « Lector in Fabula »,
-Le livre de Poche, Coll. "Essais"
-, n°4098, 1985.
-[ENJ 96]    Enjalbert P., « De l'interprétation (sens, structures et processus) », Intellectica
-, vol 23, n° 2, pp. 79-120, 1996.
-[GAI   01]   Gaio   M.,   «   Traitements   de   l’information   géographique   :
-représentations   et   structures »,
-Mémoire  d’Habilitation  à  Diriger  les  Recherches,  Université  de
-Caen, 2001.
-[MIN 03]   Minel J.-L., « Filtrage sémantique. Du résumé automatique à la fouille de textes », Hermès, 2003.
 {{CIDE biblio
-  |id=PIA 97
+  |id=Vinet, 2002
-  |texte= Piacenza M.-T., (éd.), « Information Extraction », Springer Verlag, 1997.
+  |id édité=[[ A pour auteur cité:: Hugues Vinet|H. Vinet]] (2002)
+Vinet  H.,  Herrara  P.,  Pachet  F.,
+ |texte= « The CUIDADO Project », ''Proc. Int. Conf. On Music Information Retrieval'', IRCAM, Paris, 2002, pp. 197-203.
 }}
 {{CIDE biblio
-  |id=POI 03
+  |id=Voorhees, 2001
-  |auteur=Poibeau T.
+  |id édité=[[ A pour auteur cité:: Ellen M. Voorhees|E.M. Voorhees]] (2001)
-  |texte=« Extraction automatique d’information », Hermès, 2003.}}
+  |texte= «Overview of the TREC 2001 Question Answering Track », http://trec.nist.gov/pubs/trec10/t10\_proceedings.html, 2001.
-[VIN  02]       Vinet  H.,  Herrara  P.,  Pa
+}}
-chet  F.,  «  The  CUIDADO  Project  »,
-Proc.  Int.  Conf.  On
-Music Information Retrieval
-, IRCAM, Paris, 2002, pp. 197-203.
-[VOO   01]   Voorhees   E.   «Overview   of   the
-TREC   2001   Question   Answering   Track   »,
-http://trec.nist.gov/pubs/trec10/
-t10\_proceedings.html, 2001.
 ==Notes==
 <references/>
+{{CIDE fin corps}}
 [[Catégorie:Article de conférence]]
 __SHOWFACTBOX__