CIDE (2004) Enjalbert : Différence entre versions
imported>Jacques Ducloy |
imported>Jacques Ducloy |
||
Ligne 17 : | Ligne 17 : | ||
Avenue de l'Université, BP 1155, 64013 Pau Cedex - France | Avenue de l'Université, BP 1155, 64013 Pau Cedex - France | ||
Mauro.Gaio@univ-pau.fr | Mauro.Gaio@univ-pau.fr | ||
− | Résumé : | + | |
− | Nous tentons dans cet | + | __TOC__ |
− | + | {{clr}} | |
− | 7 au sein d’un ensemble plus vaste de | + | ;Résumé: Nous tentons dans cet article, à partir d’une analyse des contributions à CIDE 7 au sein d’un ensemble plus vaste de recherches actuelles, de cerner ce que peut être une approche sémantique du document numérique, d’en discerner les caractéristiques et les lignes de force. Nous distinguons ce qui relève des objectifs et des méthodes, pour nous interroger sur ce qui fonde l’unité de ces travaux sous le signe du « sémantique ». |
− | recherches actuelles, de cerner ce que | + | |
− | peut être une approche sémantique du | ||
− | document numérique, d’en discerner les | ||
− | caractéristiques et les lignes de force. Nous distinguons ce qui relève des | ||
− | objectifs et des méthodes, pour nous | ||
− | |||
− | travaux sous le signe du « sémantique ». | ||
Mots-clés : sémantique, docu | Mots-clés : sémantique, docu | ||
ment numérique, méthodologie. | ment numérique, méthodologie. |
Version du 27 mai 2016 à 15:32
Actualité d’une approche sémantique du document électronique
Patrice Enjalbert
1
, Mauro Gaio
2
1
GREYC, Université de Caen,
Campus II, Bd du Mal Juin
, 14032 Caen Cedex - France
Patrice.Enjalbert@info.unicaen.fr
2
LIUPPA, Université de Pau et des Pays de l'Adour,
Avenue de l'Université, BP 1155, 64013 Pau Cedex - France
Mauro.Gaio@univ-pau.fr
- Résumé
- Nous tentons dans cet article, à partir d’une analyse des contributions à CIDE 7 au sein d’un ensemble plus vaste de recherches actuelles, de cerner ce que peut être une approche sémantique du document numérique, d’en discerner les caractéristiques et les lignes de force. Nous distinguons ce qui relève des objectifs et des méthodes, pour nous interroger sur ce qui fonde l’unité de ces travaux sous le signe du « sémantique ».
Mots-clés : sémantique, docu ment numérique, méthodologie. Abstract: In this paper, we try to synthesise the various contributions to CIDE 7 among a wider range of current research, in order to determine what a semantic approach of numerical document can be, and draw out the main trends and characteristics. We dis tinguish objectives and methods, questioning on what « semantic » ground the unity of these works can rely. Key-words: semantics, numeric al document, methodology. 13 Actualité d’une approche sémantique du document numérique 1. Introduction La décision de proposer le thème des « approches sémantiques » pour la septième occurrence de CIDE
est liée à l’observation et à une analyse de certaines
tendances actuelles de la recherche concernant les documents numériques. Une première constatation, assez répandue, touche aux limites qui paraissent atteintes par les techniques « standard » de recherche documentaire. Celles-ci sont, on le sait et pour faire bref, basées sur des analyses de type statistiques de formes directement « perceptibles » par un programme : les mots (ou graphies) qui constituent un texte. A ces techniques on souhaiterait opposer des méthodes traitant véritablement du « contenu » des documents, même, et bien sûr, appréhendé de manière très partielle pour des raisons d’ef ficacité. Le gain attendu est à la fois en termes de rappel (plusieurs mots peuvent tomber sous le même concept objet de la recherche), de richesse de l’interroga tion (dépasser la combinaison booléenne d’indicateurs), mais aussi d’appréhension par l’utilisateur des résultats de sa requête. Une autre version, peut-être moins « radicale », serait de poser le problème en termes d’échelle du corpus documentaire ciblé : au « tout venant » des méthodes à base d’analyse de données, au prix d’une « finesse sémantique » moins grande — des méthodes plus riches, atteignant le « sens » de manière plus profonde, pouvant et devant être développées pour des espaces thématiques plus restreints et des tâches plus spécifiques. Liée à cette première préoccupation est la volonté de décrire, de structurer des corpus documentaires, selon des espaces de connaissances — souvent baptisées ontologies — de référence. Cette structuration étant réalisée « à la main » au cours de la constitution du corpus, ou bénéficiant de traitements de contenu des documents comme évoqué plus loin. Il s’agit de
présenter à l’utilisateur « l’espace
documentaire » selon des concepts qui lui sont a priori familiers, qui « font sens » pour lui. On reconnaîtra ici le projet du « Web Sémantique », qui concerne d’ailleurs l’accès à des objets plus généraux que des documents (du moins dans une acception usuelle) tels que des services de toute nature. La troisième observation est celle d’un essor, et de succès remarquables, de procédures de traitement du contenu « à grande échelle ». Certes, il s’agit de traitements relativement limités, mais certa ins résultats nous semblent tout à fait impressionnants. Le cas d’école en la matière est constitué par la technologie dite de « l’extraction d’information ». Nous reviendrons plus loin sur cette technologie, mais rappelons ici qu’il s’agit de remplir, à partir de textes courts et ciblés (tels que des dépêches d’agence) des « fiches » collationnant les informations factuelles principales. Les meilleurs systèmes sont parvenus à une qualité de l’ordre de 80 % par rapport aux performances humaines avec des temps de développement qui deviennent proches de l’industriellement
acceptable. On peut montrer que les
méthodes développées dans ce cadre ont des retombées et des prolongements très important en termes de recherche d’information « par le contenu » comme évoqué plus haut. Une autre remarque cruciale es t que ces techniques d’analyse sémantique limitée de documents textuels ont leur ex act pendant dans d’autres modalités, qu’il 14 Actualité d’une approche sémantique du document numérique s’agisse d’images fixes, de vidéo ou de documents sonores, notamment musicaux. L’idée d’un accès au « sens »,
à « l’information elle-même
» (encore une fois, fut-ce de manière partielle) au delà des formes
directement perceptibles, semble ainsi
s’imposer comme une direction de recherche crédible « en vraie grandeur ». Complétons encore par deux autres observations, que nous développerons moins ici, mais d’importance. La première concerne plus les « traitements humains » que les « traitements machine ». Elle concerne les usages spécifiques
suscités par la
forme numérique du document : c’est par exemple l’idée de la navigation dans de vastes ensembles de documents, qui conduit à de nouvelles stratégies d’appropriation, de « construction du sens ». Ce qu’il convient d’étudier à la fois en tant que procédure cognitive nouvelle (donc informative sur la cognition en tant que telle) et pour en tirer des indications sur la bonne manière d’organiser la navigation et structurer les espaces documentaires. L’ultime remarque concerne l’impact de la disponibilité de corpus numériques, et des procédures documentaires qui les accompagnent, pour des études en
sémantique On touche-là à certains aspects d’une
« linguistique de corpus » dont l’actualité n’ est plus à démontrer. On peut supposer – mais les auteurs sont moins informés sur ce point – que ce type de démarche se développe ou peut se développer aussi par rapport à d’autres média, en terme d’analyse de « documents », artistiques par exemple. Si l’on partage peu ou prou ces constats, il devient à coup sûr scientifiquement pertinent parler d’approches sémantiques du document numérique et de chercher à confronter et mieux asseoir des démarches de
ce type. Tel a été l’objectif de CIDE 7.
L’appel (dont les grandes lignes sont repris es dans la préface) a été volontairement très ouvert, de manière à permettre le pl us large « balisage », avec le moins d’ a priori
possible, de ce nouveau champ.
Nous voudrions maintenant, en nous appuyant fortement sur ces différentes contributions 1 , tenter de préciser ce qui nous paraît être quelques orientations de recherche pertinentes et prometteuses, et
esquisser une cartographie possible du
champ de recherche. Classiquement, nous commencerons par la question des objectifs , des tâches , visés, avant de nous intéresser aux méthodes
pour les atteindre
ou réaliser. Nous pourrons alors poser et discuter la question de l’ unité de travaux ainsi rassemblés, et somme toutes assez divers, sous le signe de la sémantique. 2. Objectifs Nous allons donc examiner ici des objectifs de recherche –en relation avec le document numérique – que l’on peut, à notre sens, et à un titre ou un autre, qualifier de sémantiques. Cette qualification est à l’évidence problématique si l’on considère la diversité des objectifs en question. Aussi tenterons-nous, en même temps qu’une description de fait, d’interroger le terme même de « sémantique ». En accord avec 1 Dont l’interprétation dans les lignes qui suivent est évidemment de notre seule responsabilité. 15 Actualité d’une approche sémantique du document numérique l’esprit d’ouverture de l’appel à communication rappelé plus haut, nous prendrons au sérieux la « revendication » par les auteurs d’une telle qualification de leurs travaux, la considérant comme une bonne heuristique dans notre réflexion. Il nous semble pouvoir mettre en évidence trois champs d’étude (ou trois facettes du même champ) que nous allons examiner succincte ment. Il ne s’agit évidemment pas d’une « nomenclature » figée et complète. Mais quelques lignes de force, au moins à titre d’hypothèse, nous semblent se dégager. 2.1
Organisation et description de corpus documentaires
L’optique est ici essentiellement macr oscopique. Il s’agit de considérer les collections documentaires
et leur organisation et description en vue d’un usage
donné : on retrouve là la problématique de l’indexation en recherche documentaire (RD) « traditionnelle », mais aussi la structuration hypertextuelle ou toute autre structuration propre à « navigation » dans les bases documentaires, l’organisation spécifique de documentations techniques ou de corpus artistiques (musicaux par exemple), etc. Quelle peut être la caractérisation d’une approche sémantique de la question ? Nous proposons l’idée suivante
: la mise en évidence d’un certain
espace de « valeurs
»,
« notions », « concepts »
(selon les points de vue ou les
a priori théoriques) stabilisé
et doté d’une
organisation propre , auquel les documents sont rapportés , et qui peut « faire sens » (pour parler intuitivement) pour l’usager. Plusieurs articles de la conférence peuvent se discuter sous cet angle. Dans (Crestan et al. ) 2
deux espaces sont envisagés (dans une finalité de RD classique) : le
premier est structuré en « environ 800 dimensions » correspondant à des « concepts » représentés par des « sacs de mo ts », et censés permettre de repérer tout mot de la langue française ; le second est constitué d’ entités nommés (personnes, lieux, dates...) dont il faut bien voir que ce sont en effet des entités concrètes
(par
nature typées), différentes de leurs réalisations langagières, qui peuvent être multiples. (Bénel) s’intéresse spécifiquem ent aux documents archéologiques, et à l’annotation de segments documentaires, permettant une indexation et un « arpentage » des collections, dans l’optique « d’offrir (...) des assistants à la construction du sens dans les bibliothèques numériques ». La référence à un corps de connaissances archéologiques est extrêmement nette, l’un des points traités étant la gestion de points vue divers selon les experts. (Bonardi et Rousseau) étudient l’indexation d’œuvres musicales : ils montrent comment les collections de CD sont actuellement rangés selon des critères fixes de genre, auteur etc., critiquent cette pratique et prônent une approche centrée sur des notions de prototype et de similarité : on voit donc là un débat entre deux modes d’indexation, un traditionnel qui serait sans doute celui des « ontologies » et un mode original, d’inspiration cognitive (prototype). Il faudrait encore mentionner le travail de (Besson et al. ) sur les bases d’image mais nous y reviendrons plus loin. 2 Les références sous cet te forme portent sur des ar ticles du présent volume. 16 Actualité d’une approche sémantique du document numérique Les contributions de (Charlet et al. ) et (Cerbah) proposent un regard un peu différent. La première présente une mét hode de constitution semi-automatique d’un index d’ouvrage scientifique : pour être bref, disons qu’il s’agit d’une application de procédures d’acquisition de terminologie. Elle nous paraît bien relever du cadre proposé plus haut, dans la mesure où les auteurs la positionnent (entre autres) en terme d’ingénierie des connaissances : il s’agirait en quelque sorte de faire émerger et d’acquérir le corps de connaissances terminologiques , auquel l’ouvrage pourra alors être « rapporté ». (Cerbah) s’inscrit dans « une approche structurée de la documentation technique », conduisant à « fragmenter tout fonds documentaire en unités autonomes au contenu clairement spécifié » mises en relation par des hyperliens. Son insistance sur la nécessité d’une « interprétation plus ou moins profonde du contenu textuel balisé » (pour être mis en hypertexte) nous paraît de nouveau adéquate avec l’ex igence mise en avant dans notre proposition d’une identification claire, en termes de doma ine de connaissance (ici : un domaine technique), de l’espace de repérage. Bien évidemment, la problématique que nous décrivons est aussi au cœur du dit « web sémantique » et de ses fameuses « ontologies ». Quelques remarques pour conclure ce premier aspect. D’abord pour souligner que la question de cette « indexation sémantique » peut être abordée de manière indépendante de celle des traitements : quels sont les bons principes et modes de description/structuration ? L’indexation elle-même pouvant être réalisée « à la main » comme dans (Bénel) ou dans beaucoup de travaux du web sémantique. Par contre on peut aussi s’interroger sur la manière d’indexer automatiquement (ou semi-automatiquement) les documents une fois le mode d’organisation choisi, ce qui nous conduit inévitablement au problème des traitements « sémantiques » (ou « du contenu » etc.) des documents. Enfin, notons que la question se pose quel que soit le média. 2.2 Analyse du « contenu » des documents Nous pourrons partir ici de la technologie dite de l’ Extraction d’Information (EI)
[PIA 97] [POI 03], évoquée plus haut comme emblématique de progrès récents
en « analyse de contenu ». Il ne sera sans doute pas évident pour tout le monde de l’appréhender dans son caractère sémantique. Beaucoup d’auteurs, peut-être la majorité, y voient une question « technologique » relativement neutre, concernant par exemple l’utilisation d’automates (o u transducteurs) pour reconnaître les « motifs » ou « patrons » textuels porteurs de l’information à extraire, et de méthodes d’apprentissage pour acquérir ces motifs. Et lorsque des considérations linguistiques sont invoquées, c’est bien souvent sous l’angle de l’analyse syntaxique, dite en l’occurrence « légère » (« shallow parsing »). Pourtant il est facile de montrer la filiation avec les projets de « compréhension automatique » développés en Intelligence Artificielle dans les années 1980, dans une mutuelle fécondation avec d’autres tr aditions d’ingénierie linguistique et documentaire [DUP 02] [POI 03]. Or qui dit « compréhension », automatique ou non, dit évidemment « sémantique ». Le fait qu’elle soit en EI partielle, limitée 17