CIDE (2004) Enjalbert

Actualité d’une approche sémantique du document électronique

titre

Actualité d’une approche sémantique du document électronique

auteurs

Patrice Enjalbert¹ et Mauro Gaio²

Patrice.Enjalbert@info.unicaen.fr

Mauro.Gaio@univ-pau.fr

Affiliations

GREYC, Université de Caen, Campus II, Bd du Mal Juin, 14032 Caen Cedex - France
LIUPPA, Université de Pau et des Pays de l'Adour, Avenue de l'Université, BP 1155, 64013 Pau Cedex - France

In: CIDE'07 (La Rochelle 2004)
Mots-clés: sémantique, document numérique, méthodologie.
PDF accessible: Via l'ensemble des actes : doc:actes/Actes-Cide7.pdf

Sommaire

1 Introduction
2 Objectifs
- 2.1 Organisation et description de corpus documentaires
- 2.2 Analyse du « contenu » des documents
3 Références bibliographiques
4 Notes

Résumé: Nous tentons dans cet article, à partir d’une analyse des contributions à CIDE 7 au sein d’un ensemble plus vaste de recherches actuelles, de cerner ce que peut être une approche sémantique du document numérique, d’en discerner les caractéristiques et les lignes de force. Nous distinguons ce qui relève des objectifs et des méthodes, pour nous interroger sur ce qui fonde l’unité de ces travaux sous le signe du « sémantique ».

page en cours d'importation

Abstract: In this paper, we try to synthesise the various contributions to CIDE 7 among a wider range of current research, in order to determine what a semantic approach of numerical document can be, and draw out the main trends and characteristics. We dis tinguish objectives and methods, questioning on what « semantic » ground the unity of these works can rely. Key-words: semantics, numeric al document, methodology. 13 Actualité d’une approche sémantique du document numérique

Introduction

La décision de proposer le thème des « approches sémantiques » pour la septième occurrence de CIDE est liée à l’observation et à une analyse de certaines tendances actuelles de la recherche concernant les documents numériques.

Une première constatation, assez répandue, touche aux limites qui paraissent atteintes par les techniques « standard » de recherche documentaire. Celles-ci sont, on le sait et pour faire bref, basées sur des analyses de type statistiques de formes directement « perceptibles » par un programme : les mots (ou graphies) qui constituent un texte. A ces techniques on souhaiterait opposer des méthodes traitant véritablement du « contenu » des documents, même, et bien sûr, appréhendé de manière très partielle pour des raisons d’efficacité. Le gain attendu est à la fois en termes de rappel (plusieurs mots peuvent tomber sous le même concept objet de la recherche), de richesse de l’interrogation (dépasser la combinaison booléenne d’indicateurs), mais aussi d’appréhension par l’utilisateur des résultats de sa requête.

Une autre version, peut-être moins « radicale », serait de poser le problème en termes d’échelle du corpus documentaire ciblé : au « tout venant » des méthodes à base d’analyse de données, au prix d’une « finesse sémantique » moins grande — des méthodes plus riches, atteignant le « sens » de manière plus profonde, pouvant et devant être développées pour des espaces thématiques plus restreints et des tâches plus spécifiques.

Liée à cette première préoccupation est la volonté de décrire, de structurer des corpus documentaires, selon des espaces de connaissances — souvent baptisées ontologies — de référence. Cette structuration étant réalisée « à la main » au cours de la constitution du corpus, ou bénéficiant de traitements de contenu des documents comme évoqué plus loin. Il s’agit de présenter à l’utilisateur « l’espace documentaire » selon des concepts qui lui sont a priori familiers, qui « font sens » pour lui. On reconnaîtra ici le projet du « Web Sémantique », qui concerne d’ailleurs l’accès à des objets plus généraux que des documents (du moins dans une acception usuelle) tels que des services de toute nature.

La troisième observation est celle d’un essor, et de succès remarquables, de procédures de traitement du contenu « à grande échelle ». Certes, il s’agit de traitements relativement limités, mais certains résultats nous semblent tout à fait impressionnants. Le cas d’école en la matière est constitué par la technologie dite de « l’extraction d’information ». Nous reviendrons plus loin sur cette technologie, mais rappelons ici qu’il s’agit de remplir, à partir de textes courts et ciblés (tels que des dépêches d’agence) des « fiches » collationnant les informations factuelles principales. Les meilleurs systèmes sont parvenus à une qualité de l’ordre de 80 % par rapport aux performances humaines avec des temps de développement qui deviennent proches de l’industriellement acceptable. On peut montrer que les méthodes développées dans ce cadre ont des retombées et des prolongements très important en termes de recherche d’information « par le contenu » comme évoqué plus haut. Une autre remarque cruciale est que ces techniques d’analyse sémantique limitée de documents textuels ont leur exact pendant dans d’autres modalités, qu’il s’agisse d’images fixes, de vidéo ou de documents sonores, notamment musicaux. L’idée d’un accès au « sens », à « l’information elle-même » (encore une fois, fut-ce de manière partielle) au delà des formes directement perceptibles, semble ainsi s’imposer comme une direction de recherche crédible « en vraie grandeur ».

Complétons encore par deux autres observations, que nous développerons moins ici, mais d’importance. La première concerne plus les « traitements humains » que les « traitements machine ». Elle concerne les usages spécifiques suscités par la forme numérique du document : c’est par exemple l’idée de la navigation dans de vastes ensembles de documents, qui conduit à de nouvelles stratégies d’appropriation, de « construction du sens ». Ce qu’il convient d’étudier à la fois en tant que procédure cognitive nouvelle (donc informative sur la cognition en tant que telle) et pour en tirer des indications sur la bonne manière d’organiser la navigation et structurer les espaces documentaires. L’ultime remarque concerne l’impact de la disponibilité de corpus numériques, et des procédures documentaires qui les accompagnent, pour des études en sémantique On touche-là à certains aspects d’une « linguistique de corpus » dont l’actualité n’est plus à démontrer. On peut supposer – mais les auteurs sont moins informés sur ce point – que ce type de démarche se développe ou peut se développer aussi par rapport à d’autres média, en terme d’analyse de « documents », artistiques par exemple.

Si l’on partage peu ou prou ces constats, il devient à coup sûr scientifiquement pertinent parler d’approches sémantiques du document numérique et de chercher à confronter et mieux asseoir des démarches de ce type. Tel a été l’objectif de CIDE 7. L’appel (dont les grandes lignes sont repris es dans la préface) a été volontairement très ouvert, de manière à permettre le plus large « balisage », avec le moins d’a priori possible, de ce nouveau champ.

Nous voudrions maintenant, en nous appuyant fortement sur ces différentes contributions^[1], tenter de préciser ce qui nous paraît être quelques orientations de recherche pertinentes et prometteuses, et esquisser une cartographie possible du champ de recherche. Classiquement, nous commencerons par la question des objectifs , des tâches , visés, avant de nous intéresser aux méthodes pour les atteindre ou réaliser. Nous pourrons alors poser et discuter la question de l’unité de travaux ainsi rassemblés, et somme toutes assez divers, sous le signe de la sémantique.

Objectifs

Nous allons donc examiner ici des objectifs de recherche –en relation avec le document numérique – que l’on peut, à notre sens, et à un titre ou un autre, qualifier de sémantiques. Cette qualification est à l’évidence problématique si l’on considère la diversité des objectifs en question. Aussi tenterons-nous, en même temps qu’une description de fait, d’interroger le terme même de « sémantique ». En accord avec l’esprit d’ouverture de l’appel à communication rappelé plus haut, nous prendrons au sérieux la « revendication » par les auteurs d’une telle qualification de leurs travaux, la considérant comme une bonne heuristique dans notre réflexion. Il nous semble pouvoir mettre en évidence trois champs d’étude (ou trois facettes du même champ) que nous allons examiner succincte ment. Il ne s’agit évidemment pas d’une « nomenclature » figée et complète. Mais quelques lignes de force, au moins à titre d’hypothèse, nous semblent se dégager.

Organisation et description de corpus documentaires

L’optique est ici essentiellement macroscopique. Il s’agit de considérer les collections documentaires et leur organisation et description en vue d’un usage donné : on retrouve là la problématique de l’indexation en recherche documentaire (RD) « traditionnelle », mais aussi la structuration hypertextuelle ou toute autre structuration propre à « navigation » dans les bases documentaires, l’organisation spécifique de documentations techniques ou de corpus artistiques (musicaux par exemple), etc.

Quelle peut être la caractérisation d’une approche sémantique de la question ? Nous proposons l’idée suivante : la mise en évidence d’un certain espace de « valeurs », « notions », « concepts » (selon les points de vue ou les a priori théoriques) stabilisé et doté d’une organisation propre , auquel les documents sont rapportés , et qui peut « faire sens » (pour parler intuitivement) pour l’usager. Plusieurs articles de la conférence peuvent se discuter sous cet angle. Dans (Crestan et al.)^[2] deux espaces sont envisagés (dans une finalité de RD classique) : le premier est structuré en « environ 800 dimensions » correspondant à des « concepts » représentés par des « sacs de mots », et censés permettre de repérer tout mot de la langue française ; le second est constitué d’entités nommées (personnes, lieux, dates...) dont il faut bien voir que ce sont en effet des entités concrètes (par nature typées), différentes de leurs réalisations langagières, qui peuvent être multiples. (Bénel) s’intéresse spécifiquement aux documents archéologiques, et à l’annotation de segments documentaires, permettant une indexation et un « arpentage » des collections, dans l’optique « d’offrir (...) des assistants à la construction du sens dans les bibliothèques numériques ». La référence à un corps de connaissances archéologiques est extrêmement nette, l’un des points traités étant la gestion de points vue divers selon les experts. (Bonardi et Rousseau) étudient l’indexation d’œuvres musicales : ils montrent comment les collections de CD sont actuellement rangés selon des critères fixes de genre, auteur etc., critiquent cette pratique et prônent une approche centrée sur des notions de prototype et de similarité : on voit donc là un débat entre deux modes d’indexation, un traditionnel qui serait sans doute celui des « ontologies » et un mode original, d’inspiration cognitive (prototype). Il faudrait encore mentionner le travail de (Besson et al.) sur les bases d’image mais nous y reviendrons plus loin.

Les contributions de (Charlet et al. ) et (Cerbah) proposent un regard un peu différent. La première présente une mét hode de constitution semi-automatique d’un index d’ouvrage scientifique : pour être bref, disons qu’il s’agit d’une application de procédures d’acquisition de terminologie. Elle nous paraît bien relever du cadre proposé plus haut, dans la mesure où les auteurs la positionnent (entre autres) en terme d’ingénierie des connaissances : il s’agirait en quelque sorte de faire émerger et d’acquérir le corps de connaissances terminologiques , auquel l’ouvrage pourra alors être « rapporté ». (Cerbah) s’inscrit dans « une approche structurée de la documentation technique », conduisant à « fragmenter tout fonds documentaire en unités autonomes au contenu clairement spécifié » mises en relation par des hyperliens. Son insistance sur la nécessité d’une « interprétation plus ou moins profonde du contenu textuel balisé » (pour être mis en hypertexte) nous paraît de nouveau adéquate avec l’ex igence mise en avant dans notre proposition d’une identification claire, en termes de doma ine de connaissance (ici : un domaine technique), de l’espace de repérage. Bien évidemment, la problématique que nous décrivons est aussi au cœur du dit « web sémantique » et de ses fameuses « ontologies ». Quelques remarques pour conclure ce premier aspect. D’abord pour souligner que la question de cette « indexation sémantique » peut être abordée de manière indépendante de celle des traitements : quels sont les bons principes et modes de description/structuration ? L’indexation elle-même pouvant être réalisée « à la main » comme dans (Bénel) ou dans beaucoup de travaux du web sémantique. Par contre on peut aussi s’interroger sur la manière d’indexer automatiquement (ou semi-automatiquement) les documents une fois le mode d’organisation choisi, ce qui nous conduit inévitablement au problème des traitements « sémantiques » (ou « du contenu » etc.) des documents. Enfin, notons que la question se pose quel que soit le média.

Analyse du « contenu » des documents

Nous pourrons partir ici de la technologie dite de l’Extraction d’Information (EI) [PIA 97] [POI 03], évoquée plus haut comme emblématique de progrès récents en « analyse de contenu ». Il ne sera sans doute pas évident pour tout le monde de l’appréhender dans son caractère sémantique. Beaucoup d’auteurs, peut-être la majorité, y voient une question « technologique » relativement neutre, concernant par exemple l’utilisation d’automates (o u transducteurs) pour reconnaître les « motifs » ou « patrons » textuels porteurs de l’information à extraire, et de méthodes d’apprentissage pour acquérir ces motifs. Et lorsque des considérations linguistiques sont invoquées, c’est bien souvent sous l’angle de l’analyse syntaxique, dite en l’occurrence « légère » (« shallow parsing »). Pourtant il est facile de montrer la filiation avec les projets de « compréhension automatique » développés en Intelligence Artificielle dans les années 1980, dans une mutuelle fécondation avec d’autres tr aditions d’ingénierie linguistique et documentaire [DUP 02] [POI 03]. Or qui dit « compréhension », automatique ou non, dit évidemment « sémantique ». Le fait qu’elle soit en EI partielle, limitée 17

Références bibliographiques

[BIL 03] ↑ Bilhaut F., Charnois T., Enjalbert P., Mathet Y., « Passage extraction in geographical documents », Proc. Intelligent Information Systems 2003, New Trends in Intelligent Information Processing ans Web Mining, Zakopane, Poland, 1-4 Juin 2003, pp. 121-130.

[CHA 00] Charlet J. (éd.) « Ingénierie des connaissances », Eyrolles , 2000. [CIR 99] Ciravegna, F. et al. , « FACILE: Classifying Texts Integrating Pattern matching and Information Extraction », Proceedings of IJCAI'99 , pp. 890-895, 1999. [DUP 02] Dupont M., Vuillaume J.-M., Victorri B., Enjalbert P., Mathet Y., « Nouvelles tendances en extraction d’informations », Techniques et Sciences Informatiques , vol 21 n°1/2002, 2002, pp. 37-64, 2002. [ECO 85] Eco U., « Lector in Fabula », Le livre de Poche, Coll. "Essais" , n°4098, 1985. [ENJ 96] Enjalbert P., « De l'interprétation (sens, structures et processus) », Intellectica , vol 23, n° 2, pp. 79-120, 1996. [GAI 01] Gaio M., « Traitements de l’information géographique : représentations et structures », Mémoire d’Habilitation à Diriger les Recherches, Université de Caen, 2001. [MIN 03] Minel J.-L., « Filtrage sémantique. Du résumé automatique à la fouille de textes », Hermès, 2003.

[PIA 97] ↑ Piacenza M.-T., (éd.), « Information Extraction », Springer Verlag, 1997.

[POI 03] ↑ Poibeau T., « Extraction automatique d’information », Hermès, 2003.

[VIN 02] Vinet H., Herrara P., Pa chet F., « The CUIDADO Project », Proc. Int. Conf. On Music Information Retrieval , IRCAM, Paris, 2002, pp. 197-203. [VOO 01] Voorhees E. «Overview of the TREC 2001 Question Answering Track », http://trec.nist.gov/pubs/trec10/ t10\_proceedings.html, 2001.

Notes

↑ Dont l’interprétation dans les lignes qui suivent est évidemment de notre seule responsabilité.
↑ Les références sous cette forme portent sur des articles du présent volume.

[1] Dont l’interprétation dans les lignes qui suivent est évidemment de notre seule responsabilité.

[2] Les références sous cette forme portent sur des articles du présent volume.

[1]

[2]

CIDE (2004) Enjalbert

Sommaire

Introduction

Objectifs

Organisation et description de corpus documentaires

Analyse du « contenu » des documents

Références bibliographiques

Notes

Menu de navigation

Affichages

Outils personnels

Navigation

Rechercher

Outils