CIDE (2004) Enjalbert : Différence entre versions

De CIDE
imported>Jacques Ducloy
imported>Yildiz Hobere
Ligne 245 : Ligne 245 :
 
non,  dit  évidemment  «  sémantique  ».  Le  fait  qu’elle  soit  en  EI  partielle,  limitée   
 
non,  dit  évidemment  «  sémantique  ».  Le  fait  qu’elle  soit  en  EI  partielle,  limitée   
 
17
 
17
 +
 +
 +
Actualité d’une approche sémantique du document numérique
 +
résumé — et tout en gardant un lien sur le document original, dans une perspective
 +
de navigation intra-documentaire [MIN 03]. Est-ce là une question et une approche
 +
« sémantique » ? Nous y reviendrons dans la quatrième partie.
 +
Finalement il nous semble que cette préoccupation « structurelle » est aussi au
 +
cœur d’un article très différent, à savoi
 +
r (Boukottaya, Vanoirbeek). L’article pose le
 +
problème  de  correspondance
 +
s  entre  XML-schémas,  de  manière  à  «  échanger  des 
 +
données  XML  entre  applications  Web  autonomes  et  hétérogènes  ».  Ce  qui  est  ici 
 +
significatif de notre propos est la
 +
fonction sémantique de la structuration
 +
même, qui
 +
nous  semble  exprimée  par  les  auteurs,  lorsqu’elles  parlent  «  d’
 +
information
 +
sémantique
 +
nichée  dans  la  structure  du  document  »  (« 
 +
semantic  information
 +
  nested 
 +
within  the  document  structure  »).  «  La  sé
 +
mantique  est  d’abord  capturée  à  travers 
 +
l’explicitation de la signification du nom de
 +
s éléments, et ensuite à travers l’analyse
 +
du point de vue du concepteur du XML-schéma, exprimée par l’organisation logique
 +
du contenu XML (...) ».
 +
3.
 +
Méthodes
 +
La question que nous posons maintenant est la suivante : Y a-t-il des méthodes
 +
spécifiques  d’une  approche  sémantique  ?  Et/ou  des  regards  particuliers  sur  des 
 +
méthodes  «  plus  générales  »  ?    Ici,  plus  que  jamais,  la  réflexion  est  prospective, 
 +
l’enjeu  étant  de  réfléchir  sans 
 +
a  priori
 +
  aux  moyens  à  mettre  en  œuvre  pour  réaliser 
 +
des  objectifs  tels  que  présentés  ci-dessus.
 +
  Nous  distinguerons  trois  «  types  »  de 
 +
méthodes, en remarquant d’emblée que les applications les combinent en général. 
 +
3.1
 +
Méthodes sémiotiques propres aux différents médias
 +
C’est  évidemment  la  première  car
 +
actéristique  possible  d’une  approche 
 +
sémantique.  Rappelons  que  le  terme  «  sémiotique  »  désigne  l’étude  des  divers 
 +
systèmes  de  signes,  quels  qu’ils  soient  :  ic
 +
i  donc  le  texte,  l’image,  la  vidéo,  le 
 +
document  sonore,  et  sans  oublier  la  dimension  «  hyperdocument  ».  Une  «  approche 
 +
sémantique  »  va  donc  souvent  se  référer  à  une  connaissance  relativement  élaborée 
 +
du « fonctionnement » de ces différents « mode sémiotiques ». 
 +
Un  certain  nombre  de  travaux  de  CIDE  7  déjà  mentionnés  entrent  dans  cette 
 +
« rubrique » :  (Besson
 +
et  al.
 +
)  mettent  en  œuvre  des  méthodes  d’analyse  et 
 +
d’interprétation  d’image  :  (Vinet)  développe  un  modèle  sémiotique  complet  du 
 +
document musical ; (Cerbah), (Smolczewska,
 +
Lallich-Boidin), (Charlet), (Crestan
 +
et
 +
al.
 +
) réfèrent à des modèles linguistiques, avec une composante sémantique forte, du
 +
lexique (Cerbah) au discours (Smo
 +
lczewska, Lallich-Boidin), (Lessard
 +
et al.
 +
). Nous
 +
avons  déjà  eu  l’occasion  (section  2.2)  d’in
 +
sister  sur  la  dimension  sémantique  de 
 +
l’Extraction d’Information et de mentionner nos propres recherches pour développer
 +
des  méthodes  en  rapport  —  au  delà  d’ailleurs  de  l’EI 
 +
stricto  sensu
 +
,  jusqu’à  des 
 +
applications  en  Recherche  d’Information  et  en  structuration  de  documents 
 +
composites [DUP 02].
 +
21
 +
Actualité d’une approche sémantique du document numérique
 +
D’autres  auteurs  font  une  référence  peut-être  encore  plus  explicite  à  une 
 +
théorie
 +
  sémantique  particulière.  C’est  le  cas  de  (Valette)  avec  la  sémantique 
 +
différentielle  de  François  Rastier,  qui  tr
 +
ouve  là  une  application  particulièrement 
 +
originale  et  stimulante  au  «  web  »,  débouchant  sur  une  approche  non  triviale  —  en 
 +
gros  «  anti-ontologique  »,  et  intégrant  des  facettes  variées,  non  exclusivement 
 +
linguistiques  au    sens  usuel  du  terme.  (Perlerin,  Ferrari)  se  réfère  également  à  la 
 +
sémantique  différentielle  avec  une  application  à  la  détection  des  métaphores  et  un 
 +
prolongement  plus  large  sur  la  conception  d’outils  d’exploration  de  textes.  Enfin 
 +
(Dutoit
 +
et  al.
 +
)  proposent  une  réflexion  personnelle  très  «  amont  »  sur  le  thème 
 +
«  forme  et  sens  »,  autour  des  applications  industrielles  développées  par  ces  auteurs 
 +
en ingénierie linguistique.
 +
Toutes  ces  tentatives  illustrent  une  voie  de  recherche  qui  nous  semble 
 +
fondamentale,  et  susceptible  (à  plus  ou  moin
 +
s  long  terme,  il  est  vrai)  de  contribuer 
 +
significativement  à  repousser  certaines  li
 +
mites  de  l’ingénierie  documentaire 
 +
évoquées en introduction.
 +
3.2
 +
Ingénierie des connaissances
 +
Ce  second  aspect  a  en  fait  déjà  été  introduit  dans  le  «  schéma  »  proposé  en 
 +
section  2.1.  Il  est  aussi,  à  l’évidence,  porté  par  la  communauté  du  «  Web 
 +
Sémantique  »  et  ses  «  ontologies  »  et  autres  formats  de  description  de  contenu 
 +
(RDF,  Topic  maps  etc.).  Toute  personne  familière  avec  l’IA  reconnaît  dans  ces 
 +
formats des avatars de formalismes de re
 +
présentation des connaissances développés
 +
dans  les  années  80  —  avec  une  tentative  d’application  «  en  vraie  grandeur  » 
 +
particulièrement réjouissante. 
 +
Il  s’agit  donc  ici  d’insister  sur  la  néce
 +
ssaire  prise  en  considération  du  facteur 
 +
« ingénierie des connaissances » dans une approche sémantique du document.  Cette
 +
conception  va  à  l’encontre  de  bien  des  idées  reçues  et  de  bien  des  pratiques 
 +
courantes.  L’idée  communément  admise  est  effet  plutôt  que  seuls  des  «  traitements 
 +
de  surface  »,  «  de  la  forme  »  sont  possible,  pour  une  double  raison  de  temps  de 
 +
développement et de temps de calcul.
 +
Il  y  aurait  à  s’interroger  sur  la  prégnance  de  cet 
 +
a  priori
 +
  méthodologique. 
 +
Tradition  de  la  RD  ?  Méconnaissance  des  acquis  de  l’ingénierie  des  connaissances, 
 +
en termes de méthodes et d’outils ?  Tradit
 +
ion linguistique volontiers formaliste (le
 +
«  primat  de  la  syntaxe  »)  ?  On  pourrait  engager  un  débat  salutaire...  Mais  il  nous 
 +
semble  que  l’histoire  est  en  train  de  trancher.  Le  «  Web  sémantique  »  gèrera  des 
 +
connaissances  ou  ne  sera  pas.  Les  combin
 +
aisons  Ingénierie  des  connaissances  / 
 +
Ingénierie linguistique sont devenues une réalité solide (voir par exemple tout ce qui
 +
touche à l’extraction de terminologie) [CHA 00]. L’EI a de longue date bien mis en
 +
évidence, et les besoins impératifs en ingénierie des connaissances, et la possibilité
 +
de  développer  des  méthodes  «  légères  »  («  shallow  knowledge  »)  appropriées  [PIA 
 +
97]. 
 +
22
 +
Actualité d’une approche sémantique du document numérique
 +
3.3
 +
Méthodes de structuration du document
 +
La dernière « facette » considérée ici concerne la structuration du document. Il
 +
s’agit  donc  au  départ  de  méthodes  on  ne  peut  plus  «  généralistes  »  et 
 +
« ingénieuriales », mais qui trouvent ici des applications et, peut-être, un « regard »
 +
particuliers. On pense ici typiquement aux technologies XML et hypermédia.
 +
En fait, presque tous les articles de CIDE 7 utilisent les premières, et beaucoup
 +
les  secondes  (dans  le  but  de  faciliter  la  navigation  ou  autre  «  arpentage  »  de  bases 
 +
documentaires). Aux articles déjà cités ajoutons (Blanchon, Boitet), dans le domaine
 +
de la traduction automatique interactive. Le système proposé enrichit le texte par des
 +
annotations  portant  sur  les  segments  reconnus  comme  ambigus  par  le  logiciel  de 
 +
traduction.  Ces  annotations  sont  en  quelque  sorte  dynamiques,  et  ouvrent  une  boîte 
 +
de  dialogue  permettant  à  l’utilisateur  de  choisir  parmi  plusieurs  traductions 
 +
proposées. Cette contribution nous paraît significative d’une idée somme toute assez
 +
simple, mais peut-être fructueuse : l’enrichissement du texte apportant des nouveaux
 +
«  éléments  de  sens  »  et  susceptible  d’aider  le  lecteur  à  sa  propre  «  interprétation  ». 
 +
Et  insistons  encore,  sur  (Boukottaya,  Vanoirbeek)  qui,  on  l’a  vu,  proposent  une 
 +
appréhension  proprement  sémantique  d’XML  lui-même,  à  travers  la  notion  de 
 +
matching / correspondance de XML schemas. 
 +
Se  dessine  ainsi,  pensons-nous,  un  domaine  à  explorer  :  quels  outils  de 
 +
structuration  /  annotation  développer  à  l’appui  d’approches  sémantique  ?  Et 
 +
comment, en retour, donner une assise sémantique à ces outils ?
 +
4.
 +
Conclusion      :      qu’est-ce      qu’une      «      approche     
 +
sémantique » du document numérique ?
 +
Le parcours que nous venons d’opérer, autour des contributions à CIDE 7, d’un
 +
ensemble  de  travaux  actuels  qualifiables  de  «  sémantiques  »  à  un  titre  ou  un  autre 
 +
laisse  apparaître  une  belle  variété  d’objectifs  et  de  méthodes.  La  question  se  pose 
 +
alors  de  l’
 +
unité
 +
  de  ces  problématiques.  Par  ailleurs,  il  semble  évident  que  cette 
 +
diversité  questionne  la  notion  même  de  sémantique.  Le  sujet  est  trop  ancien  et 
 +
parcouru  de  courants  philosophiques,  linguistiques,  sémiologiques...  trop  divers 
 +
pour espérer proposer une réponse « claire et définitive » ! Pour autant il nous paraît
 +
tout  à  fait  pertinent  de  nous  poser  la  question  du  «  fait  sémantique  »  en  regard  des 
 +
nouvelles  pratiques  à  l’œuvre  dans  le  document  numérique  :  à  la  fois  pour  éclairer 
 +
ces  dernières,  et  pour  apporter  peut-être 
 +
un  regard  nouveau,  ou  renouvelé,  sur  le 
 +
«  fait  »  en  lui-même.  Nous  tenterons  donc 
 +
dans  cette  dernière  section  de  repérer 
 +
quelques  lignes  de  force  transverses  émer
 +
geant,  nous  semble-t-il,  des  travaux 
 +
examinés
 +
5
 +
,  sans  manquer  de  se  poser  la  ques
 +
tion  critique  de  l’apport  concret, 
 +
5    «  Émergence  »  sous  un  certain  regard,  cela  va  sans  dire,  conditionnée  par  certaines 
 +
positions de principe développées nota
 +
mment dans [ENJ 96] et [GAI  01].
 +
23
 +
Actualité d’une approche sémantique du document numérique
 +
pratique,  d’un  point  de  vue  sémantique  ainsi  qualifié  au  développement  des 
 +
technologies documentaires.
 +
4.1
 +
Dimensions d’une sémantique du document
 +
Trois  «  dimensions  »  nous  paraissent  particulièrement  caractériser  un  «  regard 
 +
sémantique  »  sur  le  document.  Précisons  bien  encore  ici  qu’il  ne  s’agit  pas  de 
 +
« découper » un ensemble d’objectifs ou de méthodes qui seraient disjointes d’autres
 +
pratiques documentaires, mais de cerner
 +
certaines manières de les aborder. 
 +
1. Une dimension Document-Connaissances
 +
Ce point a déjà été présenté en section 2.1. Une caractéristique majeure, peut-
 +
être  même  «  la  »  caractéristique  essentielle  et  quasiment  définitoire  du  «  fait 
 +
sémantique  »  est  de  rapporter  une  donnée  (perçue  ou  déjà  construite  comme 
 +
signe
 +
) à un
 +
espace de référence
 +
accepté ou posé à un moment déterminé par le
 +
lecteur.  C’est  cet  espace  que  nous  appe
 +
llerons  ici  «  connaissances  »  selon  la 
 +
tradition  en  Intelligence  Artificielle  et  parce  que  ce  terme  marque  bien  l’idée 
 +
d’une  certaine  «  stabilité  » 
 +
de  l’espace  en  question.  Par  ailleurs  le  terme 
 +
convient  bien  dans  la  mesure  où  beaucoup  de  documents  ont  une  fonction 
 +
informationnelle. Il pourrait être problématique ou partiel pour des documents
 +
artistiques, par exemple – tels que les documents musicaux – et demander alors
 +
un certain élargissement, respectant l’idée générale de référence stabilisée.
 +
Cette notion de connaissance nous paraît également reprendre, de manière plus
 +
appropriée,  l’idée  de  «  référence  au  m
 +
onde  réel  »  constitutive  de  nombre  de 
 +
sémantiques  formelles  du  langage,  et  reprise  ici  à  propos  de  l’image  par 
 +
(Besson
 +
et  al.
 +
)  :  en  vérité,  l’idée  d’une  telle  référence  directe  au  monde  «  tel 
 +
qu’il  est  »  paraît  surprenante  à  propos  de  documents  images  dont  on  sait  les 
 +
transformations numériques (quand ce n’est les travestissements) qu’il peuvent
 +
subir. La
 +
médiation
 +
par une notion de « connaissance », de « représentation du
 +
monde » paraît nécessaire.
 +
Quoi  qu’il  en  soit,  le  fait  de  porter  attention  à  un  «  niveau  Connaissance  » 
 +
extérieur en quelque sorte aux documents
 +
eux-mêmes, et dont l’élaboration fait
 +
partie de l’ingénierie documentaire, paraît bien émerger de nombre de travaux
 +
analysés ci-dessus.
 +
2. Une dimension Document-Document
 +
Il  y  a  deux  facettes  à  cette  dimension.  La  première  est  de  noter  que  de 
 +
nombreux  traitements  vont  se  traduire 
 +
in  fine
 +
  par  la  création  de  nouveaux 
 +
documents,
 +
enrichissant
 +
  d’une  manière  ou  d’une  autre  le  document  (ou 
 +
l’ensemble  de  documents)  traité.  On  pense  là  par  exemple  à  des  index,  qui 
 +
restent  évidemment  liés  aux  documents,  notamment  au  moyen  d’hyperliens. 
 +
Mais  aussi  aux  annotations  diverses  des  documents  telles  que  les  entités 
 +
nommées  d’un  (Crestan),  ou  les  annotations  de  désambiguïsation  de 
 +
(Blanchon, Boitet). Un autre exemple typique est celui du résumé automatique.
 +
24
 +
Actualité d’une approche sémantique du document numérique
 +
Le  schéma  est  ici  celui  d’un 
 +
ajout  de  nouvelles  informations
 +
,  intégré  au 
 +
document ou, ce qui revient au même, notées dans un nouveau document relié
 +
au document traité.
 +
La  seconde  dimension  (non  exclusive  de  la  première)  concerne  l’idée  de 
 +
structuration
 +
  du  document.  Découvrir  l’organisation  d’un  document,  sa 
 +
structure,  semble  faire  partie  intégrante  de  l’activité  de  «  lecture  »,  comme 
 +
relevé dans la section 2.3. C’est aussi
 +
une perspective clairement et avec force
 +
énoncée dans (Vignaux). C’est toute la
 +
problématique de l’hyperdocument qui
 +
se dessine ici en perspective.
 +
On  pourrait  donc  évoquer  ici  une  sémantique  à  la  Peirce,  reprise  notamment 
 +
par U. Eco [ECO 85] présentant le sémiotique comme renvoi de signe à signe
 +
6
 +
.
 +
Avec  probablement  des  actualisations  importantes  liées  aux  technologies 
 +
employées. Une direction importante, pensons-nous, pour « penser le document
 +
numérique ».
 +
3. Une dimension Humain-Document
 +
Finalement, il convient évidemment de ne pas oublier l’utilisateur humain qui
 +
prend  connaissance  du  document.  Remarquons  que  cette  problématique  n’est 
 +
pas  toujours  présente  :  ainsi  dans  le  modèle  «  classique  »  de  l’Extraction 
 +
d’Information, les traitements visent à constituer des bases de données à partir
 +
des faits extraits des textes traités : un support d’information qui n’a donc plus
 +
rien  à  voir  avec  les  documents  initiaux.  Mais  à  côté  de  ces  approches,  il  en 
 +
existe  d’autres  dont  une  préoccupation  im
 +
portante  est  précisément  la  prise  en 
 +
compte de l’
 +
appropriation du document par le lecteur,
 +
et des moyens d’y aider.
 +
Il  est  frappant  que  l’idée  de  «  navigation  documentaire  »  soit  présente  en 
 +
quelque  sorte  «  en  perspective  »  dans  de  nombreux  articles  de  CIDE  7,  quel 
 +
que soit le centre d’intérêt principal.
 +
Mais c’est évidemment encore (Vignaux)
 +
qui développe avec le plus de force et de détails ce point de vue.
 +
L’étude  en  temps  que  tels  des  modes  d’appropriation  du  document  et  des 
 +
moyens,  appuyés  sur  les  technologies  numériques,  d’y  aider,  constitue  donc 
 +
bien une des facettes d’une approche sémantique.
 +
4.2
 +
« Qu’est-ce qu’on gagne ? »
 +
Nous  pensons  avoir  ainsi  dégagé  quelques  points  de  convergence  forts  qui 
 +
constituent    (ou    :    participent    de)    l’unité    d’approches    revendiquées    comme   
 +
sémantiques.  Le  lecteur  sceptique  pourra  néanmoins  se  demander  ce  qu’apporte  un 
 +
tel  regard  sur  le  document.  N’est-ce  qu’un  habillage  théorique  particulier  sans 
 +
conséquence  pratique  ?  Nous  pensons  que  non,  et  voudrions  pour  conclure  relever 
 +
un  certain  nombre  de  points  sur  lesquels  l’apport  méthodologique  nous  paraît 
 +
important.
 +
6  « Un signe, s'adresse à quelqu'un (...) crée
 +
(...) un signe équivalent, ou peut-être un signe
 +
plus développé » (Peirce).
 +
25
 +
Actualité d’une approche sémantique du document numérique
 +
1)  L’identification du (des) « prob
 +
lème(s) » et de son (leur) ampleur. 
 +
S’il est effectivement question
 +
in fine
 +
de « faire du sens » pour l’utilisateur,
 +
alors, qu’on le veuille ou non, on est confronté aux questions complexes qui
 +
caractérisent  «  le  sémantique  ».  Le  savoir  peut  éviter  des  impasses,  par 
 +
exemple  la  recherche  de  progrès 
 +
exclusivement
 +
  dans  des  techniques 
 +
d’analyse  de  données  basées  sur  des  «  formes  pures  »  —  ou  des 
 +
déconvenues  prévisibles  :  par  exemple,  on  peut  penser  que  les  travaux 
 +
actuels  sur  le  «  Question  Answering 
 +
»  mésestiment  gravement  l’ampleur 
 +
des problèmes à traiter.
 +
2)  Un  point  de  vue  unificateur  en
 +
tre  différents  médias,  entre  différentes 
 +
tâches pouvant se combiner.
 +
De plus en plus nous aurons à traiter de documents multimédia. Si l’on en
 +
reste  aux  technologies,  aux  procédés  de  calcul,  les  traitements  risquent  de 
 +
longtemps  diverger.  Un  point  de  vue  sémantique  —  ou,  en  l’occurrence, 
 +
sémiotique—  peut  nous  permettre  de  penser  l’
 +
intégration
 +
  des  différentes 
 +
informations et supports.
 +
3)  Un décloisonnement des méthodes
 +
      Il    est    trop    souvent    convenu    d’opposer    méthodes    numériques    et   
 +
linguistiques,  linguistique  et  ingénierie  des  connaissances,  reconnaissance 
 +
et  interprétation  d’image,  traitement  du  signal  et  niveau  symbolique... 
 +
Alors  même  que  de  plus  en  plus  de  travaux  mêlent  ces  différents  niveaux 
 +
(voir  ici  (Cerbah),  (Charlet),  (Vin
 +
et)  par  exemple).  La  reconnaissance 
 +
d’objectifs communs « de haut niveau
 +
» peut laisser la place à l’intégration
 +
de ces techniques et méthodes.
 +
4)  Le développement de méth
 +
odes sémiotiques spécifiques
 +
    Nous  pensons  qu’un  investissement  «  de  fond  »  en  relation  avec  des 
 +
théories  relativement  approfondies  des  différents  «  modes  sémiotiques  » 
 +
(langue,  image,  son,  vidéo...)  est  une  des  voies  pour  progresser,  qu’il 
 +
s’agisse  de  «  traitement  du  contenu  »  ou  «  d’appropriation  humaine  du 
 +
document »
 +
5)  Un « retour théorique »
 +
    Inversement,  le  développement  d’une  telle  approche  du  document 
 +
numérique  est  de  nature  à  renouveler  nos  conceptions  du  fait  sémantique, 
 +
ne  serait-ce  que  parce  que  s’offre  ai
 +
nsi  un  champ  d’expérimentation  et 
 +
d’objectivation totalement nouveau. La « linguistique de corpus » (ici dans
 +
sa  composante  sémantique)  en  a  déjà  pris  conscience  depuis  quelques 
 +
temps et indique en quelque sorte une voie prometteuse.
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
  
 
==Références bibliographiques==
 
==Références bibliographiques==

Version du 25 novembre 2016 à 11:48

Actualité d’une approche sémantique du document électronique


 
 

 
titre
Actualité d’une approche sémantique du document électronique
auteurs
Patrice Enjalbert(1) et Mauro Gaio(2)
Patrice.Enjalbert@info.unicaen.fr
Mauro.Gaio@univ-pau.fr
Affiliations
(1) GREYC, Université de Caen, Campus II, Bd du Mal Juin, 14032 Caen Cedex - France
(2) LIUPPA, Université de Pau et des Pays de l'Adour, Avenue de l'Université, BP 1155, 64013 Pau Cedex - France
In
CIDE'07 (La Rochelle 2004)
Mots-clés 
sémantique, document numérique, méthodologie.
PDF accessible
Via l'ensemble des actes : doc:actes/Actes-Cide7.pdf
Résumé
Nous tentons dans cet article, à partir d’une analyse des contributions à CIDE 7 au sein d’un ensemble plus vaste de recherches actuelles, de cerner ce que peut être une approche sémantique du document numérique, d’en discerner les caractéristiques et les lignes de force. Nous distinguons ce qui relève des objectifs et des méthodes, pour nous interroger sur ce qui fonde l’unité de ces travaux sous le signe du « sémantique ».
logo travaux La suite de cette page est un simple copier/coller à partir d'un support tel que PDF ou Word.

Il a été laissé en ligne dans l'état pour permettre une sélection de type « full text » par le moteur de recherche du wiki.

Sa présence permet également d'améliorer la cohérence sémantique du wiki. Nous avons donc préconisé une approche opportuniste où les améliorations et finitions sont réalisées en fonction des besoins des utilisateurs de ce wiki.

Toute contribution pour améliorer la présentation est bienvenue.

Abstract: In this paper, we try to synthesise the various contributions to CIDE 7 among a wider range of current research, in order to determine what a semantic approach of numerical document can be, and draw out the main trends and characteristics. We dis tinguish objectives and methods, questioning on what « semantic » ground the unity of these works can rely. Key-words: semantics, numeric al document, methodology. 13 Actualité d’une approche sémantique du document numérique

Introduction

La décision de proposer le thème des «  approches sémantiques  » pour la septième occurrence de CIDE est liée à l’observation et à une analyse de certaines tendances actuelles de la recherche concernant les documents numériques.

Une première constatation, assez répandue, touche aux limites qui paraissent atteintes par les techniques «  standard  » de recherche documentaire. Celles-ci sont, on le sait et pour faire bref, basées sur des analyses de type statistiques de formes directement «  perceptibles  » par un programme  : les mots (ou graphies) qui constituent un texte. A ces techniques on souhaiterait opposer des méthodes traitant véritablement du «  contenu  » des documents, même, et bien sûr, appréhendé de manière très partielle pour des raisons d’efficacité. Le gain attendu est à la fois en termes de rappel (plusieurs mots peuvent tomber sous le même concept objet de la recherche), de richesse de l’interrogation (dépasser la combinaison booléenne d’indicateurs), mais aussi d’appréhension par l’utilisateur des résultats de sa requête.

Une autre version, peut-être moins « radicale », serait de poser le problème en termes d’échelle du corpus documentaire ciblé  : au «  tout venant  » des méthodes à base d’analyse de données, au prix d’une «  finesse sémantique  » moins grande — des méthodes plus riches, atteignant le « sens » de manière plus profonde, pouvant et devant être développées pour des espaces thématiques plus restreints et des tâches plus spécifiques.

Liée à cette première préoccupation est la volonté de décrire, de structurer des corpus documentaires, selon des espaces de connaissances — souvent baptisées ontologies — de référence. Cette structuration étant réalisée «  à la main  » au cours de la constitution du corpus, ou bénéficiant de traitements de contenu des documents comme évoqué plus loin. Il s’agit de présenter à l’utilisateur «  l’espace documentaire  » selon des concepts qui lui sont a priori familiers, qui «  font sens  » pour lui. On reconnaîtra ici le projet du « Web Sémantique », qui concerne d’ailleurs l’accès à des objets plus généraux que des documents (du moins dans une acception usuelle) tels que des services de toute nature.

La troisième observation est celle d’un essor, et de succès remarquables, de procédures de traitement du contenu «  à grande échelle  ». Certes, il s’agit de traitements relativement limités, mais certains résultats nous semblent tout à fait impressionnants. Le cas d’école en la matière est constitué par la technologie dite de «  l’extraction d’information  ». Nous reviendrons plus loin sur cette technologie, mais rappelons ici qu’il s’agit de remplir, à partir de textes courts et ciblés (tels que des dépêches d’agence) des «  fiches  » collationnant les informations factuelles principales. Les meilleurs systèmes sont parvenus à une qualité de l’ordre de 80  % par rapport aux performances humaines avec des temps de développement qui deviennent proches de l’industriellement acceptable. On peut montrer que les méthodes développées dans ce cadre ont des retombées et des prolongements très important en termes de recherche d’information «  par le contenu  » comme évoqué plus haut. Une autre remarque cruciale est que ces techniques d’analyse sémantique limitée de documents textuels ont leur exact pendant dans d’autres modalités, qu’il s’agisse d’images fixes, de vidéo ou de documents sonores, notamment musicaux. L’idée d’un accès au « sens », à « l’information elle-même » (encore une fois, fut-ce de manière partielle) au delà des formes directement perceptibles, semble ainsi s’imposer comme une direction de recherche crédible « en vraie grandeur ».

Complétons encore par deux autres observations, que nous développerons moins ici, mais d’importance. La première concerne plus les « traitements humains » que les « traitements machine ». Elle concerne les usages spécifiques suscités par la forme numérique du document  : c’est par exemple l’idée de la navigation dans de vastes ensembles de documents, qui conduit à de nouvelles stratégies d’appropriation, de « construction du sens ». Ce qu’il convient d’étudier à la fois en tant que procédure cognitive nouvelle (donc informative sur la cognition en tant que telle) et pour en tirer des indications sur la bonne manière d’organiser la navigation et structurer les espaces documentaires. L’ultime remarque concerne l’impact de la disponibilité de corpus numériques, et des procédures documentaires qui les accompagnent, pour des études en sémantique On touche-là à certains aspects d’une « linguistique de corpus » dont l’actualité n’est plus à démontrer. On peut supposer – mais les auteurs sont moins informés sur ce point – que ce type de démarche se développe ou peut se développer aussi par rapport à d’autres média, en terme d’analyse de « documents », artistiques par exemple.

Si l’on partage peu ou prou ces constats, il devient à coup sûr scientifiquement pertinent parler d’approches sémantiques du document numérique et de chercher à confronter et mieux asseoir des démarches de ce type. Tel a été l’objectif de CIDE 7. L’appel (dont les grandes lignes sont repris es dans la préface) a été volontairement très ouvert, de manière à permettre le plus large «  balisage  », avec le moins d’a priori possible, de ce nouveau champ.

Nous voudrions maintenant, en nous appuyant fortement sur ces différentes contributions[1], tenter de préciser ce qui nous paraît être quelques orientations de recherche pertinentes et prometteuses, et esquisser une cartographie possible du champ de recherche. Classiquement, nous commencerons par la question des objectifs , des tâches , visés, avant de nous intéresser aux méthodes pour les atteindre ou réaliser. Nous pourrons alors poser et discuter la question de l’unité de travaux ainsi rassemblés, et somme toutes assez divers, sous le signe de la sémantique.

Objectifs

Nous allons donc examiner ici des objectifs de recherche –en relation avec le document numérique – que l’on peut, à notre sens, et à un titre ou un autre, qualifier de sémantiques. Cette qualification est à l’évidence problématique si l’on considère la diversité des objectifs en question. Aussi tenterons-nous, en même temps qu’une description de fait, d’interroger le terme même de «  sémantique  ». En accord avec l’esprit d’ouverture de l’appel à communication rappelé plus haut, nous prendrons au sérieux la «  revendication  » par les auteurs d’une telle qualification de leurs travaux, la considérant comme une bonne heuristique dans notre réflexion. Il nous semble pouvoir mettre en évidence trois champs d’étude (ou trois facettes du même champ) que nous allons examiner succincte ment. Il ne s’agit évidemment pas d’une « nomenclature » figée et complète. Mais quelques lignes de force, au moins à titre d’hypothèse, nous semblent se dégager.

Organisation et description de corpus documentaires

L’optique est ici essentiellement macroscopique. Il s’agit de considérer les collections documentaires et leur organisation et description en vue d’un usage donné  : on retrouve là la problématique de l’indexation en recherche documentaire (RD) «  traditionnelle  », mais aussi la structuration hypertextuelle ou toute autre structuration propre à «  navigation  » dans les bases documentaires, l’organisation spécifique de documentations techniques ou de corpus artistiques (musicaux par exemple), etc.

Quelle peut être la caractérisation d’une approche sémantique de la question ? Nous proposons l’idée suivante : la mise en évidence d’un certain espace de « valeurs », « notions », « concepts » (selon les points de vue ou les a priori théoriques) stabilisé et doté d’une organisation propre , auquel les documents sont rapportés , et qui peut « faire sens » (pour parler intuitivement) pour l’usager. Plusieurs articles de la conférence peuvent se discuter sous cet angle. Dans (Crestan et al.)[2] deux espaces sont envisagés (dans une finalité de RD classique) : le premier est structuré en «  environ 800 dimensions  » correspondant à des « concepts » représentés par des « sacs de mots », et censés permettre de repérer tout mot de la langue française  ; le second est constitué d’entités nommées (personnes, lieux, dates...) dont il faut bien voir que ce sont en effet des entités concrètes (par nature typées), différentes de leurs réalisations langagières, qui peuvent être multiples. (Bénel) s’intéresse spécifiquement aux documents archéologiques, et à l’annotation de segments documentaires, permettant une indexation et un «  arpentage  » des collections, dans l’optique «  d’offrir (...) des assistants à la construction du sens dans les bibliothèques numériques ». La référence à un corps de connaissances archéologiques est extrêmement nette, l’un des points traités étant la gestion de points vue divers selon les experts. (Bonardi et Rousseau) étudient l’indexation d’œuvres musicales  : ils montrent comment les collections de CD sont actuellement rangés selon des critères fixes de genre, auteur etc., critiquent cette pratique et prônent une approche centrée sur des notions de prototype et de similarité  : on voit donc là un débat entre deux modes d’indexation, un traditionnel qui serait sans doute celui des «  ontologies  » et un mode original, d’inspiration cognitive (prototype). Il faudrait encore mentionner le travail de (Besson et al.) sur les bases d’image mais nous y reviendrons plus loin.


Les contributions de (Charlet et al. ) et (Cerbah) proposent un regard un peu différent. La première présente une mét hode de constitution semi-automatique d’un index d’ouvrage scientifique : pour être bref, disons qu’il s’agit d’une application de procédures d’acquisition de terminologie. Elle nous paraît bien relever du cadre proposé plus haut, dans la mesure où les auteurs la positionnent (entre autres) en terme d’ingénierie des connaissances : il s’agirait en quelque sorte de faire émerger et d’acquérir le corps de connaissances terminologiques , auquel l’ouvrage pourra alors être «  rapporté  ». (Cerbah) s’inscrit dans «  une approche structurée de la documentation technique  », conduisant à «  fragmenter tout fonds documentaire en unités autonomes au contenu clairement spécifié  » mises en relation par des hyperliens. Son insistance sur la nécessité d’une «  interprétation plus ou moins profonde du contenu textuel balisé  » (pour être mis en hypertexte) nous paraît de nouveau adéquate avec l’ex igence mise en avant dans notre proposition d’une identification claire, en termes de doma ine de connaissance (ici  : un domaine technique), de l’espace de repérage. Bien évidemment, la problématique que nous décrivons est aussi au cœur du dit « web sémantique » et de ses fameuses « ontologies ». Quelques remarques pour conclure ce premier aspect. D’abord pour souligner que la question de cette «  indexation sémantique  » peut être abordée de manière indépendante de celle des traitements  : quels sont les bons principes et modes de description/structuration  ? L’indexation elle-même pouvant être réalisée « à la main » comme dans (Bénel) ou dans beaucoup de travaux du web sémantique. Par contre on peut aussi s’interroger sur la manière d’indexer automatiquement (ou semi-automatiquement) les documents une fois le mode d’organisation choisi, ce qui nous conduit inévitablement au problème des traitements « sémantiques » (ou « du contenu » etc.) des documents. Enfin, notons que la question se pose quel que soit le média.

Analyse du « contenu » des documents

Nous pourrons partir ici de la technologie dite de l’Extraction d’Information (EI) [PIA 97] [POI 03], évoquée plus haut comme emblématique de progrès récents en «  analyse de contenu  ». Il ne sera sans doute pas évident pour tout le monde de l’appréhender dans son caractère sémantique. Beaucoup d’auteurs, peut-être la majorité, y voient une question «  technologique  » relativement neutre, concernant par exemple l’utilisation d’automates (o u transducteurs) pour reconnaître les «  motifs  » ou «  patrons  » textuels porteurs de l’information à extraire, et de méthodes d’apprentissage pour acquérir ces motifs. Et lorsque des considérations linguistiques sont invoquées, c’est bien souvent sous l’angle de l’analyse syntaxique, dite en l’occurrence « légère » (« shallow parsing »). Pourtant il est facile de montrer la filiation avec les projets de « compréhension automatique » développés en Intelligence Artificielle dans les années 1980, dans une mutuelle fécondation avec d’autres tr aditions d’ingénierie linguistique et documentaire [DUP 02] [POI 03]. Or qui dit «  compréhension  », automatique ou non, dit évidemment «  sémantique  ». Le fait qu’elle soit en EI partielle, limitée 17


Actualité d’une approche sémantique du document numérique résumé — et tout en gardant un lien sur le document original, dans une perspective de navigation intra-documentaire [MIN 03]. Est-ce là une question et une approche « sémantique » ? Nous y reviendrons dans la quatrième partie. Finalement il nous semble que cette préoccupation « structurelle » est aussi au cœur d’un article très différent, à savoi r (Boukottaya, Vanoirbeek). L’article pose le problème de correspondance s entre XML-schémas, de manière à «  échanger des données XML entre applications Web autonomes et hétérogènes  ». Ce qui est ici significatif de notre propos est la fonction sémantique de la structuration

même, qui 

nous semble exprimée par les auteurs, lorsqu’elles parlent «  d’ information sémantique nichée dans la structure du document  » («  semantic information

 nested  

within the document structure  »). «  La sé mantique est d’abord capturée à travers l’explicitation de la signification du nom de s éléments, et ensuite à travers l’analyse du point de vue du concepteur du XML-schéma, exprimée par l’organisation logique du contenu XML (...) ». 3. Méthodes La question que nous posons maintenant est la suivante : Y a-t-il des méthodes spécifiques d’une approche sémantique  ? Et/ou des regards particuliers sur des méthodes «  plus générales  »  ? Ici, plus que jamais, la réflexion est prospective, l’enjeu étant de réfléchir sans a priori

 aux  moyens  à  mettre  en  œuvre  pour  réaliser  

des objectifs tels que présentés ci-dessus.

 Nous  distinguerons  trois  «  types  »  de  

méthodes, en remarquant d’emblée que les applications les combinent en général. 3.1 Méthodes sémiotiques propres aux différents médias C’est évidemment la première car actéristique possible d’une approche sémantique. Rappelons que le terme «  sémiotique  » désigne l’étude des divers systèmes de signes, quels qu’ils soient  : ic i donc le texte, l’image, la vidéo, le document sonore, et sans oublier la dimension «  hyperdocument  ». Une «  approche sémantique  » va donc souvent se référer à une connaissance relativement élaborée du « fonctionnement » de ces différents « mode sémiotiques ». Un certain nombre de travaux de CIDE 7 déjà mentionnés entrent dans cette « rubrique » : (Besson et al. ) mettent en œuvre des méthodes d’analyse et d’interprétation d’image  : (Vinet) développe un modèle sémiotique complet du document musical ; (Cerbah), (Smolczewska,

Lallich-Boidin), (Charlet), (Crestan 

et al. ) réfèrent à des modèles linguistiques, avec une composante sémantique forte, du lexique (Cerbah) au discours (Smo lczewska, Lallich-Boidin), (Lessard et al. ). Nous avons déjà eu l’occasion (section 2.2) d’in sister sur la dimension sémantique de l’Extraction d’Information et de mentionner nos propres recherches pour développer des méthodes en rapport — au delà d’ailleurs de l’EI stricto sensu , jusqu’à des applications en Recherche d’Information et en structuration de documents composites [DUP 02]. 21 Actualité d’une approche sémantique du document numérique D’autres auteurs font une référence peut-être encore plus explicite à une théorie

 sémantique  particulière.  C’est  le  cas  de  (Valette)  avec  la  sémantique  

différentielle de François Rastier, qui tr ouve là une application particulièrement originale et stimulante au «  web  », débouchant sur une approche non triviale — en gros «  anti-ontologique  », et intégrant des facettes variées, non exclusivement linguistiques au sens usuel du terme. (Perlerin, Ferrari) se réfère également à la sémantique différentielle avec une application à la détection des métaphores et un prolongement plus large sur la conception d’outils d’exploration de textes. Enfin (Dutoit et al. ) proposent une réflexion personnelle très «  amont  » sur le thème «  forme et sens  », autour des applications industrielles développées par ces auteurs en ingénierie linguistique. Toutes ces tentatives illustrent une voie de recherche qui nous semble fondamentale, et susceptible (à plus ou moin s long terme, il est vrai) de contribuer significativement à repousser certaines li mites de l’ingénierie documentaire évoquées en introduction. 3.2 Ingénierie des connaissances Ce second aspect a en fait déjà été introduit dans le «  schéma  » proposé en section 2.1. Il est aussi, à l’évidence, porté par la communauté du «  Web Sémantique  » et ses «  ontologies  » et autres formats de description de contenu (RDF, Topic maps etc.). Toute personne familière avec l’IA reconnaît dans ces formats des avatars de formalismes de re présentation des connaissances développés dans les années 80 — avec une tentative d’application «  en vraie grandeur  » particulièrement réjouissante. Il s’agit donc ici d’insister sur la néce ssaire prise en considération du facteur « ingénierie des connaissances » dans une approche sémantique du document. Cette conception va à l’encontre de bien des idées reçues et de bien des pratiques courantes. L’idée communément admise est effet plutôt que seuls des «  traitements de surface  », «  de la forme  » sont possible, pour une double raison de temps de développement et de temps de calcul. Il y aurait à s’interroger sur la prégnance de cet a priori

 méthodologique.  

Tradition de la RD  ? Méconnaissance des acquis de l’ingénierie des connaissances, en termes de méthodes et d’outils ? Tradit ion linguistique volontiers formaliste (le «  primat de la syntaxe  »)  ? On pourrait engager un débat salutaire... Mais il nous semble que l’histoire est en train de trancher. Le «  Web sémantique  » gèrera des connaissances ou ne sera pas. Les combin aisons Ingénierie des connaissances / Ingénierie linguistique sont devenues une réalité solide (voir par exemple tout ce qui touche à l’extraction de terminologie) [CHA 00]. L’EI a de longue date bien mis en évidence, et les besoins impératifs en ingénierie des connaissances, et la possibilité de développer des méthodes «  légères  » («  shallow knowledge  ») appropriées [PIA 97]. 22 Actualité d’une approche sémantique du document numérique 3.3 Méthodes de structuration du document La dernière « facette » considérée ici concerne la structuration du document. Il s’agit donc au départ de méthodes on ne peut plus «  généralistes  » et « ingénieuriales », mais qui trouvent ici des applications et, peut-être, un « regard » particuliers. On pense ici typiquement aux technologies XML et hypermédia. En fait, presque tous les articles de CIDE 7 utilisent les premières, et beaucoup les secondes (dans le but de faciliter la navigation ou autre «  arpentage  » de bases documentaires). Aux articles déjà cités ajoutons (Blanchon, Boitet), dans le domaine de la traduction automatique interactive. Le système proposé enrichit le texte par des annotations portant sur les segments reconnus comme ambigus par le logiciel de traduction. Ces annotations sont en quelque sorte dynamiques, et ouvrent une boîte de dialogue permettant à l’utilisateur de choisir parmi plusieurs traductions proposées. Cette contribution nous paraît significative d’une idée somme toute assez simple, mais peut-être fructueuse : l’enrichissement du texte apportant des nouveaux «  éléments de sens  » et susceptible d’aider le lecteur à sa propre «  interprétation  ». Et insistons encore, sur (Boukottaya, Vanoirbeek) qui, on l’a vu, proposent une appréhension proprement sémantique d’XML lui-même, à travers la notion de matching / correspondance de XML schemas. Se dessine ainsi, pensons-nous, un domaine à explorer  : quels outils de structuration / annotation développer à l’appui d’approches sémantique  ? Et comment, en retour, donner une assise sémantique à ces outils ? 4. Conclusion  : qu’est-ce qu’une «  approche sémantique » du document numérique ? Le parcours que nous venons d’opérer, autour des contributions à CIDE 7, d’un ensemble de travaux actuels qualifiables de «  sémantiques  » à un titre ou un autre laisse apparaître une belle variété d’objectifs et de méthodes. La question se pose alors de l’ unité

 de  ces  problématiques.  Par  ailleurs,  il  semble  évident  que  cette  

diversité questionne la notion même de sémantique. Le sujet est trop ancien et parcouru de courants philosophiques, linguistiques, sémiologiques... trop divers pour espérer proposer une réponse « claire et définitive » ! Pour autant il nous paraît tout à fait pertinent de nous poser la question du «  fait sémantique  » en regard des nouvelles pratiques à l’œuvre dans le document numérique  : à la fois pour éclairer ces dernières, et pour apporter peut-être un regard nouveau, ou renouvelé, sur le «  fait  » en lui-même. Nous tenterons donc dans cette dernière section de repérer quelques lignes de force transverses émer geant, nous semble-t-il, des travaux examinés 5 , sans manquer de se poser la ques tion critique de l’apport concret, 5 «  Émergence  » sous un certain regard, cela va sans dire, conditionnée par certaines positions de principe développées nota mment dans [ENJ 96] et [GAI 01]. 23 Actualité d’une approche sémantique du document numérique pratique, d’un point de vue sémantique ainsi qualifié au développement des technologies documentaires. 4.1 Dimensions d’une sémantique du document Trois «  dimensions  » nous paraissent particulièrement caractériser un «  regard sémantique  » sur le document. Précisons bien encore ici qu’il ne s’agit pas de « découper » un ensemble d’objectifs ou de méthodes qui seraient disjointes d’autres pratiques documentaires, mais de cerner certaines manières de les aborder. 1. Une dimension Document-Connaissances Ce point a déjà été présenté en section 2.1. Une caractéristique majeure, peut- être même «  la  » caractéristique essentielle et quasiment définitoire du «  fait sémantique  » est de rapporter une donnée (perçue ou déjà construite comme signe ) à un espace de référence

accepté ou posé à un moment déterminé par le 

lecteur. C’est cet espace que nous appe llerons ici «  connaissances  » selon la tradition en Intelligence Artificielle et parce que ce terme marque bien l’idée d’une certaine «  stabilité  » de l’espace en question. Par ailleurs le terme convient bien dans la mesure où beaucoup de documents ont une fonction informationnelle. Il pourrait être problématique ou partiel pour des documents artistiques, par exemple – tels que les documents musicaux – et demander alors un certain élargissement, respectant l’idée générale de référence stabilisée. Cette notion de connaissance nous paraît également reprendre, de manière plus appropriée, l’idée de «  référence au m onde réel  » constitutive de nombre de sémantiques formelles du langage, et reprise ici à propos de l’image par (Besson et al. )  : en vérité, l’idée d’une telle référence directe au monde «  tel qu’il est  » paraît surprenante à propos de documents images dont on sait les transformations numériques (quand ce n’est les travestissements) qu’il peuvent subir. La médiation

par une notion de « connaissance », de « représentation du 

monde » paraît nécessaire. Quoi qu’il en soit, le fait de porter attention à un «  niveau Connaissance  » extérieur en quelque sorte aux documents eux-mêmes, et dont l’élaboration fait partie de l’ingénierie documentaire, paraît bien émerger de nombre de travaux analysés ci-dessus. 2. Une dimension Document-Document Il y a deux facettes à cette dimension. La première est de noter que de nombreux traitements vont se traduire in fine

 par  la  création  de  nouveaux  

documents, enrichissant

  d’une   manière   ou   d’une   autre   le   document   (ou   

l’ensemble de documents) traité. On pense là par exemple à des index, qui restent évidemment liés aux documents, notamment au moyen d’hyperliens. Mais aussi aux annotations diverses des documents telles que les entités nommées d’un (Crestan), ou les annotations de désambiguïsation de (Blanchon, Boitet). Un autre exemple typique est celui du résumé automatique. 24 Actualité d’une approche sémantique du document numérique Le schéma est ici celui d’un ajout de nouvelles informations , intégré au document ou, ce qui revient au même, notées dans un nouveau document relié au document traité. La seconde dimension (non exclusive de la première) concerne l’idée de structuration

  du   document.   Découvrir   l’organisation   d’un   document,   sa   

structure, semble faire partie intégrante de l’activité de «  lecture  », comme relevé dans la section 2.3. C’est aussi une perspective clairement et avec force énoncée dans (Vignaux). C’est toute la problématique de l’hyperdocument qui se dessine ici en perspective. On pourrait donc évoquer ici une sémantique à la Peirce, reprise notamment par U. Eco [ECO 85] présentant le sémiotique comme renvoi de signe à signe 6 . Avec probablement des actualisations importantes liées aux technologies employées. Une direction importante, pensons-nous, pour « penser le document numérique ». 3. Une dimension Humain-Document Finalement, il convient évidemment de ne pas oublier l’utilisateur humain qui prend connaissance du document. Remarquons que cette problématique n’est pas toujours présente  : ainsi dans le modèle «  classique  » de l’Extraction d’Information, les traitements visent à constituer des bases de données à partir des faits extraits des textes traités : un support d’information qui n’a donc plus rien à voir avec les documents initiaux. Mais à côté de ces approches, il en existe d’autres dont une préoccupation im portante est précisément la prise en compte de l’ appropriation du document par le lecteur, et des moyens d’y aider. Il est frappant que l’idée de «  navigation documentaire  » soit présente en quelque sorte «  en perspective  » dans de nombreux articles de CIDE 7, quel que soit le centre d’intérêt principal. Mais c’est évidemment encore (Vignaux) qui développe avec le plus de force et de détails ce point de vue. L’étude en temps que tels des modes d’appropriation du document et des moyens, appuyés sur les technologies numériques, d’y aider, constitue donc bien une des facettes d’une approche sémantique. 4.2 « Qu’est-ce qu’on gagne ? » Nous pensons avoir ainsi dégagé quelques points de convergence forts qui constituent (ou  : participent de) l’unité d’approches revendiquées comme sémantiques. Le lecteur sceptique pourra néanmoins se demander ce qu’apporte un tel regard sur le document. N’est-ce qu’un habillage théorique particulier sans conséquence pratique  ? Nous pensons que non, et voudrions pour conclure relever un certain nombre de points sur lesquels l’apport méthodologique nous paraît important. 6 « Un signe, s'adresse à quelqu'un (...) crée (...) un signe équivalent, ou peut-être un signe plus développé » (Peirce). 25 Actualité d’une approche sémantique du document numérique 1) L’identification du (des) « prob lème(s) » et de son (leur) ampleur. S’il est effectivement question in fine

de « faire du sens » pour l’utilisateur, 

alors, qu’on le veuille ou non, on est confronté aux questions complexes qui caractérisent «  le sémantique  ». Le savoir peut éviter des impasses, par exemple la recherche de progrès exclusivement

  dans   des   techniques   

d’analyse de données basées sur des «  formes pures  » — ou des déconvenues prévisibles  : par exemple, on peut penser que les travaux actuels sur le «  Question Answering » mésestiment gravement l’ampleur des problèmes à traiter. 2) Un point de vue unificateur en tre différents médias, entre différentes tâches pouvant se combiner. De plus en plus nous aurons à traiter de documents multimédia. Si l’on en reste aux technologies, aux procédés de calcul, les traitements risquent de longtemps diverger. Un point de vue sémantique — ou, en l’occurrence, sémiotique— peut nous permettre de penser l’ intégration

 des  différentes  

informations et supports. 3) Un décloisonnement des méthodes

     Il    est    trop    souvent    convenu    d’opposer    méthodes    numériques    et    

linguistiques, linguistique et ingénierie des connaissances, reconnaissance et interprétation d’image, traitement du signal et niveau symbolique... Alors même que de plus en plus de travaux mêlent ces différents niveaux (voir ici (Cerbah), (Charlet), (Vin et) par exemple). La reconnaissance d’objectifs communs « de haut niveau » peut laisser la place à l’intégration de ces techniques et méthodes. 4) Le développement de méth odes sémiotiques spécifiques

    Nous  pensons  qu’un  investissement  «  de  fond  »  en  relation  avec  des  

théories relativement approfondies des différents «  modes sémiotiques  » (langue, image, son, vidéo...) est une des voies pour progresser, qu’il s’agisse de «  traitement du contenu  » ou «  d’appropriation humaine du document » 5) Un « retour théorique »

    Inversement,   le   développement   d’une   telle   approche   du   document   

numérique est de nature à renouveler nos conceptions du fait sémantique, ne serait-ce que parce que s’offre ai nsi un champ d’expérimentation et d’objectivation totalement nouveau. La « linguistique de corpus » (ici dans sa composante sémantique) en a déjà pris conscience depuis quelques temps et indique en quelque sorte une voie prometteuse.








Références bibliographiques

[BIL 03] Bilhaut F., Charnois T., Enjalbert P., Mathet Y., «  Passage extraction in geographical documents  », Proc. Intelligent Information Systems 2003, New Trends in Intelligent Information Processing ans Web Mining, Zakopane, Poland, 1-4 Juin 2003, pp. 121-130.

[CHA 00] Charlet J. (éd.) « Ingénierie des connaissances », Eyrolles , 2000. [CIR 99] Ciravegna, F. et al. , «  FACILE: Classifying Texts Integrating Pattern matching and Information Extraction », Proceedings of IJCAI'99 , pp. 890-895, 1999. [DUP 02] Dupont M., Vuillaume J.-M., Victorri B., Enjalbert P., Mathet Y., «  Nouvelles tendances en extraction d’informations  », Techniques et Sciences Informatiques , vol 21 n°1/2002, 2002, pp. 37-64, 2002. [ECO 85] Eco U., « Lector in Fabula », Le livre de Poche, Coll. "Essais" , n°4098, 1985. [ENJ 96] Enjalbert P., « De l'interprétation (sens, structures et processus) », Intellectica , vol 23, n° 2, pp. 79-120, 1996. [GAI 01] Gaio M., «  Traitements de l’information géographique  : représentations et structures », Mémoire d’Habilitation à Diriger les Recherches, Université de Caen, 2001. [MIN 03] Minel J.-L., « Filtrage sémantique. Du résumé automatique à la fouille de textes », Hermès, 2003.

[PIA 97] Piacenza M.-T., (éd.), « Information Extraction », Springer Verlag, 1997.

[POI 03] Poibeau T.,  « Extraction automatique d’information », Hermès, 2003.

[VIN 02] Vinet H., Herrara P., Pa chet F., «  The CUIDADO Project  », Proc. Int. Conf. On Music Information Retrieval , IRCAM, Paris, 2002, pp. 197-203. [VOO 01] Voorhees E. «Overview of the TREC 2001 Question Answering Track  », http://trec.nist.gov/pubs/trec10/ t10\_proceedings.html, 2001.

Notes

  1. Dont l’interprétation dans les lignes qui suivent est évidemment de notre seule responsabilité.
  2. Les références sous cette forme portent sur des articles du présent volume.