CIDE (2009) Yao : Différence entre versions

De CIDE
imported>Sabah Benlahbib
(Spécificités du document semi-structuré)
imported>Sabah Benlahbib
(Spécificités du document semi-structuré)
Ligne 57 : Ligne 57 :
  
 
La figure 1 montre un exemple de document du Conseil Constitutionnel français structuré au format XML. On représente ce document en structure arborescente par des composants linéaires. Chaque composant représentant un type de l’information de contenu ou de l’information structurelle est un descripteur du document. Le modèle de chemins est choisi pour représenter l’information hiérarchique de la structure. Un chemin est une séquence ordonnée d’éléments qui représente une série consécutive  de  relation  parent-enfant. Un chemin complet est une séquence d’éléments qui commence à l’élément racine et se termine à un élément feuille (voir la figure 2). La longueur d’un chemin est le cardinal de l’ensemble d’éléments dans la séquence. En limitant la longueur d’un chemin complet, on peut créer différents types de sous-chemins. A partir de l’élément racine, après avoir compté n éléments, un chemin enraciné de longueur n est crée. À l’inverse, un chemin feuillu est crée à partir  d’un élément feuille. En attachant le mot contenu dans un élément d’un chemin, on crée un chemin textuel qui comprend à la fois l’information  de contenu et l’information de structure
 
La figure 1 montre un exemple de document du Conseil Constitutionnel français structuré au format XML. On représente ce document en structure arborescente par des composants linéaires. Chaque composant représentant un type de l’information de contenu ou de l’information structurelle est un descripteur du document. Le modèle de chemins est choisi pour représenter l’information hiérarchique de la structure. Un chemin est une séquence ordonnée d’éléments qui représente une série consécutive  de  relation  parent-enfant. Un chemin complet est une séquence d’éléments qui commence à l’élément racine et se termine à un élément feuille (voir la figure 2). La longueur d’un chemin est le cardinal de l’ensemble d’éléments dans la séquence. En limitant la longueur d’un chemin complet, on peut créer différents types de sous-chemins. A partir de l’élément racine, après avoir compté n éléments, un chemin enraciné de longueur n est crée. À l’inverse, un chemin feuillu est crée à partir  d’un élément feuille. En attachant le mot contenu dans un élément d’un chemin, on crée un chemin textuel qui comprend à la fois l’information  de contenu et l’information de structure
 
  
 
[[Image:figure1.JPG|400px|thumb|center|
 
[[Image:figure1.JPG|400px|thumb|center|
 
Figure 1. Un morceau d’un document du Conseil Constitutionnel français en XML]]
 
Figure 1. Un morceau d’un document du Conseil Constitutionnel français en XML]]
 
  
  
  
 
[[Image:Figure2.JPG|800px|thumb|center|Figure 2. Descripteurs structurels du chemin ‘\motif\phrase\citation\sousphrase\‘]]
 
[[Image:Figure2.JPG|800px|thumb|center|Figure 2. Descripteurs structurels du chemin ‘\motif\phrase\citation\sousphrase\‘]]
 
  
  
 
Un document peut être représenté par un ensemble de composants de même type (par exemple, les mots, les chemins complets, les chemins textuels enracinés), ou de types différents (par exmple, le mixte de chemin enraciné et de chemin feuillu). Le descripteur de l’approche structurel (le chemin ou le chemin textuel) peut être représenté, comme le descripteur de l’approche de contenu (le mot), dans un vecteur dont chaque dimension correspond à un descripteur. Donc on peut adopter directement le modèle vectoriel de Salton. Selon l’approche statistique, le nombre d’occurrence peut être un facteur pour calculer l’importance d’un descripteur. Nous utilisons le coefficient TF-IDF pour mesurer son importance. La fréquence d’un descripteur t dans un document d est définie par l’équation suivante:
 
Un document peut être représenté par un ensemble de composants de même type (par exemple, les mots, les chemins complets, les chemins textuels enracinés), ou de types différents (par exmple, le mixte de chemin enraciné et de chemin feuillu). Le descripteur de l’approche structurel (le chemin ou le chemin textuel) peut être représenté, comme le descripteur de l’approche de contenu (le mot), dans un vecteur dont chaque dimension correspond à un descripteur. Donc on peut adopter directement le modèle vectoriel de Salton. Selon l’approche statistique, le nombre d’occurrence peut être un facteur pour calculer l’importance d’un descripteur. Nous utilisons le coefficient TF-IDF pour mesurer son importance. La fréquence d’un descripteur t dans un document d est définie par l’équation suivante:
 
  
  
Ligne 76 : Ligne 72 :
  
  
 
 
nt,d est le nombre d’occurrence d’un descripteur t dans un document d ;
 
nt,d est le nombre d’occurrence d’un descripteur t dans un document d ;
 
∑k nk,d est le nombre d’occurrence de tous les descripteurs dans un document d.
 
∑k nk,d est le nombre d’occurrence de tous les descripteurs dans un document d.
 
  
  
 
[[Image:Equation2.png|300px|thumb|center|]]
 
[[Image:Equation2.png|300px|thumb|center|]]
 
  
  

Version du 6 décembre 2016 à 01:16

Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel


 
 

 
titre
Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel.
auteurs
Jin Yao (1), Jacques Madelaine (1) et Khaldoun Zreik(2)
Affiliations
(1):GREYC (Groupe de Recherche en Informatique, Image et Instrumentation de Caen) CNRS UMR 6072, Université de Caen, France
(2) :Laboratoire Paragraphe, Université de Paris 8, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Yao.pdf
Mots-clés 
Catégorisation de documents semi-structurés, extraction de connaissance, recherche d’information, patrimoine juridique décisionnel
Keywords
Semi-structured document clustering,knowledge discovery, information retrieval, decision support for legal heritage
Résumé
Le patrimoine de document juridique (loi, jurisprudence, brevet) s’est bien approprié l’univers de numérisation pour permettre une diffusion et une exploitation accrues des informations juridiques par des applications diverses. En conséquence, l’usage des bases documentaires juridiques partageables est devenu de plus en plus ouvert et fréquent favorisant ainsi un débit d’alimentation « semi- automatique » assez important. Constat 1 : par semi-automatique, on entend un processus de dépôt direct des documents dans des bases contrôlées par des SGBDs qui exigent une intervention humaine réduite surtout au niveau de l’indexation et de la classification. En effet, ce sont les modèles de documents (leurs structures logiques et physiques modélisées par le langage de balisage) qui assurent un rôle important dans les processus d’indexation et de gestion. Donc ces modèles incorporent indirectement connaissance et savoir-faire. Constat 2 : devant une telle masse de données « très souvent textuelles », il devient indispensable d’adopter aussi une approche pour gérer les documents électroniques juridiques en tant que supports de connaissance et de savoir faire. Ceci nous mène vers des problématiques de recherche d’information et d’extraction de connaissance. Ces deux constats nous conduisent à formuler une hypothèse de classification automatique qui tiendra compte de connaissance et de savoir-faire incorporés dans les structures des modèles de documents électroniques juridiques. Aussi on constate que ces connaissances ou savoir-faire ne sont pas toujours explicites dans les corps de documents. Cela nous dirige vers une approche de catégorisation pour extraire des catégories décisionnelles. Cet article présente une méthode de représentation de document semi-structuré permettant d’analyser précisément les connaissances et le savoir-faire incorporé dans les contenus et les structures du document. Les expériences sur un corpus juridiques réel montrent que la prise en compte à la fois du contenu et de la structure conduit à une amélioration remarquable de qualité des catégories décisionnelles.