CIDE (2009) Yao : Différence entre versions

De CIDE
imported>Sabah Benlahbib
(Méthode de catégorisation)
imported>Sabah Benlahbib
(Résultats)
Ligne 114 : Ligne 114 :
  
 
La catégorisation est évaluée quantitativement par l’entropie et la pureté ([xiv ]). Deux évaluations sont proposées sur le corpus : l’évaluation de catégorisation thématique est une approche traditionnelle ciblée à la recherche d’information ; alors que l’évaluation sur la décision rendue s’adresse à extraire des catégories décisionnelles.
 
La catégorisation est évaluée quantitativement par l’entropie et la pureté ([xiv ]). Deux évaluations sont proposées sur le corpus : l’évaluation de catégorisation thématique est une approche traditionnelle ciblée à la recherche d’information ; alors que l’évaluation sur la décision rendue s’adresse à extraire des catégories décisionnelles.
Pour l’évaluation thématique, deux séries sont lancées en différenciant le nombre de catégories. Pour le descripteur « mot », la qualité mesurée par deux coefficients augmente nettement : 26,9% pour l’entropie et 9,3% pour la pureté avec l’augmentation du nombre de catégories. La même tendance est trouvée également pour certains descripteurs. Un constat intéressant  est  que  la  qualité  de  catégorisation  pour  le      descripteur
+
Pour l’évaluation thématique, deux séries sont lancées en différenciant le nombre de catégories.  
« chemin feuillu » et les descripteurs « chemin textuel feuillu », « chemin textuel enraciné et feuillu », et « mixte de balise seule et mot » restent constant malgré une augmentation du nombre de catégories.  L’approche
 
  
du chemin textuel permet une meilleure qualité que les deux autres approches quand le nombre de catégories est fixé à 2.
+
Pour le descripteur « mot », la qualité mesurée par deux coefficients augmente nettement : 26,9% pour l’entropie et 9,3% pour la pureté avec l’augmentation du nombre de catégories. La même tendance est trouvée également pour certains descripteurs. Un constat intéressant est que la qualité de catégorisation pour le descripteur « chemin feuillu » et les descripteurs « chemin textuel feuillu », « chemin textuel enraciné et feuillu », et « mixte de balise seule et mot » restent constant malgré une augmentation du nombre de catégories. L’approche du chemin textuel permet une meilleure qualité que les deux autres approches quand le nombre de catégories est fixé à 2.
  
  
 +
[[Image:Mot.png|500px|thumb|center|]]
  
  
Ligne 132 : Ligne 132 :
 
« chemin (textuel) enraciné », tous les descripteurs produisent une qualité élevée : la valeur de l’entropie est inférieure à 0,3, et la valeur de la  pureté est supérieure à 0,8. Parmi eux, l’approche du chemin textuel produit les meilleurs scores. L’approche du mot mène à une  qualité élevée par rapport à l’approche de la structure seule. Même si cette dernière peut conduire à une qualité de catégorisation satisfait. Mais une combinaison du mot et de la structure offrent une qualité bonne et stable. Au contraire des résultats de l’évaluation thématique, tous les  descripteurs de chemins textuels produisent de bons scores. Ces observations impliquent que le savoir-faire mené par la structuration du document est liée à la décision rendue.
 
« chemin (textuel) enraciné », tous les descripteurs produisent une qualité élevée : la valeur de l’entropie est inférieure à 0,3, et la valeur de la  pureté est supérieure à 0,8. Parmi eux, l’approche du chemin textuel produit les meilleurs scores. L’approche du mot mène à une  qualité élevée par rapport à l’approche de la structure seule. Même si cette dernière peut conduire à une qualité de catégorisation satisfait. Mais une combinaison du mot et de la structure offrent une qualité bonne et stable. Au contraire des résultats de l’évaluation thématique, tous les  descripteurs de chemins textuels produisent de bons scores. Ces observations impliquent que le savoir-faire mené par la structuration du document est liée à la décision rendue.
 
En comparant deux évaluations effectuées, on constate que les résultats  de catégorisation décisionnelle sont plus stables quand le nombre de catégories retenues augmente. Nous conclussions que les catégories retenues sont plutôt une partition des jugements qu’une partition thématique.
 
En comparant deux évaluations effectuées, on constate que les résultats  de catégorisation décisionnelle sont plus stables quand le nombre de catégories retenues augmente. Nous conclussions que les catégories retenues sont plutôt une partition des jugements qu’une partition thématique.
 
  
 
==Conclusion==
 
==Conclusion==

Version du 6 décembre 2016 à 01:09

Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel


 
 

 
titre
Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel.
auteurs
Jin Yao (1), Jacques Madelaine (1) et Khaldoun Zreik(2)
Affiliations
(1):GREYC (Groupe de Recherche en Informatique, Image et Instrumentation de Caen) CNRS UMR 6072, Université de Caen, France
(2) :Laboratoire Paragraphe, Université de Paris 8, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Yao.pdf
Mots-clés 
Catégorisation de documents semi-structurés, extraction de connaissance, recherche d’information, patrimoine juridique décisionnel
Keywords
Semi-structured document clustering,knowledge discovery, information retrieval, decision support for legal heritage
Résumé
Le patrimoine de document juridique (loi, jurisprudence, brevet) s’est bien approprié l’univers de numérisation pour permettre une diffusion et une exploitation accrues des informations juridiques par des applications diverses. En conséquence, l’usage des bases documentaires juridiques partageables est devenu de plus en plus ouvert et fréquent favorisant ainsi un débit d’alimentation « semi- automatique » assez important. Constat 1 : par semi-automatique, on entend un processus de dépôt direct des documents dans des bases contrôlées par des SGBDs qui exigent une intervention humaine réduite surtout au niveau de l’indexation et de la classification. En effet, ce sont les modèles de documents (leurs structures logiques et physiques modélisées par le langage de balisage) qui assurent un rôle important dans les processus d’indexation et de gestion. Donc ces modèles incorporent indirectement connaissance et savoir-faire. Constat 2 : devant une telle masse de données « très souvent textuelles », il devient indispensable d’adopter aussi une approche pour gérer les documents électroniques juridiques en tant que supports de connaissance et de savoir faire. Ceci nous mène vers des problématiques de recherche d’information et d’extraction de connaissance. Ces deux constats nous conduisent à formuler une hypothèse de classification automatique qui tiendra compte de connaissance et de savoir-faire incorporés dans les structures des modèles de documents électroniques juridiques. Aussi on constate que ces connaissances ou savoir-faire ne sont pas toujours explicites dans les corps de documents. Cela nous dirige vers une approche de catégorisation pour extraire des catégories décisionnelles. Cet article présente une méthode de représentation de document semi-structuré permettant d’analyser précisément les connaissances et le savoir-faire incorporé dans les contenus et les structures du document. Les expériences sur un corpus juridiques réel montrent que la prise en compte à la fois du contenu et de la structure conduit à une amélioration remarquable de qualité des catégories décisionnelles.