CIDE (2009) Yao : Différence entre versions

De CIDE
imported>Sabah Benlahbib
(Spécificités du document semi-structuré)
imported>Thierry Daunois
(Références bibliographiques)
 
(42 révisions intermédiaires par un autre utilisateur non affichées)
Ligne 17 : Ligne 17 :
 
{{Clr}}
 
{{Clr}}
 
<div style="text-align:justify;">
 
<div style="text-align:justify;">
;Résumé:Le patrimoine de document juridique (loi, jurisprudence, brevet) s’est bien approprié l’univers de numérisation pour permettre une diffusion et une exploitation accrues des informations juridiques par des applications diverses. En conséquence, l’usage des bases documentaires juridiques partageables est devenu de plus en plus ouvert et fréquent favorisant ainsi un débit d’alimentation « semi- automatique » assez important. Constat 1 : par semi-automatique, on entend un processus de dépôt direct des documents dans des bases contrôlées par des SGBDs qui exigent une intervention humaine réduite surtout au niveau de l’indexation et de la classification. En effet, ce sont les modèles de documents (leurs structures logiques et physiques modélisées par le langage de balisage) qui assurent un rôle important dans les processus d’indexation et de gestion. Donc ces modèles incorporent indirectement connaissance et savoir-faire. Constat 2 : devant une telle masse de données « très souvent textuelles », il devient indispensable d’adopter aussi une approche pour gérer les documents électroniques juridiques en tant que supports de connaissance et de savoir faire. Ceci nous mène vers des problématiques de recherche d’information et d’extraction de connaissance. Ces deux constats nous conduisent à formuler une hypothèse de classification automatique qui tiendra compte de connaissance et de savoir-faire incorporés dans les structures des modèles de documents électroniques juridiques. Aussi on constate que ces connaissances ou savoir-faire ne sont pas toujours explicites dans les corps de documents. Cela nous dirige vers une approche de catégorisation pour extraire des catégories décisionnelles. Cet article présente une méthode de représentation de document   semi-structuré permettant d’analyser précisément les connaissances et le savoir-faire incorporé dans les contenus et les structures du document. Les expériences sur un corpus juridiques réel montrent que la prise en compte à la fois du contenu et de la structure conduit à une amélioration remarquable de qualité des catégories décisionnelles.
+
;Résumé:Le patrimoine de document juridique (loi, jurisprudence, brevet) s’est bien approprié l’univers de numérisation pour permettre une diffusion et une exploitation accrues des informations juridiques par des applications diverses. En conséquence, l’usage des bases documentaires juridiques partageables est devenu de plus en plus ouvert et fréquent favorisant ainsi un débit d’alimentation « semi- automatique » assez important. Constat 1: par semi-automatique, on entend un processus de dépôt direct des documents dans des bases contrôlées par des SGBDs qui exigent une intervention humaine réduite surtout au niveau de l’indexation et de la classification. En effet, ce sont les modèles de documents (leurs structures logiques et physiques modélisées par le langage de balisage) qui assurent un rôle important dans les processus d’indexation et de gestion. Donc ces modèles incorporent indirectement connaissance et savoir-faire.Constat 2 : devant une telle masse de données « très souvent textuelles », il devient indispensable d’adopter aussi une approche pour gérer les documents électroniques juridiques en tant que supports de connaissance et de savoir faire. Ceci nous mène vers des problématiques de recherche d’information et d’extraction de connaissance. Ces deux constats nous conduisent à formuler une hypothèse de classification automatique qui tiendra compte de connaissance et de savoir-faire incorporés dans les structures des modèles de documents électroniques juridiques. Aussi on constate que ces connaissances ou savoir-faire ne sont pas toujours explicites dans les corps de documents. Cela nous dirige vers une approche de catégorisation pour extraire des catégories décisionnelles. Cet article présente une méthode de représentation de document semi-structuré permettant d’analyser précisément les connaissances et le savoir-faire incorporé dans les contenus et les structures du document. Les expériences sur un corpus juridiques réel montrent que la prise en compte à la fois du contenu et de la structure conduit à une amélioration remarquable de qualité des catégories décisionnelles.
  
 
{{boîte déroulante
 
{{boîte déroulante
Ligne 54 : Ligne 54 :
 
==Spécificités du document semi-structuré==
 
==Spécificités du document semi-structuré==
  
Conserver le patrimoine exige de ne pas perdre l’information, donc on s’oriente vers une approche de traitement et de prétraitement qui concerne au maximum l’information encapsulée dans un document. Le document semi-structuré propose un modèle hiérarchique qui est généralement considéré comme un arbre. Les travaux existant ont montré que la complexité de catégorisation des arbres est élevée. Nous adoptons une méthode qui transforme une représentation arborescente du document en une représentation vectorielle sans pourtant perdre les informations hiérarchiques de l’arbre.
+
Conserver le patrimoine exige de ne pas perdre l’information, donc on s’oriente vers une approche de traitement et de prétraitement qui concerne au maximum l’information encapsulée dans un document. Le document semi-structuré propose un modèle hiérarchique qui est généralement considéré comme un arbre. Les travaux existant ont montré que la complexité de catégorisation des arbres est élevée. Nous adoptons une méthode qui transforme une représentation arborescente du document en une représentation vectorielle sans pourtant perdre les informations hiérarchiques de l’arbre.
  
 
La figure 1 montre un exemple de document du Conseil Constitutionnel français structuré au format XML. On représente ce document en structure arborescente par des composants linéaires. Chaque composant représentant un type de l’information de contenu ou de l’information structurelle est un descripteur du document. Le modèle de chemins est choisi pour représenter l’information hiérarchique de la structure. Un chemin est une séquence ordonnée d’éléments qui représente une série consécutive  de  relation  parent-enfant. Un chemin complet est une séquence d’éléments qui commence à l’élément racine et se termine à un élément feuille (voir la figure 2). La longueur d’un chemin est le cardinal de l’ensemble d’éléments dans la séquence. En limitant la longueur d’un chemin complet, on peut créer différents types de sous-chemins. A partir de l’élément racine, après avoir compté n éléments, un chemin enraciné de longueur n est crée. À l’inverse, un chemin feuillu est crée à partir  d’un élément feuille. En attachant le mot contenu dans un élément d’un chemin, on crée un chemin textuel qui comprend à la fois l’information  de contenu et l’information de structure
 
La figure 1 montre un exemple de document du Conseil Constitutionnel français structuré au format XML. On représente ce document en structure arborescente par des composants linéaires. Chaque composant représentant un type de l’information de contenu ou de l’information structurelle est un descripteur du document. Le modèle de chemins est choisi pour représenter l’information hiérarchique de la structure. Un chemin est une séquence ordonnée d’éléments qui représente une série consécutive  de  relation  parent-enfant. Un chemin complet est une séquence d’éléments qui commence à l’élément racine et se termine à un élément feuille (voir la figure 2). La longueur d’un chemin est le cardinal de l’ensemble d’éléments dans la séquence. En limitant la longueur d’un chemin complet, on peut créer différents types de sous-chemins. A partir de l’élément racine, après avoir compté n éléments, un chemin enraciné de longueur n est crée. À l’inverse, un chemin feuillu est crée à partir  d’un élément feuille. En attachant le mot contenu dans un élément d’un chemin, on crée un chemin textuel qui comprend à la fois l’information  de contenu et l’information de structure
  
 +
[[Image:figure1.JPG|400px|thumb|center|
 +
Figure 1. Un morceau d’un document du Conseil Constitutionnel français en XML]]
  
[[Image:figure1.JPG|500px|thumb|center|
 
Figure 1. Un morceau d’un document du Conseil Constitutionnel français en XML]]
 
  
  
 +
[[Image:Figure2.JPG|800px|thumb|center|Figure 2. Descripteurs structurels du chemin ‘\motif\phrase\citation\sousphrase\‘]]
  
  
[[Image:Figure2.JPG|500px|thumb|center|Figure 2. Descripteurs structurels du chemin ‘\motif\phrase\citation\sousphrase\‘]]
+
Un document peut être représenté par un ensemble de composants de même type (par exemple, les mots, les chemins complets, les chemins textuels enracinés), ou de types différents (par exmple, le mixte de chemin enraciné et de chemin feuillu). Le descripteur de l’approche structurel (le chemin ou le chemin textuel) peut être représenté, comme le descripteur de l’approche de contenu (le mot), dans un vecteur dont chaque dimension correspond à un descripteur. Donc on peut adopter directement le modèle vectoriel de Salton. Selon l’approche statistique, le nombre d’occurrence peut être un facteur pour calculer l’importance d’un descripteur. Nous utilisons le coefficient TF-IDF pour mesurer son importance. La fréquence d’un descripteur t dans un document d est définie par l’équation suivante:
  
  
 +
[[Image:Equation1.JPG|300px|thumb|center|]]
  
  
Un document peut être représenté par un ensemble de composants de même type (par exemple, les mots, les chemins complets, les chemins textuels enracinés), ou de types différents (par exmple, le mixte de chemin enraciné et de chemin feuillu). Le descripteur de l’approche structurel (le chemin ou le chemin textuel) peut être représenté, comme le descripteur de l’approche de contenu (le mot), dans un vecteur dont chaque dimension correspond à un descripteur. Donc on peut adopter directement le modèle vectoriel de Salton. Selon l’approche statistique, le nombre d’occurrence peut être un facteur pour calculer l’importance d’un descripteur. Nous utilisons le coefficient TF-IDF pour mesurer son importance. La fréquence d’un descripteur t dans un document d est définie par l’équation suivante:
 
TFt ,d  
 
nt ,d 
 
k nk ,d 
 
 
nt,d est le nombre d’occurrence d’un descripteur t dans un document d ;
 
nt,d est le nombre d’occurrence d’un descripteur t dans un document d ;
 
∑k nk,d est le nombre d’occurrence de tous les descripteurs dans un document d.
 
∑k nk,d est le nombre d’occurrence de tous les descripteurs dans un document d.
IDF   log( N )
+
 
t df
+
 
 +
[[Image:Equation2.png|300px|thumb|center|]]
 +
 
 +
 
 
N est le nombre total de documents dans la collection ;
 
N est le nombre total de documents dans la collection ;
 
dft est le nombre de documents contenant un descripteur t.
 
dft est le nombre de documents contenant un descripteur t.
Ligne 85 : Ligne 86 :
 
===Corpus du Conseil Constitutionnel français===
 
===Corpus du Conseil Constitutionnel français===
  
Notre corpus est extrait de la base de documents du Conseil Constitutionnel français qui collecte toutes les publications du Conseil. 2204 documents au sujet de l’élection parlementaire entre 1958 et 2003 ont été sélectionnés. Chaque document décrit des jugements du Conseil sur le contentieux électoral en trois domaines: l’éligibilité de la candidature, le déroulement des opérations et le respect des règles de financement des campagnes. Parmi eux, le contrôle de financement de campagnes couvre une grande partie (53,9%) de la collection. Un document se compose une description des analyses des moyens invoqués, une indication des principes applicables et une réponse à la requête. Deux réponses sont majoritaire : l’inéligibilité de la candidature (49,6% de jugements) et le rejet de la saisie (47,2% de jugements). Donc, nous  avons attribué manuellement  à chaque document  deux  types d’étiquette de classes : un sur le sujet du contentieux (« financement » ou
+
Notre corpus est extrait de la base de documents du Conseil Constitutionnel français qui collecte toutes les publications du Conseil. 2204 documents au sujet de l’élection parlementaire entre 1958 et 2003 ont été sélectionnés. Chaque document décrit des jugements du Conseil sur le contentieux électoral en trois domaines: l’éligibilité de la candidature, le déroulement des opérations et le respect des règles de financement des campagnes. Parmi eux, le contrôle de financement de campagnes couvre une grande partie (53,9%) de la collection. Un document se compose une description des analyses des moyens invoqués, une indication des principes applicables et une réponse à la requête. Deux réponses sont majoritaire : l’inéligibilité de la candidature (49,6% de jugements) et le rejet de la saisie (47,2% de jugements). Donc, nous  avons attribué manuellement  à chaque document  deux  types d’étiquette de classes : un sur le sujet du contentieux (« financement » ou « autre »); un autre sur la décision rendue à répondre à la requête (« inéligibilité », « rejet » et « autre »). La structuration de tout le document respecte strictement une règle de rédaction. Autrement dit, les structures de l’ensemble de documents sont homogènes. La figure 1 montre un exemple de la structure du document en XML.
« autre »); un autre sur la décision rendue à répondre à la requête (« inéligibilité », « rejet » et « autre »). La structuration de tout le document respecte strictement une règle de rédaction. Autrement dit, les structures de l’ensemble de documents sont homogènes. La figure 1 montre un exemple de la structure du document en XML.
 
  
 
===Prétraitement===
 
===Prétraitement===
  
 
Le prétraitement du document consiste à sélectionner les descripteurs pertinents pour la catégorisation. La catégorisation s’appuie sur la comparaison de similarité entre les documents. Plus les documents apportent des descripteurs communs, plus similaires ils sont. Cependant, les descripteurs non contributifs pour la comparaison doivent être éliminés. Par exemple, pour le descripteur de contenu, les mots non significatifs (« le », « de », etc.) sont enregistrés dans une liste (stoplist)  et sont enlevés avec les chiffres. Les mots sont rendus à leurs formats canoniques en appliquant l’algorithme de Porter Stemming [ xi ] pour réduire le bruit. Les descripteurs couvrant seulement au-delà de 80% des documents dans la collection, et ceux qui se présentent dans quelques documents particuliers (en pourcentage inférieur à 0,5%), sont considérés peu contributifs pour la comparaison de similarité des documents et sont retirés. Avec l’algorithme de prétraitement, 11 types de descripteur sont crées. Chacun est modélisé par une matrice construite de la même façon. Ces matrices sont envoyées à un algorithme de catégorisation hiérarchique.
 
Le prétraitement du document consiste à sélectionner les descripteurs pertinents pour la catégorisation. La catégorisation s’appuie sur la comparaison de similarité entre les documents. Plus les documents apportent des descripteurs communs, plus similaires ils sont. Cependant, les descripteurs non contributifs pour la comparaison doivent être éliminés. Par exemple, pour le descripteur de contenu, les mots non significatifs (« le », « de », etc.) sont enregistrés dans une liste (stoplist)  et sont enlevés avec les chiffres. Les mots sont rendus à leurs formats canoniques en appliquant l’algorithme de Porter Stemming [ xi ] pour réduire le bruit. Les descripteurs couvrant seulement au-delà de 80% des documents dans la collection, et ceux qui se présentent dans quelques documents particuliers (en pourcentage inférieur à 0,5%), sont considérés peu contributifs pour la comparaison de similarité des documents et sont retirés. Avec l’algorithme de prétraitement, 11 types de descripteur sont crées. Chacun est modélisé par une matrice construite de la même façon. Ces matrices sont envoyées à un algorithme de catégorisation hiérarchique.
 +
 +
[[Image:Algo1.png|300px|thumb|center|]]
  
 
=== Méthode de catégorisation===
 
=== Méthode de catégorisation===
  
 
Un algorithme de partition hiérarchique agglomératif proposé par l’outil CLUTO [xii] est utilisé. Cette méthode traite la catégorisation comme un processus d’optimisation dont l’objectif est de maximiser une fonction de critères particuliers définies localement sur l’ensemble des solutions de catégorisation [ xiii ]. Une partition de K-parcours est obtenue via bi- sections répétées. Une bi-section consiste à une application récursive de  la procédure d’optimisation de catégorisation de 2-parcours. Voici la fonction de critère utilisée
 
Un algorithme de partition hiérarchique agglomératif proposé par l’outil CLUTO [xii] est utilisé. Cette méthode traite la catégorisation comme un processus d’optimisation dont l’objectif est de maximiser une fonction de critères particuliers définies localement sur l’ensemble des solutions de catégorisation [ xiii ]. Une partition de K-parcours est obtenue via bi- sections répétées. Une bi-section consiste à une application récursive de  la procédure d’optimisation de catégorisation de 2-parcours. Voici la fonction de critère utilisée
 +
 +
[[Image:Equation3.png|300px|thumb|left|]]
 +
 +
 +
 +
 +
 +
  
  
 
u et v sont deux vecteurs documentaires. Le processus d’optimisation doit maximiser cette fonction. La similarité entre deux vecteurs documentaires est mesurée par le cosinus.
 
u et v sont deux vecteurs documentaires. Le processus d’optimisation doit maximiser cette fonction. La similarité entre deux vecteurs documentaires est mesurée par le cosinus.
 +
 +
[[Image:Algo2.png|500px|thumb|center|]]
  
 
===Résultats===
 
===Résultats===
  
 
La catégorisation est évaluée quantitativement par l’entropie et la pureté ([xiv ]). Deux évaluations sont proposées sur le corpus : l’évaluation de catégorisation thématique est une approche traditionnelle ciblée à la recherche d’information ; alors que l’évaluation sur la décision rendue s’adresse à extraire des catégories décisionnelles.
 
La catégorisation est évaluée quantitativement par l’entropie et la pureté ([xiv ]). Deux évaluations sont proposées sur le corpus : l’évaluation de catégorisation thématique est une approche traditionnelle ciblée à la recherche d’information ; alors que l’évaluation sur la décision rendue s’adresse à extraire des catégories décisionnelles.
Pour l’évaluation thématique, deux séries sont lancées en différenciant le nombre de catégories. Pour le descripteur « mot », la qualité mesurée par deux coefficients augmente nettement : 26,9% pour l’entropie et 9,3% pour la pureté avec l’augmentation du nombre de catégories. La même tendance est trouvée également pour certains descripteurs. Un constat intéressant  est  que  la  qualité  de  catégorisation  pour  le      descripteur
+
Pour l’évaluation thématique, deux séries sont lancées en différenciant le nombre de catégories.  
« chemin feuillu » et les descripteurs « chemin textuel feuillu », « chemin textuel enraciné et feuillu », et « mixte de balise seule et mot » restent constant malgré une augmentation du nombre de catégories.  L’approche
 
  
du chemin textuel permet une meilleure qualité que les deux autres approches quand le nombre de catégories est fixé à 2.
+
Pour le descripteur « mot », la qualité mesurée par deux coefficients augmente nettement : 26,9% pour l’entropie et 9,3% pour la pureté avec l’augmentation du nombre de catégories. La même tendance est trouvée également pour certains descripteurs. Un constat intéressant est que la qualité de catégorisation pour le descripteur « chemin feuillu » et les descripteurs « chemin textuel feuillu », « chemin textuel enraciné et feuillu », et « mixte de balise seule et mot » restent constant malgré une augmentation du nombre de catégories. L’approche du chemin textuel permet une meilleure qualité que les deux autres approches quand le nombre de catégories est fixé à 2.
  
 +
[[Image:Graph.PNG|500px|thumb|center|]]
  
 +
 +
[[Image:Mot.png|500px|thumb|center|Figure 3. Résultats de l’évaluation thématique et de l’évaluation décisionnelle sur 11 descripteurs de trois approches]]
  
  
Figure 3. Résultats de l’évaluation thématique et de l’évaluation décisionnelle sur 11 descripteurs de trois approches
 
  
 
Au point de vue traditionnel pour une catégorisation thématique, deux documents proches partagent une partie de mots communs    significatifs.
 
Au point de vue traditionnel pour une catégorisation thématique, deux documents proches partagent une partie de mots communs    significatifs.
  
 
Le vocabulaire du document joue un rôle important dans ce cas. La structure du document n’apporte pas de vocabulaire approprié au thème du document. Pour cela, la qualité de l’approche de la structure seule  reste limitée. Cependant, on observe que la structure offre une stabilité considérable. En combinant le mot et la structure, la qualité de catégorisation est nettement augmentée. La qualité brillante du  descripteur « mixte de balise seule et mot » implique l’importance du vocabulaire de structure. Les productions de descripteur « chemin (textuel) feuillu » et de « chemin (textuel) enraciné et feuillu » montrent l’importance de l’information hiérarchique de la structure. Le  descripteur
 
Le vocabulaire du document joue un rôle important dans ce cas. La structure du document n’apporte pas de vocabulaire approprié au thème du document. Pour cela, la qualité de l’approche de la structure seule  reste limitée. Cependant, on observe que la structure offre une stabilité considérable. En combinant le mot et la structure, la qualité de catégorisation est nettement augmentée. La qualité brillante du  descripteur « mixte de balise seule et mot » implique l’importance du vocabulaire de structure. Les productions de descripteur « chemin (textuel) feuillu » et de « chemin (textuel) enraciné et feuillu » montrent l’importance de l’information hiérarchique de la structure. Le  descripteur
« chemin (textuel) feuillu » prenant une sous-structure reposant sur les éléments feuilles est plus intéressante que le descripteur « chemin (textuel) enraciné » basé sur l’élément racine et ainsi que le descripteur
+
« chemin (textuel) feuillu » prenant une sous-structure reposant sur les éléments feuilles est plus intéressante que le descripteur « chemin (textuel) enraciné » basé sur l’élément racine et ainsi que le descripteur « chemin (textuel) complet » reflétant la hiérarchie complète.
« chemin (textuel) complet » reflétant la hiérarchie complète.
+
 
En ce qui concerne l’évaluation de la décision rendue, on constate que, à l’exception du descripteur « mot », le nombre de catégorie influence peu la  qualité  de  catégorisation.  Mis  à  part  l’exception  du descripteur
+
En ce qui concerne l’évaluation de la décision rendue, on constate que, à l’exception du descripteur « mot », le nombre de catégorie influence peu la  qualité  de  catégorisation.  Mis  à  part  l’exception  du descripteur « chemin (textuel) enraciné », tous les descripteurs produisent une qualité élevée : la valeur de l’entropie est inférieure à 0,3, et la valeur de la  pureté est supérieure à 0,8. Parmi eux, l’approche du chemin textuel produit les meilleurs scores. L’approche du mot mène à une  qualité élevée par rapport à l’approche de la structure seule. Même si cette dernière peut conduire à une qualité de catégorisation satisfait. Mais une combinaison du mot et de la structure offrent une qualité bonne et stable. Au contraire des résultats de l’évaluation thématique, tous les  descripteurs de chemins textuels produisent de bons scores. Ces observations impliquent que le savoir-faire mené par la structuration du document est liée à la décision rendue.
« chemin (textuel) enraciné », tous les descripteurs produisent une qualité élevée : la valeur de l’entropie est inférieure à 0,3, et la valeur de la  pureté est supérieure à 0,8. Parmi eux, l’approche du chemin textuel produit les meilleurs scores. L’approche du mot mène à une  qualité élevée par rapport à l’approche de la structure seule. Même si cette dernière peut conduire à une qualité de catégorisation satisfait. Mais une combinaison du mot et de la structure offrent une qualité bonne et stable. Au contraire des résultats de l’évaluation thématique, tous les  descripteurs de chemins textuels produisent de bons scores. Ces observations impliquent que le savoir-faire mené par la structuration du document est liée à la décision rendue.
+
 
 
En comparant deux évaluations effectuées, on constate que les résultats  de catégorisation décisionnelle sont plus stables quand le nombre de catégories retenues augmente. Nous conclussions que les catégories retenues sont plutôt une partition des jugements qu’une partition thématique.
 
En comparant deux évaluations effectuées, on constate que les résultats  de catégorisation décisionnelle sont plus stables quand le nombre de catégories retenues augmente. Nous conclussions que les catégories retenues sont plutôt une partition des jugements qu’une partition thématique.
 
  
 
==Conclusion==
 
==Conclusion==
  
Dans cet article, nous proposons une méthode pour découvrir la connaissance et le savoir-faire du patrimoine de documents juridiques semi-structuré. Les résultats montrent que l’importance de l’information hiérarchique de la structure du document pour stabiliser la partition thématique de documents juridiques et pour l’extraction d’information décisionnelle par catégorie. En comparant avec le modèle classique « sac de mots », on remarque que la représentation tenue à la fois du contenu et
+
Dans cet article, nous proposons une méthode pour découvrir la connaissance et le savoir-faire du patrimoine de documents juridiques semi-structuré. Les résultats montrent que l’importance de l’information hiérarchique de la structure du document pour stabiliser la partition thématique de documents juridiques et pour l’extraction d’information décisionnelle par catégorie. En comparant avec le modèle classique « sac de mots », on remarque que la représentation tenue à la fois du contenu et des sous-structures hiérarchiques du document améliore généralement ici la qualité de la tâche de prétraitement de documents juridiques. Et l’amélioration se trouve sous condition que la structuration de tous les documents soit homogène.
  
des sous-structures hiérarchiques du document améliore généralement ici la qualité de la tâche de prétraitement de documents juridiques. Et l’amélioration se trouve sous condition que la structuration de tous les documents soit homogène.
 
 
Malgré une approche structurelle testée sur un corpus homogène à la structure, notre méthode doit permettre de modéliser les documents à la structuration hétérogène qui est le cas pour la base documentaire hétérogène ou les documents en Web. Ceci doit être développé et testé dans nos futurs travaux.
 
Malgré une approche structurelle testée sur un corpus homogène à la structure, notre méthode doit permettre de modéliser les documents à la structuration hétérogène qui est le cas pour la base documentaire hétérogène ou les documents en Web. Ceci doit être développé et testé dans nos futurs travaux.
  
 +
==Références bibliographiques==
  
==Références bibliographiques==
+
{{CIDE biblio
 +
|id=Flesca, 2002
 +
|id édité=[[A pour auteur cité::Sergio Flesca|FLESCA, S.]], [[A pour auteur cité::Giuseppe Manco|MANCO, G.]], [[A pour auteur cité::Elio Masciari|MASCIARI, E.]], [[A pour auteur cité::Luigi Pontieri|PONTIERI, L.]], [[A pour auteur cité::Andrea Pugliese|PUGLIESE, A.]] (2002).
 +
|texte=« Detecting Structural Similarities between XML Documents », in ''Proceedings of the International Workshop on the Web and Databases'' (WebDB), 2002.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Nierman, 2002
 +
|id édité=[[A pour auteur cité::Andrew Nierman|Nierman, A.]], [[A pour auteur cité::Jagadish H. V.|Jagadish, H. V.]],(2002)
 +
|texte=« Evaluating Structural Similarity in XML Documents », in ''Proceedings of the Fifth International Workshop on  the Web and Databases'' (WebDB 2002), Madison, Wisconsin, USA, 2002.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Francesca, 2003
 +
|id édité=[[A pour auteur cité::Francesca Francesco D.|Francesco D., F.]], [[A pour auteur cité::Gordano Gianluca|Gianluca, G.]],[[A pour auteur cité::Riccardo Ortale|Ortale, R.]],[[A pour auteur cité::Andrea Tagarelli|Tagarelli, A.]](2003)
 +
|texte=« Distance-based Clustering of XML Documents », in ''L. De Raedt et T. Washio (Eds.), MGTS-2003 : Proceedings of the First International Workshop on Mining Graphs, Trees and Sequences'', pp. 75–78. 2003.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Joshi, 2003
 +
|id édité=[[A pour auteur cité:: Sachindra Joshi|Joshi S.]], [[A pour auteur cité::Neeraj Agrawal|Agrawal, N.]],[[A pour auteur cité::Raghu Krishnapuram|Krishnapuram, R.]],[[A pour auteur cité::Neji Sumit|Sumit, N.]](2003)
 +
|texte=« A  bag  of  paths  model for measuring structural similarity in Web documents », in ''Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining''. 2003.
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Leung, 2005
 +
|id édité=[[A pour auteur cité:: Leung Ho-Pong|Ho-Pong L.]], [[A pour auteur cité::Chung Fu-lai|Fu-lai C.]],[[A pour auteur cité::Chan Stephen C.F.|Stephen C.F C.]],[[A pour auteur cité::Robert Luck|Luck, R.]](2005)
 +
|texte=« Document Clustering Using Common XPath », in ''WIRI’05 Proceedings of  the 2005 International Workshop on Challenges''. 2005
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Vercoustre, 2005
 +
|id édité=[[A pour auteur cité:: Vercoustre Anne-Marie|Anne-Marie V.]], [[A pour auteur cité::Fegas Mounir|Mounir F.]],[[A pour auteur cité::Saba Gul|Gul S.]],[[A pour auteur cité::Lechevalier Yves|Yves L.]](2005)
 +
|texte=« A Flexible Structured-based Representation for XML Document Mining », in ''Workshop of the INitiative for the Evaluation of XML Retrieval'' (2005). page 443-457. 2005
 +
}}
 +
 
 +
{{CIDE biblio
 +
|id=Salton, 1988
 +
|id édité=[[A pour auteur cité:: Salton Gerard|Gerard S.]] (1988)
 +
|texte=« Automatic Text Processing », in ''Addison-Wesley Publishing Company''. 1988
 +
}}
  
 +
{{CIDE biblio
 +
|id=Yang, 2002
 +
|id édité=[[A pour auteur cité:: Yang Jianwu|Jianwu Y.]], [[A pour auteur cité:: Chen Xiaoou|Xiaoou C.]].(2002)
 +
|texte=« A semi-structured document model for text mining », in ''J. Comput. Sci. Technol''. 17(5), 603–610.  2002
 +
}}
  
[i] Flesca S., Manco G., Masciari E., Pontieri L., Pugliese A. Detecting Structural Similarities between XML Documents. In Proceedings of  the International Workshop on the Web and Databases  (WebDB). 2002
+
{{CIDE biblio
[ii] Nierman A., Jagadish H. V. Evaluating Structural Similarity in XML Documents. In Proceedings of the Fifth International Workshop on the Web and Databases (WebDB 2002), Madison, Wisconsin, USA. 2002
+
  |id=Yao, 2007
[iii] Francesca F. D., Gordano G., Ortale R., Tagarelli A. Distance-based Clustering of XML Documents. In L. De Raedt et T. Washio (Eds.), MGTS-2003 : Proceedings of the First International Workshop on Mining Graphs, Trees and Sequences, pp. 75–78.  2003
+
|id édité=[[A pour auteur cité:: Yao Jin|Jin Y.]], [[A pour auteur cité:: Nadia Zerida|Zerida N.]].(2007)
[iv] Joshi S., Agrawal N., Krishnapuram  R.,  Negi  S.  A  bag  of  paths  model for measuring structural similarity in Web documents. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining.  2003
+
|texte=« Rare patterns to improve path-based clustering of Wikipedia articles », in ''XML data mining challenge INEX'07,Dagstuhl, Germany''. 2007
[v] Leung H., Chung  F., Chan  S.C.F.,  Luk R.  XML  Document  Clustering Using Common XPath. In WIRI’05 Proceedings of  the 2005 International Workshop on Challenges.  2005
+
}}
[vi] Vercoustre A.M., Fegas M., Gul S., Lechevallier Y. A Flexible Structured-based Representation for XML Document Mining. In: Workshop of the INitiative for the Evaluation of XML Retrieval  (2005). page 443-457. 2005
 
[vii] Salton G. Automatic Text Processing. Addison-Wesley Publishing Company. 1988
 
[viii]  Yang J., Chen X. A semi-structured document model for text  mining.
 
J. Comput. Sci. Technol. 17(5), 603–610.  2002
 
  
 +
{{CIDE biblio
 +
|id=Yao, 2009
 +
|id édité=[[A pour auteur cité:: Yao Jin|Jin Y.]], [[A pour auteur cité:: Khaldoun Zreik|Khaldoun Z.]].(2009)
 +
|texte=« La question de la structure dans la catégorisation de documents XML hétérogènes », in ''Systèmes Intelligents, Edited by Mustapha Bellafkih, Mohammed Ramdani, Khaldoun Zreik''. SBN 978-2-909285-53-3, Ed. Europia, Juin 2009
 +
}}
  
 +
{{CIDE biblio
 +
|id=Porter, 1980
 +
|id édité=[[A pour auteur cité:: Porter M.F|M.F P.]].(1980)
 +
|texte=« An algorithm for suffix stripping», in ''Program'', 14(3) pp 130−137. 1980
 +
}}
  
[ix] Yao J. et Zerida N. Rare patterns to improve path-based clustering of Wikipedia  articles,  In  XML  data  mining  challenge    INEX'07,
+
{{CIDE biblio
Dagstuhl, Germany, 2007
+
|id=Karypis, 2003
[x]    Yao J.  et Zreik K. La question de la structure dans la catégorisation    de documents XML hétérogènes. In Systèmes Intelligents, Edited by Mustapha Bellafkih, Mohammed Ramdani, Khaldoun Zreik. ISBN 978-2-909285-53-3, Ed. Europia, Juin  2009
+
|id édité=[[A pour auteur cité:: Karypis George|George K.]].(2003)
[xi] Porter M.F. An algorithm for suffix stripping. Program, 14(3) pp 130−137. 1980
+
|texte=« CLUTO: A Software Package for Clustering High- Dimensional Data Sets», in ''University of Minnesota, Dept. of Computer Science, Minneapolis, MN, Nov''. 2003. Release
[xii] Karypis G. CLUTO: A Software Package for Clustering High- Dimensional Data Sets. University of Minnesota, Dept. of Computer Science, Minneapolis, MN, Nov. 2003.  Release
+
}}
[xiii] Zhao Y. and Karypis G. Hierarchical Clustering Algorithms for Document Datasets. Data Mining and  Knowledge  Discovery, Vol. 10, No. 2, pp. 141 - 168.  2005
+
 
[xiv] Zhao Y. and Karypis G. Criterion functions for document clustering: Experiments and analysis. Technical Report TR #01–40, Department of Computer Science, University of Minnesota, Minneapolis, MN, 2001.
+
{{CIDE biblio
 +
  |id=Zhao, 2005
 +
|id édité=[[A pour auteur cité:: Zhao Ying|Ying Z.]], [[A pour auteur cité:: Goerge Karypis|Karypis G.]].(2005)
 +
|texte=« Hierarchical Clustering Algorithms for Document Datasets », in ''Data Mining and  Knowledge  Discovery'', Vol. 10, No. 2, pp. 141 - 168. 2005
 +
}}
 +
 
 +
{{CIDE biblio
 +
  |id=Zhao, 2001
 +
|id édité=[[A pour auteur cité:: Zhao Ying|Ying Z.]], [[A pour auteur cité:: Goerge Karypis|Karypis G.]].(2001)
 +
|texte=« Criterion functions for document clustering: Experiments and analysis », in ''Technical Report TR #01–40, Department of Computer Science, University of Minnesota, Minneapolis, MN,''. 2001.
 +
}}
  
 
==Notes==
 
==Notes==

Version actuelle datée du 30 janvier 2017 à 13:29

Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel


 
 

 
titre
Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel.
auteurs
Jin Yao (1), Jacques Madelaine (1) et Khaldoun Zreik(2)
Affiliations
(1):GREYC (Groupe de Recherche en Informatique, Image et Instrumentation de Caen) CNRS UMR 6072, Université de Caen, France
(2) :Laboratoire Paragraphe, Université de Paris 8, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Yao.pdf
Mots-clés 
Catégorisation de documents semi-structurés, extraction de connaissance, recherche d’information, patrimoine juridique décisionnel
Keywords
Semi-structured document clustering,knowledge discovery, information retrieval, decision support for legal heritage
Résumé
Le patrimoine de document juridique (loi, jurisprudence, brevet) s’est bien approprié l’univers de numérisation pour permettre une diffusion et une exploitation accrues des informations juridiques par des applications diverses. En conséquence, l’usage des bases documentaires juridiques partageables est devenu de plus en plus ouvert et fréquent favorisant ainsi un débit d’alimentation « semi- automatique » assez important. Constat 1: par semi-automatique, on entend un processus de dépôt direct des documents dans des bases contrôlées par des SGBDs qui exigent une intervention humaine réduite surtout au niveau de l’indexation et de la classification. En effet, ce sont les modèles de documents (leurs structures logiques et physiques modélisées par le langage de balisage) qui assurent un rôle important dans les processus d’indexation et de gestion. Donc ces modèles incorporent indirectement connaissance et savoir-faire.Constat 2 : devant une telle masse de données « très souvent textuelles », il devient indispensable d’adopter aussi une approche pour gérer les documents électroniques juridiques en tant que supports de connaissance et de savoir faire. Ceci nous mène vers des problématiques de recherche d’information et d’extraction de connaissance. Ces deux constats nous conduisent à formuler une hypothèse de classification automatique qui tiendra compte de connaissance et de savoir-faire incorporés dans les structures des modèles de documents électroniques juridiques. Aussi on constate que ces connaissances ou savoir-faire ne sont pas toujours explicites dans les corps de documents. Cela nous dirige vers une approche de catégorisation pour extraire des catégories décisionnelles. Cet article présente une méthode de représentation de document semi-structuré permettant d’analyser précisément les connaissances et le savoir-faire incorporé dans les contenus et les structures du document. Les expériences sur un corpus juridiques réel montrent que la prise en compte à la fois du contenu et de la structure conduit à une amélioration remarquable de qualité des catégories décisionnelles.