CIDE (2009) Yao : Différence entre versions

De CIDE
imported>Sabah Benlahbib
imported>Sabah Benlahbib
(Démarche)
Ligne 45 : Ligne 45 :
  
 
Les documents électroniques semi-structurés utilisent des balises XML ayant des propriétés structurelles. Cette opportunité a offert de nouveaux défis à l’apprentissage automatique, et particulièrement à la catégorisation. Plusieurs approches et méthodes ont été proposées à ce propos et peuvent être réparties en deux catégories :
 
Les documents électroniques semi-structurés utilisent des balises XML ayant des propriétés structurelles. Cette opportunité a offert de nouveaux défis à l’apprentissage automatique, et particulièrement à la catégorisation. Plusieurs approches et méthodes ont été proposées à ce propos et peuvent être réparties en deux catégories :
 +
 
Dans la première catégorie, les travaux ne considèrent que la structure du document. [ i ] adoptent une approche de traitement de signal pour catégoriser les documents. Les balises XML sont ainsi représentées comme une série temporelle. Et la similarité entre les documents est calculée en analysant des coefficients de transformation de Fourier. [ii] et [iii] proposent d’analyser directement la structure du document XML qui est représentée sous la forme d’un arbre de balises. La catégorisation par la structure du document permet de réduire la structure hétérogène d’un semble de documents. L’inconvénient principal de cette approche réside dans la complexité polynomiale des algorithmes utilisés.
 
Dans la première catégorie, les travaux ne considèrent que la structure du document. [ i ] adoptent une approche de traitement de signal pour catégoriser les documents. Les balises XML sont ainsi représentées comme une série temporelle. Et la similarité entre les documents est calculée en analysant des coefficients de transformation de Fourier. [ii] et [iii] proposent d’analyser directement la structure du document XML qui est représentée sous la forme d’un arbre de balises. La catégorisation par la structure du document permet de réduire la structure hétérogène d’un semble de documents. L’inconvénient principal de cette approche réside dans la complexité polynomiale des algorithmes utilisés.
  
 
La deuxième catégorie tient compte à la fois du contenu et de la structure d’un document XML. Dans [ iv ] [ v ] [ vi ], l’arbre du document XML est transformé en un sac de chemins, un sac de mots ou un sac mixte de chemins et de mots. Pour représenter l’ensemble de ces descripteurs linéaires, ils adoptent le modèle vectoriel proposé par Salton [vii ]. [viii] ont étendu le modèle vectoriel en combinant le contenu, les éléments et les hyperliens dans le document XML. Ces travaux ont montré qu’une approche de catégorisation par l’information de contenu et l’information de structure donne une meilleure précision de regroupement si la  structure de la collection en question est homogène.
 
La deuxième catégorie tient compte à la fois du contenu et de la structure d’un document XML. Dans [ iv ] [ v ] [ vi ], l’arbre du document XML est transformé en un sac de chemins, un sac de mots ou un sac mixte de chemins et de mots. Pour représenter l’ensemble de ces descripteurs linéaires, ils adoptent le modèle vectoriel proposé par Salton [vii ]. [viii] ont étendu le modèle vectoriel en combinant le contenu, les éléments et les hyperliens dans le document XML. Ces travaux ont montré qu’une approche de catégorisation par l’information de contenu et l’information de structure donne une meilleure précision de regroupement si la  structure de la collection en question est homogène.
 +
 
Nous nous intéressons à découvrir la connaissance et le savoir-faire  menés par le contenu et la structure du document. Nos expériences précédentes [ ix ], [ x ] montre que l’hétérogénéité de la structuration du document général affecte peu la qualité de la catégorisation thématique. Dans cet article, nous nous concentrons sur les documents juridiques à structuration homogène. Nous réalisons un processus heuristique pour comparer au fur et à mesure les différents descripteurs de document semi- structuré : d’abord, le descripteur de mot classique est utilisé ; ensuite, les descripteurs de structure seule sont examinés ; à la fin, le contenu et la structure hiérarchique du document sont pris en compte globalement. En comparant les résultats de trois séries de catégorisation, nous pouvons explorer le savoir-faire de la structure pour le prétraitement de patrimoine de documents juridiques.
 
Nous nous intéressons à découvrir la connaissance et le savoir-faire  menés par le contenu et la structure du document. Nos expériences précédentes [ ix ], [ x ] montre que l’hétérogénéité de la structuration du document général affecte peu la qualité de la catégorisation thématique. Dans cet article, nous nous concentrons sur les documents juridiques à structuration homogène. Nous réalisons un processus heuristique pour comparer au fur et à mesure les différents descripteurs de document semi- structuré : d’abord, le descripteur de mot classique est utilisé ; ensuite, les descripteurs de structure seule sont examinés ; à la fin, le contenu et la structure hiérarchique du document sont pris en compte globalement. En comparant les résultats de trois séries de catégorisation, nous pouvons explorer le savoir-faire de la structure pour le prétraitement de patrimoine de documents juridiques.
 
  
 
==Spécificités du document semi-structuré==
 
==Spécificités du document semi-structuré==

Version du 25 novembre 2016 à 16:41

Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel


 
 

 
titre
Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel.
auteurs
Jin Yao (1), Jacques Madelaine (1) et Khaldoun Zreik(2)
Affiliations
(1):GREYC (Groupe de Recherche en Informatique, Image et Instrumentation de Caen) CNRS UMR 6072, Université de Caen, France
(2) :Laboratoire Paragraphe, Université de Paris 8, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Yao.pdf
Mots-clés 
Catégorisation de documents semi-structurés, extraction de connaissance, recherche d’information, patrimoine juridique décisionnel
Keywords
Semi-structured document clustering,knowledge discovery, information retrieval, decision support for legal heritage
Résumé
Le patrimoine de document juridique (loi, jurisprudence, brevet) s’est bien approprié l’univers de numérisation pour permettre une diffusion et une exploitation accrues des informations juridiques par des applications diverses. En conséquence, l’usage des bases documentaires juridiques partageables est devenu de plus en plus ouvert et fréquent favorisant ainsi un débit d’alimentation « semi- automatique » assez important. Constat 1 : par semi-automatique, on entend un processus de dépôt direct des documents dans des bases contrôlées par des SGBDs qui exigent une intervention humaine réduite surtout au niveau de l’indexation et de la classification. En effet, ce sont les modèles de documents (leurs structures logiques et physiques modélisées par le langage de balisage) qui assurent un rôle important dans les processus d’indexation et de gestion. Donc ces modèles incorporent indirectement connaissance et savoir-faire. Constat 2 : devant une telle masse de données « très souvent textuelles », il devient indispensable d’adopter aussi une approche pour gérer les documents électroniques juridiques en tant que supports de connaissance et de savoir faire. Ceci nous mène vers des problématiques de recherche d’information et d’extraction de connaissance. Ces deux constats nous conduisent à formuler une hypothèse de classification automatique qui tiendra compte de connaissance et de savoir-faire incorporés dans les structures des modèles de documents électroniques juridiques. Aussi on constate que ces connaissances ou savoir-faire ne sont pas toujours explicites dans les corps de documents. Cela nous dirige vers une approche de catégorisation pour extraire des catégories décisionnelles. Cet article présente une méthode de représentation de document semi-structuré permettant d’analyser précisément les connaissances et le savoir-faire incorporé dans les contenus et les structures du document. Les expériences sur un corpus juridiques réel montrent que la prise en compte à la fois du contenu et de la structure conduit à une amélioration remarquable de qualité des catégories décisionnelles.