CIDE (2009) Yao : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
(Page créée avec « {{Wicri avertissement création lien}} ;In:CIDE.12 (Montréal), 2009 * Média:CIDE (2009) Yao.pdf Catégorie:Article avec PDF »)
 
imported>Abdelhakim Aidene
Ligne 1 : Ligne 1 :
{{Wicri avertissement création lien}}
+
{{Titre page article
 +
|titre=Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel
 +
}}
 +
{{CIDE boîte bibliographique|texte=
 +
;titre: [[A pour titre::Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel.]]
 +
;auteurs: [[A pour premier auteur::Jin Yao ]] (1), [[A pour auteur::Jacques Madelaine]] (1) et [[A pour auteur::Khaldoun Zreik ]](2)
 +
;Affiliations:
 +
: (1):[[A pour affiliation auteur::GREYC (Groupe de Recherche en Informatique, Image et Instrumentation de Caen) CNRS UMR 6072]], [[A pour affiliation auteur::  Université de Caen]], [[France ]]
 +
: (2) :[[A pour affiliation auteur:: Laboratoire Paragraphe]], [[A pour affiliation auteur::Université de Paris 8]], [[France ]]
 
;In:[[Est dans les actes::CIDE 2009 Montréal|CIDE.12 (Montréal)]], 2009
 
;In:[[Est dans les actes::CIDE 2009 Montréal|CIDE.12 (Montréal)]], 2009
* [[Média:CIDE (2009) Yao.pdf]]
+
;En PDF : [[Media:CIDE (2009) Yao.pdf|CIDE (2009) Yao.pdf]]
 +
;Mots-clés : Catégorisation de documents semi-structurés, extraction de connaissance, recherche d’information, patrimoine juridique décisionnel
 +
;Keywords:Semi-structured document clustering,knowledge discovery, information retrieval, decision support for legal heritage
 +
 
 +
}}
 +
__NOTOC__
 +
<div style="text-align:justify;">
 +
;Résumé:Le patrimoine de document juridique (loi, jurisprudence, brevet) s’est bien approprié l’univers de numérisation pour permettre une diffusion et une exploitation accrues des informations juridiques par des applications diverses. En conséquence, l’usage des bases documentaires juridiques partageables est devenu de plus en plus ouvert et fréquent favorisant ainsi un débit d’alimentation « semi- automatique » assez important. Constat 1 : par semi-automatique, on entend un processus de dépôt direct des documents dans des bases contrôlées par des SGBDs qui exigent une intervention humaine réduite surtout au niveau de l’indexation et de la classification. En effet, ce sont les modèles de documents (leurs structures logiques et physiques modélisées par le langage de balisage) qui assurent un rôle important dans les processus d’indexation et de gestion. Donc ces modèles incorporent indirectement connaissance et savoir-faire. Constat 2 : devant une telle masse de données « très souvent textuelles », il devient indispensable d’adopter aussi une approche pour gérer les documents électroniques juridiques en tant que supports de connaissance et de savoir faire. Ceci nous mène vers des problématiques de recherche d’information et d’extraction de connaissance. Ces deux constats nous conduisent à formuler une hypothèse de classification automatique qui tiendra compte de connaissance et de savoir-faire incorporés dans les structures des modèles de documents électroniques juridiques. Aussi on constate que ces connaissances ou savoir-faire ne sont pas toujours explicites dans les corps de documents. Cela nous dirige  vers une approche de catégorisation pour extraire des catégories décisionnelles. Cet article présente une méthode de représentation de document    semi-structuré permettant d’analyser précisément les connaissances et le savoir-faire incorporé dans les contenus et les structures du document. Les expériences sur un corpus juridiques réel montrent que la prise en compte à la fois du contenu et de la structure conduit à une amélioration remarquable de qualité des catégories décisionnelles.
 +
 
 +
{{boîte déroulante
 +
  |titre=English description
 +
  |contenu=
 +
<div style="text-align:justify;">
 +
;Abstract :The legal document (law, case law, patent) uses commonly scanning facilities for dissemination and exploitation of legal information through various applications. Thus, the use of legal documentary databases has become more and more open and frequent, leading to a fairly important “semi-automatic” feeding mode. Observation 1: we intend to make a “semi-automatic” process to deposit directly documents in databases controlled by DBMS, including indexing and classification with a limited human intervention. In fact, it is the documents templates (the logical and physical structures modelled by the markup language) that take an important place in the process of indexing and management. Then the templates incorporate indirectly the knowledge and the expertise.  Observation 2: in the presence of such a mass data (very often textual), it becomes essential to adopt an approach to manage the electronic legal  documents as carriers of knowledge and expertise. This shifts the problem to domains of information retrieval and knowledge discovery. These two observations lead us to formulate an hypothesis for automatic classification that considers the knowledge and expertise incorporated in the structures of the legal electronic documents. This is motivated as we find that the knowledge or expertise are not always explicit in the document body. That pilots us to an approach of categorization to discover decision-making clusters. This article presents a representation method for semi-structured document who allows to analysis very precisely the knowledge and expertise incorporated in both  contents and structures of document. The experiments upon a real legal corpus show that incorporation of content and structure produces a remarkable improvement of the quality of decision-making clusters.
 +
 
 +
}}
 +
 
 +
 
 +
{{Clr}}
 +
[[Catégorie:référence bibliographique, article de conférence]]
 
[[Catégorie:Article avec PDF]]
 
[[Catégorie:Article avec PDF]]
 +
[[Catégorie:Musée virtuel]]
 +
[[Catégorie:Médiation numérique]]
 +
__SHOWFACTBOX__

Version du 14 juin 2016 à 15:00

Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel


 
 

 
titre
Une approche de catégorisation structurelle de documents numériques pour une meilleure exploitation du patrimoine juridique décisionnel.
auteurs
Jin Yao (1), Jacques Madelaine (1) et Khaldoun Zreik(2)
Affiliations
(1):GREYC (Groupe de Recherche en Informatique, Image et Instrumentation de Caen) CNRS UMR 6072, Université de Caen, France
(2) :Laboratoire Paragraphe, Université de Paris 8, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Yao.pdf
Mots-clés 
Catégorisation de documents semi-structurés, extraction de connaissance, recherche d’information, patrimoine juridique décisionnel
Keywords
Semi-structured document clustering,knowledge discovery, information retrieval, decision support for legal heritage
Résumé
Le patrimoine de document juridique (loi, jurisprudence, brevet) s’est bien approprié l’univers de numérisation pour permettre une diffusion et une exploitation accrues des informations juridiques par des applications diverses. En conséquence, l’usage des bases documentaires juridiques partageables est devenu de plus en plus ouvert et fréquent favorisant ainsi un débit d’alimentation « semi- automatique » assez important. Constat 1 : par semi-automatique, on entend un processus de dépôt direct des documents dans des bases contrôlées par des SGBDs qui exigent une intervention humaine réduite surtout au niveau de l’indexation et de la classification. En effet, ce sont les modèles de documents (leurs structures logiques et physiques modélisées par le langage de balisage) qui assurent un rôle important dans les processus d’indexation et de gestion. Donc ces modèles incorporent indirectement connaissance et savoir-faire. Constat 2 : devant une telle masse de données « très souvent textuelles », il devient indispensable d’adopter aussi une approche pour gérer les documents électroniques juridiques en tant que supports de connaissance et de savoir faire. Ceci nous mène vers des problématiques de recherche d’information et d’extraction de connaissance. Ces deux constats nous conduisent à formuler une hypothèse de classification automatique qui tiendra compte de connaissance et de savoir-faire incorporés dans les structures des modèles de documents électroniques juridiques. Aussi on constate que ces connaissances ou savoir-faire ne sont pas toujours explicites dans les corps de documents. Cela nous dirige vers une approche de catégorisation pour extraire des catégories décisionnelles. Cet article présente une méthode de représentation de document semi-structuré permettant d’analyser précisément les connaissances et le savoir-faire incorporé dans les contenus et les structures du document. Les expériences sur un corpus juridiques réel montrent que la prise en compte à la fois du contenu et de la structure conduit à une amélioration remarquable de qualité des catégories décisionnelles.