CIDE (2009) Al Hajjar : Différence entre versions

De CIDE
imported>Claire Zuliani
imported>Claire Zuliani
Ligne 32 : Ligne 32 :
  
 
=='''Introduction'''==
 
=='''Introduction'''==
Les performances des systèmes d’extraction d’information en langue arabe restent très problématiques et ceci pour plusieurs raisons [{{CIDE lien citation|Adamson, 1974}}], [{{CIDE lien citation|Chen, 2002}}], [{{CIDE lien citation|Suleiman Mustafa,2004}}]. L’une des raisons principales est due au fait que le vocabulaire de la langue arabe est essentiellement construit à partir des racines. En effet, la langue arabe possède cinq à sept milles racines distincts. Un mot arabe  est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis [{{CIDE lien citation|Al Kharashi, 1999}}], [{{CIDE lien citation|Chen, 2002}}], [{{CIDE lien citation|Taghva, 2005}}]. Ces modèles sont au nombre de cent vingt, environ. Les méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine  à partir du mot. Dans ce domaine, plusieurs méthodes ont été proposées [{{CIDE lien citation|Adamson, 1974}}], [{{CIDE lien citation|Darwish, 2002}}], [{{CIDE lien citation|Sueiman Mustafa, 2004}}], [{{CIDE lien citation|Taghva, 2005}}] , [{{CIDE lien citation|Douzidia, 2005}}], [{{CIDE lien citation|Ahmed, 2007}}], [{{CIDE lien citation|El-Halees, 2007}}], [{{CIDE lien citation|Ben Abderrahmen, 2007}}], [{{CIDE lien citation|Sinane, 2008}}] , [{{CIDE lien citation|Francopoulo, 2008}}], [{{CIDE lien citation|Al Hajjar, 2009}}]. Ces méthodes
+
Les performances des systèmes d’extraction d’information en langue arabe restent très problématiques et ceci pour plusieurs raisons [{{CIDE lien citation|Adamson, 1974}}], [{{CIDE lien citation|3}}], [{{CIDE lien citation|6}}]. L’une des raisons principales est due au fait que le vocabulaire de la langue arabe est essentiellement construit à partir des racines. En effet, la langue arabe possède cinq à sept milles racines distincts. Un mot arabe  est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis [{{CIDE lien citation|2}}], [{{CIDE lien citation|3}}], [{{CIDE lien citation|8}}]. Ces modèles sont au nombre de cent vingt, environ. Les méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine  à partir du mot. Dans ce domaine, plusieurs méthodes ont été proposées [{{CIDE lien citation|1}}], [{{CIDE lien citation|4}}], [{{CIDE lien citation|6}}], [{{CIDE lien citation|8}}] , [{{CIDE lien citation|11}}], [{{CIDE lien citation|14}}], [{{CIDE lien citation|15}}], [{{CIDE lien citation|17}}], [{{CIDE lien citation|21}}] , [{{CIDE lien citation|23}}], [{{CIDE lien citation|24}}]. Ces méthodes
 
sont soient basées sur les caractéristiques morphologiques de la langue arabe soient sur des calculs statistiques. Pour évaluer ces méthodes, nous avons développé un système d’évaluation et nous avons construit un corpus limité à vingt racines et à deux milles mots. Pour valider ces résultats, il faut bien sur un corpus plus important, un dictionnaire par exemple.
 
sont soient basées sur les caractéristiques morphologiques de la langue arabe soient sur des calculs statistiques. Pour évaluer ces méthodes, nous avons développé un système d’évaluation et nous avons construit un corpus limité à vingt racines et à deux milles mots. Pour valider ces résultats, il faut bien sur un corpus plus important, un dictionnaire par exemple.
  
En effet, on trouve beaucoup de dictionnaires arabes comme Lisan Al- Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit,  Al Ghani et d’autres [{{CIDE lien citation|Manzour, 2009}}], [{{CIDE lien citation|Al-Arab, 2009}}], [{{CIDE lien citation|28}}], [{{CIDE lien citation|29}}]. Bien que ces dictionnaires indiquent la racine, la définition, l'orthographe, les sens et les modes d’utilisation d’un mot donné, ils ne sont pas directement exploitables informatiquement puisqu’ils sont aux formats textuels non structurés (fichiers texte plats). Donc, l’absence d’un tel dictionnaire nous a poussé à construire un dictionnaire électronique structuré et informatiquement exploitable pour l’utiliser dans l’évaluation des méthodes d’extraction d’information à partir des documents arabes.
+
En effet, on trouve beaucoup de dictionnaires arabes comme Lisan Al- Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit,  Al Ghani et d’autres [{{CIDE lien citation|26}}], [{{CIDE lien citation|27}}], [{{CIDE lien citation|28}}], [{{CIDE lien citation|29}}]. Bien que ces dictionnaires indiquent la racine, la définition, l'orthographe, les sens et les modes d’utilisation d’un mot donné, ils ne sont pas directement exploitables informatiquement puisqu’ils sont aux formats textuels non structurés (fichiers texte plats). Donc, l’absence d’un tel dictionnaire nous a poussé à construire un dictionnaire électronique structuré et informatiquement exploitable pour l’utiliser dans l’évaluation des méthodes d’extraction d’information à partir des documents arabes.
  
 
Dans cet article, nous proposons un dictionnaire électronique structuré et évolutif de la langue arabe (DESELA). Ce nouveau dictionnaire peut être présenté sous la forme d’une base de données relationnelle [{{CIDE lien citation|18}}], [{{CIDE lien citation|19}}] ou d’un document XML [{{CIDE lien citation|22}}] facilement exploitable à l’aide des langages de requêtes appropriés. Ce nouveau dictionnaire contient les racines, les préfixes, les suffixes, les infixes et les modèles, en plus des informations fournies par un dictionnaire classique. De plus, il fournit les liens d’un mot donné avec sa racine, avec les affixes associés et avec son modèle éventuel. Pour atteindre cet objectif, nous avons construit un système automatique qui permet d’alimenter DESELA à partir d’un ou de plusieurs dictionnaires textuels classiques. Ce système permet aussi d’enrichir DESELA, en permanence, à partir d’un corpus textuel arabe quelconque d’où l’évolutivité de notre dictionnaire.
 
Dans cet article, nous proposons un dictionnaire électronique structuré et évolutif de la langue arabe (DESELA). Ce nouveau dictionnaire peut être présenté sous la forme d’une base de données relationnelle [{{CIDE lien citation|18}}], [{{CIDE lien citation|19}}] ou d’un document XML [{{CIDE lien citation|22}}] facilement exploitable à l’aide des langages de requêtes appropriés. Ce nouveau dictionnaire contient les racines, les préfixes, les suffixes, les infixes et les modèles, en plus des informations fournies par un dictionnaire classique. De plus, il fournit les liens d’un mot donné avec sa racine, avec les affixes associés et avec son modèle éventuel. Pour atteindre cet objectif, nous avons construit un système automatique qui permet d’alimenter DESELA à partir d’un ou de plusieurs dictionnaires textuels classiques. Ce système permet aussi d’enrichir DESELA, en permanence, à partir d’un corpus textuel arabe quelconque d’où l’évolutivité de notre dictionnaire.
Ligne 252 : Ligne 252 :
  
 
{{CIDE biblio
 
{{CIDE biblio
   |id= Adamson, 1974
+
   |id=Adamson, 1974
 
   |texte= George W. Adamson, J. Boreham, The use of an association measure based on character structure to identify semantically related pairs of words and document titles, Information Storage and Retrieval, Vol. 10, pp 253-260, 1974.
 
   |texte= George W. Adamson, J. Boreham, The use of an association measure based on character structure to identify semantically related pairs of words and document titles, Information Storage and Retrieval, Vol. 10, pp 253-260, 1974.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=2
+
   |id=Al Kharashi, 1999
   |texte= I. Al Kharashi, A Web Search Engine for Indexing, Searching and Publishing Arabic Bibliographic Databases, 1999.
+
   |texte= I. Al Kharashi, A Web Search Engine for Indexing, Searching and Publishing Arabic Bibliographic Databases, 1999.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=3
+
   |id=Chen, 2002
   |texte= A. Chen, F. Gey, Building an Arabic stemmer for information retrieval.TREC-11 conference 2002.
+
   |texte= A. Chen, F. Gey, Building an Arabic stemmer for information retrieval.TREC-11 conference 2002.
  
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=4
+
   |id=Darwish, 2002
 
   |texte= K. Darwish, Building a Shallow Arabic Morphological Analyzer in One Day. The ACL-02 Workshop on Computational Approaches to Semitic Languages, Philadelphia, USA, 2002.
 
   |texte= K. Darwish, Building a Shallow Arabic Morphological Analyzer in One Day. The ACL-02 Workshop on Computational Approaches to Semitic Languages, Philadelphia, USA, 2002.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=5
+
   |id=Larkey, 2002
   |texte= L. S. Larkey, L. Ballesteros, M. E. Connel, Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis, Proc. of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 275 – 282, 2002.
+
   |texte= L. S. Larkey, L. Ballesteros, M. E. Connel, Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis, Proc. of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 275 – 282, 2002.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=6
+
   |id=Sueiman Mustafa, 2004
   |texte= H. Suleiman Mustafa, Character contiguity in N-gram based word matching: the case for Arabic text searching . Information Processing and Management.41 (4), 819-827, 2004.
+
   |texte= H. Suleiman Mustafa, Character contiguity in N-gram based word matching: the case for Arabic text searching . Information Processing and Management.41 (4), 819-827, 2004.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
Ligne 281 : Ligne 281 :
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=8
+
   |id=Taghva, 2005
 
   |texte= K. Taghva, R. Elkoury, J. Coombs, Arabic Stemming without a root dictionary, International Conference on Information Technology: Coding and Computing (ITCC'05) - Volume I  pp. 152-157, 2005.
 
   |texte= K. Taghva, R. Elkoury, J. Coombs, Arabic Stemming without a root dictionary, International Conference on Information Technology: Coding and Computing (ITCC'05) - Volume I  pp. 152-157, 2005.
 
}}
 
}}
Ligne 294 : Ligne 294 :
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=11
+
   |id=Douzidia, 2005
 
   |texte= F .Douzidia, G. Lapalme, Un système de résumé de textes en arabe, 2ème Congrès International sur l'Ingénierie de l'Arabe et l'Ingénierie de la langue, Alger, 2005.
 
   |texte= F .Douzidia, G. Lapalme, Un système de résumé de textes en arabe, 2ème Congrès International sur l'Ingénierie de l'Arabe et l'Ingénierie de la langue, Alger, 2005.
 
}}
 
}}
Ligne 306 : Ligne 306 :
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=14
+
   |id=Ahmed, 2007
 
   |texte= F. Ahmed, A. Nürnberger, N-grams Conflation Approach for Arabic, ACM SIGIR Conference, Amsterdam, 27 Juillet 2007.
 
   |texte= F. Ahmed, A. Nürnberger, N-grams Conflation Approach for Arabic, ACM SIGIR Conference, Amsterdam, 27 Juillet 2007.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=15
+
   |id=El-Halees, 2007
 
   |texte= A. M. El-Halees, Arabic Text Classification Using Maximum Entropy, The Islamic University Journal (Series of Natural Studies and Engineering) Vol. 15, No.1, pp 157-167, ISSN 1726-6807,
 
   |texte= A. M. El-Halees, Arabic Text Classification Using Maximum Entropy, The Islamic University Journal (Series of Natural Studies and Engineering) Vol. 15, No.1, pp 157-167, ISSN 1726-6807,
 
http//www.iugzaza.edu.ps/ara/research/, 2007.
 
http//www.iugzaza.edu.ps/ara/research/, 2007.
Ligne 320 : Ligne 320 :
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=17
+
   |id=Ben Abderrahmen, 2007
 
   |texte= M. Ben Abderrahmen, B. Gargouri, M Jmaiel, LMF-QL: A graphical Tool to Query LMF databases, Third Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 2007.
 
   |texte= M. Ben Abderrahmen, B. Gargouri, M Jmaiel, LMF-QL: A graphical Tool to Query LMF databases, Third Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 2007.
 
}}
 
}}
Ligne 336 : Ligne 336 :
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=21
+
   |id=Sinane, 2008
 
   |texte= M. Sinane, M. Rammal, K. Zreik, Arabic documents classification using N-gram, Conférence ICHSL6, Toulouse, 2008.
 
   |texte= M. Sinane, M. Rammal, K. Zreik, Arabic documents classification using N-gram, Conférence ICHSL6, Toulouse, 2008.
 
}}
 
}}
Ligne 347 : Ligne 347 :
  
 
{{CIDE biblio
 
{{CIDE biblio
   |id=23
+
   |id=Francopoulo, 2008
 
   |texte= G. Francopoulo, M. George, Language resource management − Lexical markup framework (LMF), ISO/TC 37/SC 4 Rev.15, 2008.
 
   |texte= G. Francopoulo, M. George, Language resource management − Lexical markup framework (LMF), ISO/TC 37/SC 4 Rev.15, 2008.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=24
+
   |id=Al Hajjar, 2009
 
   |texte= A. Al Hajjar, M. Hajjar, K. Zreik, Classification of Arabic Information Extraction methods, 2nd International Conference on Arabic Language Resources and Tools, Le Caire, Egypte, 21-23 Avril 2009.
 
   |texte= A. Al Hajjar, M. Hajjar, K. Zreik, Classification of Arabic Information Extraction methods, 2nd International Conference on Arabic Language Resources and Tools, Le Caire, Egypte, 21-23 Avril 2009.
 
}}
 
}}
Ligne 359 : Ligne 359 :
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=26
+
   |id=Manzour, 2009
 
   |texte= Ibn Manzour, Lisan Al-Arab. www.muhaddith.org, 2009.
 
   |texte= Ibn Manzour, Lisan Al-Arab. www.muhaddith.org, 2009.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
   |id=27
+
   |id=Al-Arab, 2009
 
   |texte= Sakher, Lexicons: Lisan Al-Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit, Al Ghani, Taj Al Arous, Najaat Al Raed, http://lexicons.sakhr.com, 2009.
 
   |texte= Sakher, Lexicons: Lisan Al-Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit, Al Ghani, Taj Al Arous, Najaat Al Raed, http://lexicons.sakhr.com, 2009.
 
}}
 
}}

Version du 5 décembre 2016 à 15:30

Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA


 
 

 
titre
Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA
auteurs
Abd El Salam al Hajjar (1,2), Mohammad Hajjar (2) et Khaldoun Zreik (2)
Affiliations
(1) : Institut Universitaire de Technologie, Université Libanaise, Liban
(2) : Laboratoire Paragraphe, Université de Paris 8 - Vincennes - Saint-Denis, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Al Hajjar.pdf
Mots-clés 
Langue arabe, Corpus, Dictionnaire, Extraction d’information, Racine.
Keywords
Arabic Language, Corpus, Dictionary, Information Extraction, Root.


Résumé
Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.