CIDE (2009) Al Hajjar : Différence entre versions

De CIDE
imported>Claire Zuliani
(Références bibliographique)
imported>Claire Zuliani
(Références bibliographique)
Ligne 241 : Ligne 241 :
 
{{CIDE biblio
 
{{CIDE biblio
 
   |id=Larkey, 2002
 
   |id=Larkey, 2002
   |id édité=[[A pour auteur cité::Leah S. Larkey|Larkey, L.]],[[A pour auteur cité::Lisa Ballesteros|Ballesteros, L.]] (2002)
+
   |id édité=[[A pour auteur cité::Leah S. Larkey|Larkey, L.]],[[A pour auteur cité::Lisa Ballesteros|Ballesteros, L.]],[[A pour auteur cité::M.E Connel|M.E Connel]] (2002)
   |texte= L. S. Larkey, L. Ballesteros, M. E. Connel, Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis, Proc. of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 275 – 282, 2002.
+
   |texte= Leah S. Larkey, Lisa Ballesteros, M. E. Connel, Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis, Proc. of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 275 – 282, 2002.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
 
   |id=Sueiman Mustafa, 2004
 
   |id=Sueiman Mustafa, 2004
 +
  |id édité=[[A pour auteur cité::Suleiman H. Mustafa|Mustafa, S.]] (2004)
 
   |texte= H. Suleiman Mustafa, Character contiguity in N-gram based word matching: the case for Arabic text searching . Information Processing and Management.41 (4), 819-827, 2004.
 
   |texte= H. Suleiman Mustafa, Character contiguity in N-gram based word matching: the case for Arabic text searching . Information Processing and Management.41 (4), 819-827, 2004.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
 
   |id=Kanaan, 2004
 
   |id=Kanaan, 2004
   |texte= G. Kanaan, R. Al-Shalabi, J. Jaarn, M. Al-Kabi, A. Hasnah, A New Stemming Algorithm to Extract Quadri-Literal Arabic Roots, 2004.
+
   |id édité=[[A pour auteur cité::Ghassan G. Kanaan|Kanaan, G.]], [[A pour auteur cité::Riyad Al-Shalabi|Al-Shalabi, R.]], [[A pour auteur cité::J. Jaarn|Jaarn, J.]], [[A pour auteur cité::A. Hasnah|Hasnah, A.]] (2004)
 +
  |texte= Ghassan G. Kanaan, Riyad Al-Shalabi, J. Jaarn, M. Al-Kabi, A. Hasnah, A New Stemming Algorithm to Extract Quadri-Literal Arabic Roots, 2004.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
 
   |id=Taghva, 2005
 
   |id=Taghva, 2005
   |texte= K. Taghva, R. Elkoury, J. Coombs, Arabic Stemming without a root dictionary, International Conference on Information Technology: Coding and Computing (ITCC'05) - Volume I  pp. 152-157, 2005.
+
   |id édité=[[A pour auteur cité::Kazem Taghva|Taghva, K.]], [[A pour auteur cité::Rania Elkoury|Elkoury, R.]], [[A pour auteur cité::Jeffrey Coombs|Coombs, J.]] (2005)
 +
  |texte= Kazem Taghva, Rania Elkoury, Jeffrey Coombs, Arabic Stemming without a root dictionary, International Conference on Information Technology: Coding and Computing (ITCC'05) - Volume I  pp. 152-157, 2005.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
 
   |id=Al Ameed, 2005
 
   |id=Al Ameed, 2005
   |texte= H. Al Ameed, S. Al Ketbi, A. Al Kaabi, K. Al Shebli, N. Al Shamsi, N. Al Nuaimi, S. Al Muhairi, Arabic Light Stemmer: A new Enhanced Approach , The Second International Conference on Innovations in Information Technology (IIT’05), 2005.
+
   |id édité=[[A pour auteur cité::Hayder Al Ameed|Al Ameed, H.]], [[A pour auteur cité::Shaikha O. Al Ketbi|Al Ketbi, S.]], [[A pour auteur cité::]], [[A pour auteur cité::Amna A. Al Kaabi|Al Kaabi, A.]], [[A pour auteur cité::Khadija S. Al Shebli|Al Shebli, K. S.]], [[A pour auteur cité::Naila F. Al Shamsi| Shamsi, N.]], [[A pour auteur cité::Noura H. Al Nuaimi|Nuaimi, N.]], [[A pour auteur cité::Shaikha S. Al Muhairi|Muhairi, S.]] (2005)
 +
  |texte= Hayder Al Ameed, Shaikha O. Al Ketbi, Amna A. Al Kaabi, Khadija S. Al Shebli, Naila F. Al Shamsi, Noura H. Al Nuaimi, Shaikha S. Al Muhairi, Arabic Light Stemmer: A new Enhanced Approach, The Second International Conference on Innovations in Information Technology (IIT’05), 2005.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
 
   |id=Larkey, 2005
 
   |id=Larkey, 2005
   |texte= L. Larkey, L. Ballesteros, M. Connell, Light Stemming for Arabic IR, Arabic Computational Morphology: Knowledge-based and Empirical Methods, A. Soudi, A. Van Bosch, and G. Neumann Editors.
+
   |id édité=[[A pour auteur cité::Leah S. Larkey|Larkey, L.]],[[A pour auteur cité::Lisa Ballesteros|Ballesteros, L.]],[[A pour auteur cité::M.E Connel|M.E Connel]] (2005)
 +
  |texte=Leah S. Larkey, Lisa Ballesteros, M. Connell, Light Stemming for Arabic IR, Arabic Computational Morphology: Knowledge-based and Empirical Methods, A. Soudi, A. Van Bosch, and G. Neumann Editors.
 
Kluwer/Springer's series on Text, Speech, and Language Technology, 2005.
 
Kluwer/Springer's series on Text, Speech, and Language Technology, 2005.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
 
   |id=Douzidia, 2005
 
   |id=Douzidia, 2005
   |texte= F .Douzidia, G. Lapalme, Un système de résumé de textes en arabe, 2ème Congrès International sur l'Ingénierie de l'Arabe et l'Ingénierie de la langue, Alger, 2005.
+
   |id édité=[[A pour auteur cité::Fouad S. Douzidia|Douzidia, F.]], [[A pour auteur cité::Guy Lapalme|Lapalme, G.]] (2005)
 +
  |texte=Fouad S. Douzidia, Guy Lapalme, Un système de résumé de textes en arabe, 2ème Congrès International sur l'Ingénierie de l'Arabe et l'Ingénierie de la langue, Alger, 2005.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
 
   |id=Kadri, 2006
 
   |id=Kadri, 2006
   |texte= Y. Kadri, J. Nie, Effective Stemming for Arabic Information Retrieval, proceedings of theChallenge of Arabic for NLP/ MT Conference, Londres, Royaume-Uni, 2006.
+
   |id édité=[[A pour auteur cité::Youssef Kadri|Kadri, Y.]], [[A pour auteur cité::Jian-Yun Nie|Nie, J.]] (2006)
 +
  |texte= Youssef Kadri, Jian-Yun Nie, Effective Stemming for Arabic Information Retrieval, proceedings of theChallenge of Arabic for NLP/ MT Conference, Londres, Royaume-Uni, 2006.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
 
   |id=Khreisat, 2006
 
   |id=Khreisat, 2006
   |texte= L. Khreisat, Arabic Text Classification Using N-gram Frequency Statistics A Comparative Study, The 2006 International Conference on Data Mining Part of the 2006 World Congress in Computer Sciences DMIN: 78-82, 2006.
+
   |id édité=[[A pour auteur cité::Laila Khreisat|Khreisat, L.]] (2006)
 +
  |texte= Laila Khreisat, Arabic Text Classification Using N-gram Frequency Statistics A Comparative Study, The 2006 International Conference on Data Mining Part of the 2006 World Congress in Computer Sciences DMIN: 78-82, 2006.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio

Version du 5 décembre 2016 à 20:26

Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA


 
 

 
titre
Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA
auteurs
Abd El Salam al Hajjar (1,2), Mohammad Hajjar (2) et Khaldoun Zreik (2)
Affiliations
(1) : Institut Universitaire de Technologie, Université Libanaise, Liban
(2) : Laboratoire Paragraphe, Université de Paris 8 - Vincennes - Saint-Denis, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Al Hajjar.pdf
Mots-clés 
Langue arabe, Corpus, Dictionnaire, Extraction d’information, Racine.
Keywords
Arabic Language, Corpus, Dictionary, Information Extraction, Root.


Résumé
Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.