CIDE (2009) Al Hajjar : Différence entre versions

De CIDE
imported>Claire Zuliani
imported>Claire Zuliani
(Références bibliographique)
 
(2 révisions intermédiaires par le même utilisateur non affichées)
Ligne 57 : Ligne 57 :
  
 
La question primordiale à résoudre dans ce composant est : comment déterminer si un mot est une racine ? Pour répondre à cette question, plusieurs cas se présentent (Figure 3).
 
La question primordiale à résoudre dans ce composant est : comment déterminer si un mot est une racine ? Pour répondre à cette question, plusieurs cas se présentent (Figure 3).
Dans le cas d’un dictionnaire, les racines sont, en générale, encadrées par des séparateurs spéciaux et les mots, qui sont situés après cette racine et avant la racine suivante, dérivent de la première. Le faite de valider un mot avec sa racine est dû au faite que certains mots qui se trouvent après une racine peuvent ne pas dériver d’elle. Ce type des mots est à ne pas considérer dans DESELA. Pour déterminer ce type des mots, nous utilisons l’une des méthodes d’extraction de la racine d’un mot arabe [24]. Par exemple, dans le cas du dictionnaire Lissan Al Arabe [{{CIDE lien citation|Manzour, 2009}}], [{{CIDE lien citation|Al-Arab, 2009}}]. Chaque racine est précédée par le symbole « @ » et suivit par le symbole « : » (Figure 4), la plupart des mots qui sont situés après une racine et avant la racine suivante dérivent de la première. Considérons l’exemple de la racine أآﻞ donné dans la figure 4. Dans cet exemple, tous les mots qui sont situés entre les deux racines أآﻞ et ﻏﺮب sont validés par une méthode d’extraction de la racine arabe, en l’occurrence « Arabic Stemming without a root dictionary » [Taghva, 2005]. Par contre le mot ﺗﻘﻮل, qui situe entre les deux racines أآﻞ et ﻏﺮب ne dérive pas de la première racine أآﻞ.
+
Dans le cas d’un dictionnaire, les racines sont, en générale, encadrées par des séparateurs spéciaux et les mots, qui sont situés après cette racine et avant la racine suivante, dérivent de la première. Le faite de valider un mot avec sa racine est dû au faite que certains mots qui se trouvent après une racine peuvent ne pas dériver d’elle. Ce type des mots est à ne pas considérer dans DESELA. Pour déterminer ce type des mots, nous utilisons l’une des méthodes d’extraction de la racine d’un mot arabe [24]. Par exemple, dans le cas du dictionnaire Lissan Al Arabe [{{CIDE lien citation|Manzour, 2009}}], [{{CIDE lien citation|Al-Arab, 2009}}]. Chaque racine est précédée par le symbole « @ » et suivit par le symbole « : » (Figure 4), la plupart des mots qui sont situés après une racine et avant la racine suivante dérivent de la première. Considérons l’exemple de la racine أآﻞ donné dans la figure 4. Dans cet exemple, tous les mots qui sont situés entre les deux racines أآﻞ et ﻏﺮب sont validés par une méthode d’extraction de la racine arabe, en l’occurrence « Arabic Stemming without a root dictionary » [{{CIDE lien citation|Taghva, 2005}}]. Par contre le mot ﺗﻘﻮل, qui situe entre les deux racines أآﻞ et ﻏﺮب ne dérive pas de la première racine أآﻞ.
  
 
Dans ce cas, le mot ﺗﻘﻮل, qui n’est pas validé par rapport à la racine est à ne pas considérer dans DESELA.
 
Dans ce cas, le mot ﺗﻘﻮل, qui n’est pas validé par rapport à la racine est à ne pas considérer dans DESELA.
 
,أآﻞ
 
,أآﻞ
La méthode « Arabic Stemming without a root dictionary » est basée sur l’élimination de plusieurs ensembles de diacritiques et d'affixes et sur l'application de plusieurs modèles qui ont déjà définit [Taghva, 2005]. Nous avons choisis cette méthode pour déterminer si un mot est u ne racine ou pour valider les mots par rapport à une racine parce qu’elle n’utilise aucun dictionnaire pour extraire la racine arabe.
+
La méthode « Arabic Stemming without a root dictionary » est basée sur l’élimination de plusieurs ensembles de diacritiques et d'affixes et sur l'application de plusieurs modèles qui ont déjà définit [{{CIDE lien citation|Taghva, 2005}}]. Nous avons choisis cette méthode pour déterminer si un mot est u ne racine ou pour valider les mots par rapport à une racine parce qu’elle n’utilise aucun dictionnaire pour extraire la racine arabe.
  
 
[[Fichier:Figure 3 Le classifieur.png|600px|thumb|Figure 3 : Le classifieur.]]
 
[[Fichier:Figure 3 Le classifieur.png|600px|thumb|Figure 3 : Le classifieur.]]
Ligne 246 : Ligne 246 :
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
id=Al Ameed, 2005
+
|id=Al Ameed, 2005
 
|id édité=[[A pour auteur cité::Hayder Al Ameed|Al Ameed, H.]], [[A pour auteur cité::Shaikha O. Al Ketbi|Al Ketbi, S.]], [[A pour auteur cité::Amna A. Al Kaabi|Al Kaabi, A.]], [[A pour auteur cité::Khadija S. Al Shebli|Al Shebli, K. S.]], [[A pour auteur cité::Naila F. Al Shamsi| Shamsi, N.]], [[A pour auteur cité::Noura H. Al Nuaimi|Nuaimi, N.]], [[A pour auteur cité::Shaikha S. Al Muhairi|Muhairi, S.]] (2005)
 
|id édité=[[A pour auteur cité::Hayder Al Ameed|Al Ameed, H.]], [[A pour auteur cité::Shaikha O. Al Ketbi|Al Ketbi, S.]], [[A pour auteur cité::Amna A. Al Kaabi|Al Kaabi, A.]], [[A pour auteur cité::Khadija S. Al Shebli|Al Shebli, K. S.]], [[A pour auteur cité::Naila F. Al Shamsi| Shamsi, N.]], [[A pour auteur cité::Noura H. Al Nuaimi|Nuaimi, N.]], [[A pour auteur cité::Shaikha S. Al Muhairi|Muhairi, S.]] (2005)
 
|texte= Hayder Al Ameed, Shaikha O. Al Ketbi, Amna A. Al Kaabi, Khadija S. Al Shebli, Naila F. Al Shamsi, Noura H. Al Nuaimi, Shaikha S. Al Muhairi, Arabic Light Stemmer: A new Enhanced Approach, The Second International Conference on Innovations in Information Technology (IIT’05), 2005.
 
|texte= Hayder Al Ameed, Shaikha O. Al Ketbi, Amna A. Al Kaabi, Khadija S. Al Shebli, Naila F. Al Shamsi, Noura H. Al Nuaimi, Shaikha S. Al Muhairi, Arabic Light Stemmer: A new Enhanced Approach, The Second International Conference on Innovations in Information Technology (IIT’05), 2005.
Ligne 334 : Ligne 334 :
 
|id édité=[[A pour auteur cité::Abd El Salam al Hajjar|A. Al Hajjar]], [[A pour auteur cité::Mohammad Hajjar|M. Hajjar]], [[A pour auteur cité::Khaldoun Zreik|K. Zreik]] (2009)
 
|id édité=[[A pour auteur cité::Abd El Salam al Hajjar|A. Al Hajjar]], [[A pour auteur cité::Mohammad Hajjar|M. Hajjar]], [[A pour auteur cité::Khaldoun Zreik|K. Zreik]] (2009)
 
|texte= A. Al Hajjar, M. Hajjar, K. Zreik, Un nouveau système d'évaluation des méthodes d'extraction de la racine des mots arabes, (soumis), 2009.
 
|texte= A. Al Hajjar, M. Hajjar, K. Zreik, Un nouveau système d'évaluation des méthodes d'extraction de la racine des mots arabes, (soumis), 2009.
}}
 
{{CIDE biblio
 
|id=Manzour, 2009
 
|texte= Ibn Manzour, Lisan Al-Arab. www.muhaddith.org, 2009.
 
}}
 
{{CIDE biblio
 
|id=Al-Arab, 2009
 
|texte= Sakher, Lexicons: Lisan Al-Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit, Al Ghani, Taj Al Arous, Najaat Al Raed, http://lexicons.sakhr.com, 2009.
 
}}
 
{{CIDE biblio
 
|id=Al Hajjar, 2009
 
|texte= Al Hajjar, Academy of the Arabic Language, http://lexicons.sakhr.com/intro/intro.aspx?fileurl=intro01.asp, 2009.
 
 
}}
 
{{CIDE biblio
 
|id=Al Misbah, 2009
 
|texte= Islamic Library, Arabic Dictionaries: Al Misbah, Al Mounir, Al Qamous Al Mouhit, Moujam Makayys Al Lougha, Moukhtar Al Sihah, http://www.islamweb.net/newlibrary/bookslist.php?subject= اﻟﻠﻐﺔ آﺘﺐ اﻟﻌﺮﺑﻴﺔ, 2009.
 
 
}}
 
}}
  

Version actuelle datée du 9 décembre 2016 à 15:56

Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA


 
 

 
titre
Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA
auteurs
Abd El Salam al Hajjar (1,2), Mohammad Hajjar (2) et Khaldoun Zreik (2)
Affiliations
(1) : Institut Universitaire de Technologie, Université Libanaise, Liban
(2) : Laboratoire Paragraphe, Université de Paris 8 - Vincennes - Saint-Denis, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Al Hajjar.pdf
Mots-clés 
Langue arabe, Corpus, Dictionnaire, Extraction d’information, Racine.
Keywords
Arabic Language, Corpus, Dictionary, Information Extraction, Root.


Résumé
Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.
… davantage au sujet de « CIDE (2009) Al Hajjar »