CIDE (2009) Al Hajjar : Différence entre versions

De CIDE
imported>Jacques Ducloy
imported>Claire Zuliani
(Références bibliographique)
 
(49 révisions intermédiaires par 2 utilisateurs non affichées)
Ligne 20 : Ligne 20 :
 
<div style="text-align:justify;">
 
<div style="text-align:justify;">
  
;Résumé:Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.
+
;Résumé:Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.
 
{{boîte déroulante
 
{{boîte déroulante
  |titre=English description
+
|titre=English description
  |contenu=
+
|contenu=
 
<div style="text-align:justify;">
 
<div style="text-align:justify;">
;Abstract :In this article, we propose a new structured and progressive electronic dictionary for the Arab language (DESELA) which can be presented in the form of a relational database or in the form of an XML document which can be easily exploitable using suitable query languages. Indeed, many Arab dictionaries are found but are not directly exploitable since they are in flat textual files form. DESELA contains the roots, the prefixes, the suffixes, the infixes, the patterns and the derived words. Moreover, for a given word, it provides links to its root, to their associated affixes, and to its possible pattern. DESELA is supplied automatically from one or several traditional textual dictionaries and is enriched permanently with any Arab textual corpus using system that we built. This system is composed of a parser, a classifier, a comparator and an analyzer. The parser allows transforming a textual source (dictionary or textual corpus) into a set of words. The classifier allows to classify a given word and to add it to DESELA as a root or a derived word. The analyzer allows extracting the affixes and the model from a derived word and of its root. The comparator permits to avoid duplication of roots, affixes or patterns in DESELA. This dictionary can be used to evaluate the information extraction methods from an Arab document, given that; the vocabulary of the Arab language is essentially built from the roots. In general, an Arab word is built from its root while adding to it the affixes (prefix, infix, or suffix) according to a precise pattern. Most methods of information extraction starting from an Arab document proceed conversely by extracting the root from the mot.
+
;Abstract :In this article, we propose a new structured and progressive electronic dictionary for the Arab language (DESELA) which can be presented in the form of a relational database or in the form of an XML document which can be easily exploitable using suitable query languages. Indeed, many Arab dictionaries are found but are not directly exploitable since they are in flat textual files form. DESELA contains the roots, the prefixes, the suffixes, the infixes, the patterns and the derived words. Moreover, for a given word, it provides links to its root, to their associated affixes, and to its possible pattern. DESELA is supplied automatically from one or several traditional textual dictionaries and is enriched permanently with any Arab textual corpus using system that we built. This system is composed of a parser, a classifier, a comparator and an analyzer. The parser allows transforming a textual source (dictionary or textual corpus) into a set of words. The classifier allows to classify a given word and to add it to DESELA as a root or a derived word. The analyzer allows extracting the affixes and the model from a derived word and of its root. The comparator permits to avoid duplication of roots, affixes or patterns in DESELA. This dictionary can be used to evaluate the information extraction methods from an Arab document, given that; the vocabulary of the Arab language is essentially built from the roots. In general, an Arab word is built from its root while adding to it the affixes (prefix, infix, or suffix) according to a precise pattern. Most methods of information extraction starting from an Arab document proceed conversely by extracting the root from the mot.
  
 
}}
 
}}
Ligne 31 : Ligne 31 :
 
{{CIDE début corps}}
 
{{CIDE début corps}}
  
==Introduction==
+
=='''Introduction'''==
Les performances des systèmes d’extraction d’information en langue arabe restent très problématiques et ceci pour plusieurs raisons [{{CIDE lien citation|1}}], [{{CIDE lien citation|3}}], [{{CIDE lien citation|6}}]. L’une des raisons principales est due au fait que le vocabulaire de la langue arabe est essentiellement construit à partir des racines. En effet, la langue arabe possède cinq à sept milles racines distincts. Un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis [{{CIDE lien citation|2}}], [{{CIDE lien citation|3}}], [{{CIDE lien citation|8}}]. Ces modèles sont au nombre de cent vingt, environ. Les méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot. Dans ce domaine, plusieurs méthodes ont été proposées [{{CIDE lien citation|1}}], [{{CIDE lien citation|4}}], [{{CIDE lien citation|6}}], [{{CIDE lien citation|8}}] , [{{CIDE lien citation|11}}], [{{CIDE lien citation|14}}], [{{CIDE lien citation|15}}], [{{CIDE lien citation|17}}], [{{CIDE lien citation|21}}] , [{{CIDE lien citation|23}}], [{{CIDE lien citation|24}}]. Ces méthodes
+
Les performances des systèmes d’extraction d’information en langue arabe restent très problématiques et ceci pour plusieurs raisons [{{CIDE lien citation|Adamson, 1974}}], [{{CIDE lien citation|Chen, 2002}}], [{{CIDE lien citation|Sueiman Mustafa, 2004}}]. L’une des raisons principales est due au fait que le vocabulaire de la langue arabe est essentiellement construit à partir des racines. En effet, la langue arabe possède cinq à sept milles racines distincts. Un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis [{{CIDE lien citation|Al Kharashi, 1999}}], [{{CIDE lien citation|Chen, 2002}}], [{{CIDE lien citation|Taghva, 2005}}]. Ces modèles sont au nombre de cent vingt, environ. Les méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot. Dans ce domaine, plusieurs méthodes ont été proposées [{{CIDE lien citation|Adamson, 1974}}], [{{CIDE lien citation|Darwish, 2002}}], [{{CIDE lien citation|Sueiman Mustafa, 2004}}], [{{CIDE lien citation|Taghva, 2005}}] , [{{CIDE lien citation|Douzidia, 2005}}], [{{CIDE lien citation|Ahmed, 2007}}], [{{CIDE lien citation|El-Halees, 2007}}], [{{CIDE lien citation|Ben Abderrahmen, 2007}}], [{{CIDE lien citation|Sinane, 2008}}] , [{{CIDE lien citation|Francopoulo, 2008}}], [{{CIDE lien citation|Al Hajjar, 2009}}]. Ces méthodes sont soient basées sur les caractéristiques morphologiques de la langue arabe soient sur des calculs statistiques. Pour évaluer ces méthodes, nous avons développé un système d’évaluation et nous avons construit un corpus limité à vingt racines et à deux milles mots. Pour valider ces résultats, il faut bien sur un corpus plus important, un dictionnaire par exemple.
sont soient basées sur les caractéristiques morphologiques de la langue arabe soient sur des calculs statistiques. Pour évaluer ces méthodes, nous avons développé un système d’évaluation et nous avons construit un corpus limité à vingt racines et à deux milles mots. Pour valider ces résultats, il faut bien sur un corpus plus important, un dictionnaire par exemple.
 
  
En effet, on trouve beaucoup de dictionnaires arabes comme Lisan Al- Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit, Al Ghani et d’autres [{{CIDE lien citation|26}}], [{{CIDE lien citation|27}}], [{{CIDE lien citation|28}}], [{{CIDE lien citation|29}}]. Bien que ces dictionnaires indiquent la racine, la définition, l'orthographe, les sens et les modes d’utilisation d’un mot donné, ils ne sont pas directement exploitables informatiquement puisqu’ils sont aux formats textuels non structurés (fichiers texte plats). Donc, l’absence d’un tel dictionnaire nous a poussé à construire un dictionnaire électronique structuré et informatiquement exploitable pour l’utiliser dans l’évaluation des méthodes d’extraction d’information à partir des documents arabes.
+
En effet, on trouve beaucoup de dictionnaires arabes comme Lisan Al- Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit, Al Ghani et d’autres <ref>Ibn Manzour, [http://www.muhaddith.org Lisan Al-Arab], 2009</ref>, <ref>Sakher, Lexicons: Lisan Al-Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit, Al Ghani, Taj Al Arous, Najaat Al Raed,[http://lexicons.sakhr.com], 2009</ref>, <ref>Academy of the Arabic Language, [http://lexicons.sakhr.com/intro/intro.aspx?fileurl=intro01.asp], 2009</ref>, <ref>Islamic Library, Arabic Dictionaries : Al Misbah Al Mounir, Al Qamous Al Mouhit, Moujam Makayys Al Lougha, Moukhtar Al Sihah, http://www.islamweb.net/newlibrary/bookslist.php?subject= آتب اللغة
 
+
2009 ,العربية</ref>. Bien que ces dictionnaires indiquent la racine, la définition, l'orthographe, les sens et les modes d’utilisation d’un mot donné, ils ne sont pas directement exploitables informatiquement puisqu’ils sont aux formats textuels non structurés (fichiers texte plats). Donc, l’absence d’un tel dictionnaire nous a poussé à construire un dictionnaire électronique structuré et informatiquement exploitable pour l’utiliser dans l’évaluation des méthodes d’extraction d’information à partir des documents arabes.
Dans cet article, nous proposons un dictionnaire électronique structuré et évolutif de la langue arabe (DESELA). Ce nouveau dictionnaire peut être présenté sous la forme d’une base de données relationnelle [{{CIDE lien citation|18}}], [{{CIDE lien citation|19}}] ou d’un document XML [{{CIDE lien citation|22}}] facilement exploitable à l’aide des langages de requêtes appropriés. Ce nouveau dictionnaire contient les racines, les préfixes, les suffixes, les infixes et les modèles, en plus des informations fournies par un dictionnaire classique. De plus, il fournit les liens d’un mot donné avec sa racine, avec les affixes associés et avec son modèle éventuel. Pour atteindre cet objectif, nous avons construit un système automatique qui permet d’alimenter DESELA à partir d’un ou de plusieurs dictionnaires textuels classiques. Ce système permet aussi d’enrichir DESELA, en permanence, à partir d’un corpus textuel arabe quelconque d’où l’évolutivité de notre dictionnaire.
 
  
 +
Dans cet article, nous proposons un dictionnaire électronique structuré et évolutif de la langue arabe (DESELA). Ce nouveau dictionnaire peut être présenté sous la forme d’une base de données relationnelle [{{CIDE lien citation|Norbert, 2008}}], [{{CIDE lien citation|Comes, 2008}}] ou d’un document XML [{{CIDE lien citation|Baccar, 2008}}] facilement exploitable à l’aide des langages de requêtes appropriés. Ce nouveau dictionnaire contient les racines, les préfixes, les suffixes, les infixes et les modèles, en plus des informations fournies par un dictionnaire classique. De plus, il fournit les liens d’un mot donné avec sa racine, avec les affixes associés et avec son modèle éventuel. Pour atteindre cet objectif, nous avons construit un système automatique qui permet d’alimenter DESELA à partir d’un ou de plusieurs dictionnaires textuels classiques. Ce système permet aussi d’enrichir DESELA, en permanence, à partir d’un corpus textuel arabe quelconque d’où l’évolutivité de notre dictionnaire.
  
 
==Architecture==
 
==Architecture==
Ligne 44 : Ligne 43 :
 
*Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots.
 
*Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots.
 
*Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine.
 
*Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine.
*Le comparateur permet d’éviter d’avoir des doublons dans DESELA, à tous les niveaux. Une remarque d’ordre générale pour cette partie est que les transcriptions de tous les mots arabes utilisés (racine, affixes, modèles, mots) dans ce document sont données dans la table 1.
+
*Le comparateur permet d’éviter d’avoir des doublons dans DESELA, à tous les niveaux. Une remarque d’ordre générale pour cette partie est que les transcriptions de tous les mots arabes utilisés (racine, affixes, modèles, mots) dans ce document sont données dans la table 1.
 
 
 
 
[[Fichier:CIDE (2009) al Hajjar fig 1.png|center|400px|thumb|Figure 1 : Architecture générale du système d’alimentation et d’enrichissement automatiquement de DESELA.]]
 
  
 +
[[Fichier:Figure 1 Architecture générale du système d’alimentation et d’enrichissement automatiquement de DESELA..png|600px|thumb|Figure 1 : Architecture générale du système d’alimentation et d’enrichissement automatiquement de DESELA]]
  
 
===Le parseur===
 
===Le parseur===
Ligne 54 : Ligne 51 :
  
  
[[Fichier:CIDE (2009) al Hajjar fig 2.png|center|400px|thumb|Figure 2 : Le parseur]]
+
[[Fichier:Figure 2 Le parseur.png|600px|thumb|Figure 2 : Le parseur.]].
.
 
  
 
===Le classifieur===
 
===Le classifieur===
Ligne 61 : Ligne 57 :
  
 
La question primordiale à résoudre dans ce composant est : comment déterminer si un mot est une racine ? Pour répondre à cette question, plusieurs cas se présentent (Figure 3).
 
La question primordiale à résoudre dans ce composant est : comment déterminer si un mot est une racine ? Pour répondre à cette question, plusieurs cas se présentent (Figure 3).
Dans le cas d’un dictionnaire, les racines sont, en générale, encadrées par des séparateurs spéciaux et les mots, qui sont situés après cette racine et avant la racine suivante, dérivent de la première. Le faite de valider un mot avec sa racine est dû au faite que certains mots qui se trouvent après une racine peuvent ne pas dériver d’elle. Ce type des mots est à ne pas considérer dans DESELA. Pour déterminer ce type des mots, nous utilisons l’une des méthodes d’extraction de la racine d’un mot arabe [24]. Par exemple, dans le cas du dictionnaire Lissan Al Arabe [{{CIDE lien citation|26}}], [{{CIDE lien citation|27}}]. Chaque racine est précédée par le symbole « @ » et suivit par le symbole
+
Dans le cas d’un dictionnaire, les racines sont, en générale, encadrées par des séparateurs spéciaux et les mots, qui sont situés après cette racine et avant la racine suivante, dérivent de la première. Le faite de valider un mot avec sa racine est dû au faite que certains mots qui se trouvent après une racine peuvent ne pas dériver d’elle. Ce type des mots est à ne pas considérer dans DESELA. Pour déterminer ce type des mots, nous utilisons l’une des méthodes d’extraction de la racine d’un mot arabe [24]. Par exemple, dans le cas du dictionnaire Lissan Al Arabe [{{CIDE lien citation|Manzour, 2009}}], [{{CIDE lien citation|Al-Arab, 2009}}]. Chaque racine est précédée par le symbole « @ » et suivit par le symbole « : » (Figure 4), la plupart des mots qui sont situés après une racine et avant la racine suivante dérivent de la première. Considérons l’exemple de la racine أآﻞ donné dans la figure 4. Dans cet exemple, tous les mots qui sont situés entre les deux racines أآﻞ et ﻏﺮب sont validés par une méthode d’extraction de la racine arabe, en l’occurrence « Arabic Stemming without a root dictionary » [{{CIDE lien citation|Taghva, 2005}}]. Par contre le mot ﺗﻘﻮل, qui situe entre les deux racines أآﻞ et ﻏﺮب ne dérive pas de la première racine أآﻞ.
 
 
« : » (Figure 4), la plupart des mots qui sont situés après une racine et avant la racine suivante dérivent de la première. Considérons l’exemple de la racine أآﻞ   donné dans la figure 4. Dans cet exemple, tous les   mots
 
qui sont situés entre les deux     racines
 
أآﻞ
 
et ﻏﺮب sont validés par une
 
méthode d’extraction de la racine arabe, en l’occurrence « Arabic Stemming without a root dictionary » [8]. Par contre le mot ﺗﻘﻮل, qui situe entre les deux racines أآﻞ et ﻏﺮب ne dérive pas de la première racine   أآﻞ.
 
  
 
Dans ce cas, le mot ﺗﻘﻮل, qui n’est pas validé par rapport à la racine est à ne pas considérer dans DESELA.
 
Dans ce cas, le mot ﺗﻘﻮل, qui n’est pas validé par rapport à la racine est à ne pas considérer dans DESELA.
 
,أآﻞ
 
,أآﻞ
La méthode « Arabic Stemming without a root dictionary » est basée sur l’élimination de plusieurs ensembles de diacritiques et d'affixes et sur l'application de plusieurs modèles qui ont déjà définit [8]. Nous avons choisis cette méthode pour déterminer si un mot est u ne racine ou pour valider les mots par rapport à une racine parce qu’elle n’utilise aucun dictionnaire pour extraire la racine arabe.
+
La méthode « Arabic Stemming without a root dictionary » est basée sur l’élimination de plusieurs ensembles de diacritiques et d'affixes et sur l'application de plusieurs modèles qui ont déjà définit [{{CIDE lien citation|Taghva, 2005}}]. Nous avons choisis cette méthode pour déterminer si un mot est u ne racine ou pour valider les mots par rapport à une racine parce qu’elle n’utilise aucun dictionnaire pour extraire la racine arabe.
 
 
[[Fichier:CIDE (2009) al Hajjar fig 3.png|center|400px|thumb|Figure 3 : Le classifieur.]]
 
 
 
Par contre, dans le cas d’un corpus quelconque, nous utilisons l’une des méthodes d’extraction de la racine d’un mot arabe [24] pour décider si un mot est une racine ou  pour déterminer la racine de laquelle elle dérive.
 
 
 
----------------
 
----------------
 
----------------
 
----------------
 
----------------
 
----------------
 
----------------
 
----------------
 
----------------
 
----------------
 
----------------
 
  
[Fichier:CIDE (2009) al Hajjar fig 4.png|center|400px|thumb|Figure 4 : Cas du dictionnaire Lisan Al Arabe]]
+
[[Fichier:Figure 3 Le classifieur.png|600px|thumb|Figure 3 : Le classifieur.]]
  
 +
Par contre, dans le cas d’un corpus quelconque, nous utilisons l’une des méthodes d’extraction de la racine d’un mot arabe [Al Hajjar, 2009] pour décider si un mot est une racine ou pour déterminer la racine de laquelle elle dérive.
  
 +
[[Fichier:Figure 4 Cas du dictionnaire Lisan Al Arabe.png|600px|thumb|Figure 4 : Cas du dictionnaire Lisan Al Arabe]]
  
 
===L’analyseur===
 
===L’analyseur===
  
En générale, un mot arabe est dérivé à partir de sa racine en y ajoutant   des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Ce composant prend en entrée un couple {Mot dérivé, Racine} et produit en sortie les préfixes, les suffixes et les infixes éventuels ainsi que le modèle selon lequel le mot est dérivé. Pour ce faire, Nous commençons par repérer les positions des lettres constituant la racine dans le mot dérivé. L’étape suivante consiste à déterminer les lettres appartenant au mot dérivé et ne faisant pas partie de la racine. Ainsi, les lettres qui précédent la première lettre de la racine, si elles existent, dans le mot dérivé constituent les préfixes. De même, les lettres qui suivent la dernière lettre de la racine, si elles existent, dans le mot dérivé constituent les suffixes. En suite, les lettres qui sont situés entre la première lettre et la dernière lettre de la racine, si elles existent, dans le mot dérivé et qui ne font pas parties de la racine constituent les infixes. L’étape suivante consiste à déduire le modèle dans le mot dérivé, le modèle est déduit, selon les positions des lettres constituant la racine dans le mot dérivé. La première étape consiste à supprimer les suffixes, la deuxième consiste à supprimer les préfixes s’ils n’appartiennent pas à l’ensemble {ت ,م ,إ ,س}, la troisième étape consiste à transformer les lettres après les préfixes de l’ensemble {ت ,م ,إ ,س} s’ils y existent de la racine dans l’ordre où la première lettre permute en "ف", la deuxième permute en "ع" et la troisième permute en "ل". Les infixes sont repris tel qu’ils sont.
+
En générale, un mot arabe est dérivé à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Ce composant prend en entrée un couple {Mot dérivé, Racine} et produit en sortie les préfixes, les suffixes et les infixes éventuels ainsi que le modèle selon lequel le mot est dérivé. Pour ce faire, Nous commençons par repérer les positions des lettres constituant la racine dans le mot dérivé. L’étape suivante consiste à déterminer les lettres appartenant au mot dérivé et ne faisant pas partie de la racine. Ainsi, les lettres qui précédent la première lettre de la racine, si elles existent, dans le mot dérivé constituent les préfixes. De même, les lettres qui suivent la dernière lettre de la racine, si elles existent, dans le mot dérivé constituent les suffixes. En suite, les lettres qui sont situés entre la première lettre et la dernière lettre de la racine, si elles existent, dans le mot dérivé et qui ne font pas parties de la racine constituent les infixes. L’étape suivante consiste à déduire le modèle dans le mot dérivé, le modèle est déduit, selon les positions des lettres constituant la racine dans le mot dérivé. La première étape consiste à supprimer les suffixes, la deuxième consiste à supprimer les préfixes s’ils n’appartiennent pas à l’ensemble {ت ,م ,إ ,س}, la troisième étape consiste à transformer les lettres après les préfixes de l’ensemble {ت ,م ,إ ,س} s’ils y existent de la racine dans l’ordre où la première lettre permute en "ف", la deuxième permute en "ع" et la troisième permute en "ل". Les infixes sont repris tel qu’ils sont.
 
 
 
 
[Fichier:CIDE (2009) al Hajjar fig 5.png|center|400px|thumb|Figure 5 : L’analyseur]]
 
 
 
  
Considérons l’exemple du couple {Mot dérivé =  اﻟﻤﺄآﻮﻻت, Racine = أآﻞ},  la phase du repérage des lettres de la racine (en rouge) dans le mot  dérivé
+
[[Fichier:Figure 5 L’analyseur.png|600px|thumb|Figure 5 : L'analyseur.]]
  
donne ت ا ل و ك أ م ل ا. En suite, les lettres qui précédent la première   lettre
+
Considérons l’exemple du couple {Mot dérivé = اﻟﻤﺄآﻮﻻت, Racine = أآﻞ}, la phase du repérage des lettres de la racine (en rouge) dans le mot dérivé donne ت ا ل و ك أ م ل ا. En suite, les lettres qui précédent la première lettre de la racine اﻟﻢ constituent les préfixes (en vert). Les lettres qui suivent la dernière lettre de la racine ات constituent les suffixes (en jaune). Les lettres qui sont situés entre la première lettre et la dernière lettre de la racine et qui n’en font pas parties و constituent les infixes (en bleu). Le modèle est déduit comme لوﻣﻔﻊ, en partant des lettres du mot ا ل و ك أ م ل ات, nous supprimons le suffixe ت ا et le préfixe ل ا, car م appartient à { ,ست ,م,إ} nous obtiendrons le mot ل و ك أ م, ensuite nous permutons respectivement ل ك أ en ل ع ف. L’infixe و est repris tel qu’il est pour obtenir le modèle لوﻣﻔﻊ.
de la racine اﻟﻢ constituent les préfixes (en vert). Les lettres qui suivent la dernière lettre de la racine ات constituent les suffixes (en jaune). Les lettres qui sont situés entre la première lettre et la dernière lettre de la racine et qui n’en font pas parties و constituent les infixes (en bleu). Le
 
modèle est déduit comme لوﻣﻔﻊ, en partant des lettres du mot ا ل و ك أ م ل ا
 
ت, nous supprimons le suffixe ت ا et le préfixe ل ا, car م appartient à { ,س
 
ت 
 
,إ}nous obtiendrons le   mot
 
ل و ك
 
أ م, ensuite nous   permutons
 
respectivement ل ك أ
 
en ل ع ف. L’infixe
 
و est repris tel qu’il est pour
 
obtenir le modèle لوﻣﻔﻊ.
 
  
 
=== Les comparateurs===
 
=== Les comparateurs===
  
[Fichier:CIDE (2009) al Hajjar fig 6.png|center|400px|thumb|Figure 6 : Le comparateur]]
+
[[Fichier:Figure 6 Le comparateur.png|600px|thumb|Figure 6 : Le comparateur.]]
 
 
 
 
 
 
Le comparateur permet d’éviter d’avoir des doublons dans DESELA aux niveaux des mots, des racines, des préfixes, des infixes, des suffixes et  des modèles. Ce composant est sollicité seulement en phase d’enrichissement. Cette phase d’enrichissement présente le problème suivant : comment enrichir vraiment notre dictionnaire et non pas ajouter des doublons à tous les niveaux. Donc, le rôle du comparateur est de filtrer les mots avant de les ajouter au DESELA. Ce comparateur possède deux modes de fonctionnement. Le premier quand il reçoit en entrée un ensemble de mots fournit par le parseur. Dans ce cas, pour chaque mot il va vérifier s’il existe dans DESELA, s’il n’y est pas il le passe au classifieur pour le traiter. Le second mode de fonctionnement du comparateur est quand il reçoit en entrée un couple {Mot dérivé, Racine} fournit par le classifieur. Ce couple n’est ajouté au DESELA avec le lien entre la racine et le mot dérivé que s’il n’y était pas. Si seule la racine y était, ce couple est passé à l’analyseur pour extraire les affixes et le modèle et si ceux-là n’existent pas dans DESELA, ce mot est ajouté au DESELA avec le lien avec la racine, ils y sont ajoutés.
 
 
 
  
 +
Le comparateur permet d’éviter d’avoir des doublons dans DESELA aux niveaux des mots, des racines, des préfixes, des infixes, des suffixes et des modèles. Ce composant est sollicité seulement en phase d’enrichissement. Cette phase d’enrichissement présente le problème suivant : comment enrichir vraiment notre dictionnaire et non pas ajouter des doublons à tous les niveaux. Donc, le rôle du comparateur est de filtrer les mots avant de les ajouter au DESELA. Ce comparateur possède deux modes de fonctionnement. Le premier quand il reçoit en entrée un ensemble de mots fournit par le parseur. Dans ce cas, pour chaque mot il va vérifier s’il existe dans DESELA, s’il n’y est pas il le passe au classifieur pour le traiter. Le second mode de fonctionnement du comparateur est quand il reçoit en entrée un couple {Mot dérivé, Racine} fournit par le classifieur. Ce couple n’est ajouté au DESELA avec le lien entre la racine et le mot dérivé que s’il n’y était pas. Si seule la racine y était, ce couple est passé à l’analyseur pour extraire les affixes et le modèle et si ceux-là n’existent pas dans DESELA, ce mot est ajouté au DESELA avec le lien avec la racine, ils y sont ajoutés.
  
 
Mot/Lettre
 
Mot/Lettre
Ligne 210 : Ligne 167 :
 
ﺗﻘﻮل
 
ﺗﻘﻮل
 
takole
 
takole
 
 
 
أآﻠﺖ
 
أآﻠﺖ
 
Akalte
 
Akalte
Ligne 226 : Ligne 181 :
 
ﻏﺮب
 
ﻏﺮب
 
Garaba
 
Garaba
Table 1 : Les transcriptions des lettres et des mots arabes utilisés dans ce document.
+
[[Fichier:Table 1 Les transcriptions des lettres et des mots arabes utilisés dans ce document..jpg|600px|thumb|Table 1 : Les transcriptions des lettres et des mots arabes utilisés dans ce document]]
 
 
  
 
==Résultat==
 
==Résultat==
Ligne 233 : Ligne 187 :
  
 
Un deuxième résultat est le système qui permet d’alimenter DESELA automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et de l’enrichir en permanence avec des corpus textuels arabe quelconques. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots bruts. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA.
 
Un deuxième résultat est le système qui permet d’alimenter DESELA automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et de l’enrichir en permanence avec des corpus textuels arabe quelconques. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots bruts. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA.
 
  
 
==Conclusion==
 
==Conclusion==
Dans cet article, nous avons présenté DESELA le nouveau dictionnaire électronique structuré et évolutif de la langue arabe. Ce nouveau dictionnaire peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML facilement exploitable à l’aide des langages de requêtes appropriés. Ce nouveau dictionnaire contient les racines, les préfixes, les suffixes, les infixes et les modèles, en plus des informations fournies par un dictionnaire classique. De plus, il fournit les liens d’un mot donné avec sa racine, avec les affixes associés et avec son
+
Dans cet article, nous avons présenté DESELA le nouveau dictionnaire électronique structuré et évolutif de la langue arabe. Ce nouveau dictionnaire peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML facilement exploitable à l’aide des langages de requêtes appropriés. Ce nouveau dictionnaire contient les racines, les préfixes, les suffixes, les infixes et les modèles, en plus des informations fournies par un dictionnaire classique. De plus, il fournit les liens d’un mot donné avec sa racine, avec les affixes associés et avec son
  
 
modèle éventuel [{{CIDE lien citation|2}}], [{{CIDE lien citation|3}}], [{{CIDE lien citation|6}}]. Nous avons présenté aussi le système automatique qui permet d’alimenter et d’enrichir DESELA à partir d’un ou de plusieurs dictionnaires textuels classiques et des corpus textuels arabe quelconque.
 
modèle éventuel [{{CIDE lien citation|2}}], [{{CIDE lien citation|3}}], [{{CIDE lien citation|6}}]. Nous avons présenté aussi le système automatique qui permet d’alimenter et d’enrichir DESELA à partir d’un ou de plusieurs dictionnaires textuels classiques et des corpus textuels arabe quelconque.
  
 
Notre dictionnaire électronique évolutif et structuré comble un besoin au niveau du patrimoine électronique arabe. Ce dictionnaire peut être utilisé pour évaluer les méthodes d’extraction d’information à partir d’un document arabe cette évaluation contribue sans doute à améliorer les méthodes existantes d’extraction d’information à partir des documents arabes. L’originalité de notre dictionnaire réside dans le fait qu’il s’agit d’un dictionnaire évolutif qui contribue aussi à l’évolution de la langue arabe.
 
Notre dictionnaire électronique évolutif et structuré comble un besoin au niveau du patrimoine électronique arabe. Ce dictionnaire peut être utilisé pour évaluer les méthodes d’extraction d’information à partir d’un document arabe cette évaluation contribue sans doute à améliorer les méthodes existantes d’extraction d’information à partir des documents arabes. L’originalité de notre dictionnaire réside dans le fait qu’il s’agit d’un dictionnaire évolutif qui contribue aussi à l’évolution de la langue arabe.
 
  
 
==Perspective==
 
==Perspective==
La prochaine étape est de doter DESELA d’une dimension sémantique en ajoutant des relations sémantiques entre les mots. Pour établir les relations sémantiques entre les mots il faut que nous exploitions les caractéristiques des dictionnaires classiques. En général, un dictionnaire classique fournit les mots avec leurs synonymes. Ces synonymes peuvent être des mots ou des racines. Donc, nous utiliserons le classifieur et l’analyseur pour établir les relations sémantiques aux niveaux des mots et des racines. Ainsi, pour déterminer les relations sémantiques entre deux mots on pourra passer par leurs racines.
+
La prochaine étape est de doter DESELA d’une dimension sémantique en ajoutant des relations sémantiques entre les mots. Pour établir les relations sémantiques entre les mots il faut que nous exploitions les caractéristiques des dictionnaires classiques. En général, un dictionnaire classique fournit les mots avec leurs synonymes. Ces synonymes peuvent être des mots ou des racines. Donc, nous utiliserons le classifieur et l’analyseur pour établir les relations sémantiques aux niveaux des mots et des racines. Ainsi, pour déterminer les relations sémantiques entre deux mots on pourra passer par leurs racines.
  
  
'''Remerciements''' : Ce travail est effectué dans le cadre des projets “Arabic Web Intelligence” financé par le Centre National de Recherche Scientifique Libanais (CNRSL) et « Recherche d’information Multimedia Multilingue Arabe » financé par le comité Franco-Libanaise (CEDRE).
+
'''Remerciements''' : Ce travail est effectué dans le cadre des projets “Arabic Web Intelligence” financé par le Centre National de Recherche Scientifique Libanais (CNRSL) et « Recherche d’information Multimedia Multilingue Arabe » financé par le comité Franco-Libanaise (CEDRE).
  
  
Ligne 253 : Ligne 205 :
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=1
+
|id=Adamson, 1974
  |texte= W. Adamson George, J. Boreham, The use of an association measure based on character structure to identify semantically related pairs of words and document titles, Information Storage and Retrieval, Vol. 10, pp 253-260, 1974.
+
|id édité=[[A pour auteur cité::George W. Adamson|W. Adamson, G.]], [[A pour auteur cité::J. Boreham|J. Boreham]] (1974)
 +
|texte= George W. Adamson, J. Boreham, The use of an association measure based on character structure to identify semantically related pairs of words and document titles, Information Storage and Retrieval, Vol. 10, pp 253-260, 1974.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=2
+
|id=Al Kharashi, 1999
  |texte= I. Al Kharashi, A Web Search Engine for Indexing, Searching and Publishing Arabic Bibliographic Databases, 1999.
+
|id édité=[[A pour auteur cité::I. Al Karashi|Al Karashi, I.]] (1999)
 +
|texte= I. Al Kharashi, A Web Search Engine for Indexing, Searching and Publishing Arabic Bibliographic Databases, 1999.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=3
+
|id=Chen, 2002
  |texte= A. Chen, F. Gey, Building an Arabic stemmer for information retrieval.TREC-11 conference 2002.
+
|id édité=[[A pour auteur cité::Aitao Chen|Chen, A.]], [[A pour auteur cité::Fredric Gey|Gey, F.]] (2002)
 +
|texte= A. Chen, F. Gey, Building an Arabic stemmer for information retrieval.TREC-11 conference 2002.
  
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=4
+
|id=Darwish, 2002
  |texte= K. Darwish, Building a Shallow Arabic Morphological Analyzer in One Day. The ACL-02 Workshop on Computational Approaches to Semitic Languages, Philadelphia, USA, 2002.
+
|id édité=[[A pour auteur cité::Kareem Darwish|Darwish, K.]] (2002)
 +
|texte= K. Darwish, Building a Shallow Arabic Morphological Analyzer in One Day. The ACL-02 Workshop on Computational Approaches to Semitic Languages, Philadelphia, USA, 2002.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=5
+
|id=Larkey, 2002
  |texte= L. S. Larkey, L. Ballesteros, M. E. Connel, Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis, Proc. of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 275 – 282, 2002.
+
|id édité=[[A pour auteur cité::Leah S. Larkey|Larkey, L.]], [[A pour auteur cité::Lisa Ballesteros|Ballesteros, L.]], [[A pour auteur cité::M.E Connel|M.E Connel]] (2002)
 +
|texte= Leah S. Larkey, Lisa Ballesteros, M. E. Connel, Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis, Proc. of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 275 – 282, 2002.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=6
+
|id=Suleiman Mustafa, 2004
  |texte= H. Suleiman Mustafa, Character contiguity in N-gram based word matching: the case for Arabic text searching . Information Processing and Management.41 (4), 819-827, 2004.
+
|id édité=[[A pour auteur cité::Suleiman H. Mustafa|Mustafa, S.]] (2004)
 +
|texte= H. Suleiman Mustafa, Character contiguity in N-gram based word matching: the case for Arabic text searching . Information Processing and Management.41 (4), 819-827, 2004.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=7
+
|id=Kanaan, 2004
  |texte= G. Kanaan, R. Al-Shalabi, J. Jaarn, M. Al-Kabi, A. Hasnah, A New Stemming Algorithm to Extract Quadri-Literal Arabic Roots, 2004.
+
|id édité=[[A pour auteur cité::Ghassan G. Kanaan|Kanaan, G.]], [[A pour auteur cité::Riyad Al-Shalabi|Al-Shalabi, R.]], [[A pour auteur cité::J. Jaarn|Jaarn, J.]], [[A pour auteur cité::A. Hasnah|Hasnah, A.]] (2004)
 +
|texte= Ghassan G. Kanaan, Riyad Al-Shalabi, J. Jaarn, M. Al-Kabi, A. Hasnah, A New Stemming Algorithm to Extract Quadri-Literal Arabic Roots, 2004.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=8
+
|id=Taghva, 2005
  |texte= K. Taghva, R. Elkoury, J. Coombs, Arabic Stemming without a root dictionary, International Conference on Information Technology: Coding and Computing (ITCC'05) - Volume I   pp. 152-157, 2005.
+
|id édité=[[A pour auteur cité::Kazem Taghva|Taghva, K.]], [[A pour auteur cité::Rania Elkoury|Elkoury, R.]], [[A pour auteur cité::Jeffrey Coombs|Coombs, J.]] (2005)
 +
|texte= Kazem Taghva, Rania Elkoury, Jeffrey Coombs, Arabic Stemming without a root dictionary, International Conference on Information Technology: Coding and Computing (ITCC'05) - Volume I pp. 152-157, 2005.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=9
+
|id=Al Ameed, 2005
  |texte= H. Al Ameed, S. Al Ketbi, A. Al Kaabi, K. Al Shebli, N. Al Shamsi, N. Al Nuaimi, S. Al Muhairi, Arabic Light Stemmer: A new Enhanced Approach , The Second International Conference on Innovations in Information Technology (IIT’05), 2005.
+
|id édité=[[A pour auteur cité::Hayder Al Ameed|Al Ameed, H.]], [[A pour auteur cité::Shaikha O. Al Ketbi|Al Ketbi, S.]], [[A pour auteur cité::Amna A. Al Kaabi|Al Kaabi, A.]], [[A pour auteur cité::Khadija S. Al Shebli|Al Shebli, K. S.]], [[A pour auteur cité::Naila F. Al Shamsi| Shamsi, N.]], [[A pour auteur cité::Noura H. Al Nuaimi|Nuaimi, N.]], [[A pour auteur cité::Shaikha S. Al Muhairi|Muhairi, S.]] (2005)
 +
|texte= Hayder Al Ameed, Shaikha O. Al Ketbi, Amna A. Al Kaabi, Khadija S. Al Shebli, Naila F. Al Shamsi, Noura H. Al Nuaimi, Shaikha S. Al Muhairi, Arabic Light Stemmer: A new Enhanced Approach, The Second International Conference on Innovations in Information Technology (IIT’05), 2005.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=10
+
|id=Larkey, 2005
  |texte= L. Larkey, L. Ballesteros, M. Connell, Light Stemming for Arabic IR, Arabic Computational Morphology: Knowledge-based and Empirical Methods, A. Soudi, A. Van Bosch, and G. Neumann Editors.
+
|id édité=[[A pour auteur cité::Leah S. Larkey|Larkey, L.]],[[A pour auteur cité::Lisa Ballesteros|Ballesteros, L.]],[[A pour auteur cité::M.E Connel|M.E Connel]] (2005)
 +
|texte=Leah S. Larkey, Lisa Ballesteros, M. Connell, Light Stemming for Arabic IR, Arabic Computational Morphology: Knowledge-based and Empirical Methods, A. Soudi, A. Van Bosch, and G. Neumann Editors.
 
Kluwer/Springer's series on Text, Speech, and Language Technology, 2005.
 
Kluwer/Springer's series on Text, Speech, and Language Technology, 2005.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=11
+
|id=Douzidia, 2005
  |texte= F .Douzidia, G. Lapalme, Un système de résumé de textes en arabe, 2ème Congrès International sur l'Ingénierie de l'Arabe et l'Ingénierie de la langue, Alger, 2005.
+
|id édité=[[A pour auteur cité::Fouad S. Douzidia|Douzidia, F.]], [[A pour auteur cité::Guy Lapalme|Lapalme, G.]] (2005)
 +
|texte=Fouad S. Douzidia, Guy Lapalme, Un système de résumé de textes en arabe, 2ème Congrès International sur l'Ingénierie de l'Arabe et l'Ingénierie de la langue, Alger, 2005.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=12
+
|id=Kadri, 2006
  |texte= Y. Kadri, J. Nie, Effective Stemming for Arabic Information Retrieval, proceedings of theChallenge of Arabic for NLP/ MT Conference, Londres, Royaume-Uni, 2006.
+
|id édité=[[A pour auteur cité::Youssef Kadri|Kadri, Y.]], [[A pour auteur cité::Jian-Yun Nie|Nie, J.]] (2006)
 +
|texte= Youssef Kadri, Jian-Yun Nie, Effective Stemming for Arabic Information Retrieval, proceedings of theChallenge of Arabic for NLP/ MT Conference, Londres, Royaume-Uni, 2006.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=13
+
|id=Khreisat, 2006
  |texte= L. Khreisat, Arabic Text Classification Using N-gram Frequency Statistics A Comparative Study, The 2006 International Conference on Data Mining Part of the 2006 World Congress in Computer Sciences DMIN: 78-82, 2006.
+
|id édité=[[A pour auteur cité::Laila Khreisat|Khreisat, L.]] (2006)
 +
|texte= Laila Khreisat, Arabic Text Classification Using N-gram Frequency Statistics A Comparative Study, The 2006 International Conference on Data Mining Part of the 2006 World Congress in Computer Sciences DMIN: 78-82, 2006.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=14
+
|id=Ahmed, 2007
  |texte= F. Ahmed, A. Nürnberger, N-grams Conflation Approach for Arabic, ACM SIGIR Conference, Amsterdam, 27 Juillet 2007.
+
|id édité=[[A pour auteur cité::Farag Ahmed|Ahmed, F.]], [[A pour auteur cité::Andreas Nürnberger|Nürnberger, A.]] (2007)
 +
|texte=Farag Ahmed, Andreas Nürnberger, N-grams Conflation Approach for Arabic, ACM SIGIR Conference, Amsterdam, 27 Juillet 2007.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=15
+
|id=El-Halees, 2007
  |texte= A. M. El-Halees, Arabic Text Classification Using Maximum Entropy, The Islamic University Journal (Series of Natural Studies and Engineering) Vol. 15, No.1, pp 157-167, ISSN 1726-6807,
+
|id édité=[[A pour auteur cité::Alaa M. El-Halees|El-Halees, A.]] (2007)
 +
|texte= Alaa M. El-Halees, Arabic Text Classification Using Maximum Entropy, The Islamic University Journal (Series of Natural Studies and Engineering) Vol. 15, No.1, pp 157-167, ISSN 1726-6807,
 
http//www.iugzaza.edu.ps/ara/research/, 2007.
 
http//www.iugzaza.edu.ps/ara/research/, 2007.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=16
+
|id=Khemakhem, 2007
  |texte= A. Khemakhem, B. Gargouri, A. Abdelwahed, G. Francopoulo, Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF - ISO 24613, Traitement Automatique des Langues Naturelles, Toulouse, France, 5- 8 Juin 2007.
+
|id édité=[[A pour auteur cité::Aïda Khemakhem|Khemakhem, A.]], [[A pour auteur cité::Bilel Gargouri|Gargouri, B.]], [[A pour auteur cité::Abdelhamid Abdelwahed|Abdelwahed, A.]], [[A pour auteur cité::Gil Francopoulo|Francopoulo, G.]] (2007)
 +
|texte= Aïda Khemakhem, Bilel Gargouri, Abdelhamid Abdelwahed, Gil Francopoulo, Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF - ISO 24613, Traitement Automatique des Langues Naturelles, Toulouse, France, 5- 8 Juin 2007.
  
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=17
+
|id=Ben Abderrahmen, 2007
  |texte= M. Ben Abderrahmen, B. Gargouri, M Jmaiel, LMF-QL: A graphical Tool to Query LMF databases, Third Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 2007.
+
|id édité=[[A pour auteur cité::Mehdi Ben Abderrahmen|Ben Abderrahmen, M.]], [[A pour auteur cité::Bilel Gargouri|Gargouri, B.]], [[A pour auteur cité::Mohamed Jmaiel|Jmaiel, M.]] (2007)
 +
|texte= Mehdi Ben Abderrahmen, Bilel Gargouri, Mohamed Jmaiel, LMF-QL: A graphical Tool to Query LMF databases, Third Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 2007.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=18
+
|id=Norbert, 2008
  |texte= E. Norbert, Arabic Language Support in SQL Server, Microsoft corporation, SQL Server Technical Article, http://msdn.microsoft.com/en- us/library/cc295829(SQL.90).aspx, 2008.
+
|id édité=[[A pour auteur cité::Emad Norbert|Norbert, E.]] (2008)
 +
|texte= Emad Norbert, Arabic Language Support in SQL Server, Microsoft corporation, SQL Server Technical Article, http://msdn.microsoft.com/en- us/library/cc295829(SQL.90).aspx, 2008.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=19
+
|id=Comes, 2008
  |texte= C-A. Comes, L-D. Savu, I-O Spatacean, B. Stefan, A. Avram, Universal Symbolic Translator for Procedural Language over SQL, 7th WSEAS Int. Conf. on Applied Computer & Applied Computational Science (ACACOS '08), Hangzhou, Chine, 6-8 Avril, 2008
+
|id édité=[[A pour auteur cité::Calin-Adrian Comes|Comes, C.]], [[A pour auteur cité::L-D. Savu, Savu, L.]], [[A pour auteur cité::I-O Spatacean|Spatacean, I.]], [[A pour auteur cité::B. Stefan|Stefan, B.]], [[A pour auteur cité::A. Avram|Avram, A.]] (2008)
 +
|texte= Calin-Adrian Comes, L-D. Savu, I-O Spatacean, B. Stefan, A. Avram, Universal Symbolic Translator for Procedural Language over SQL, 7th WSEAS Int. Conf. on Applied Computer & Applied Computational Science (ACACOS '08), Hangzhou, Chine, 6-8 Avril, 2008
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=20
+
|id=Micher, 2008
  |texte= J. Micher, C.Voss, Buckwalter-based Lookup Tool as Language Resource for Arabic Language Learners Software Engineering, Testing, and Quality Assurance for Natural Language Processing, pages 66–67, Columbus, Ohio, USA, June 2008.
+
|id édité=[[A pour auteur cité::Jeffrey Micher|Micher, J.]], [[A pour auteur cité::Clare Voss|Voss, C.]] (2008)
 +
|texte= Jeffrey Micher, Clare Voss, Buckwalter-based Lookup Tool as Language Resource for Arabic Language Learners Software Engineering, Testing, and Quality Assurance for Natural Language Processing, pages 66–67, Columbus, Ohio, USA, June 2008.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=21
+
|id=Sinan, 2008
  |texte= M. Sinane, M. Rammal, K. Zreik, Arabic documents classification using N-gram, Conférence ICHSL6, Toulouse, 2008.
+
|id édité=[[A pour auteur cité::Majed Sanan|Sanan, M.]], [[A pour auteur cité::Mahmoud Rammal|Rammal, M.]], [[A pour auteur cité::Khaldoun Zreik|Zreik, K.]] (2008)
 +
|texte= Majed Sanan, Mahmoud Rammal, Khaldoun Zreik, Arabic documents classification using N-gram, Conférence ICHSL6, Toulouse, 2008.
 
}}
 
}}
  
 
{{CIDE biblio
 
{{CIDE biblio
  |id=22
+
|id=Baccar, 2008
  |texte= F. Baccar, A. Khemakhem, B. Gargouri, K. Haddar, A. Ben Hamadou, Modélisation normalisée LMF des dictionnaires électroniques éditoriaux de l’arabe, TALN 2008, Avignon, France, 9-13 juin 2008.
+
|id édité=[[A pour auteur cité::Feten Baccar|Baccar, F.]], [[A pour auteur cité::Aïda Khemakhem|Khemakhem, A.]], [[A pour auteur cité::Bilel Gargouri|Gargouri, B.]], [[A pour auteur cité::Kais Haddar|Haddar, K.]], [[A pour auteur cité::Abdelmajid Ben Hamadou|Ben Hamadou, A.]] (2008)
 +
|texte= Feten Baccar, Aïda Khemakhem, Bilel Gargouri, Kais Haddar, Abdelmajid Ben Hamadou, Modélisation normalisée LMF des dictionnaires électroniques éditoriaux de l’arabe, TALN 2008, Avignon, France, 9-13 juin 2008.
 
}}
 
}}
  
 
{{CIDE biblio
 
  |id=23
 
  |texte= G. Francopoulo, M. George, Language resource management − Lexical markup framework (LMF), ISO/TC 37/SC 4 Rev.15, 2008.
 
}}
 
{{CIDE biblio
 
  |id=24
 
  |texte= A. Al Hajjar, M. Hajjar, K. Zreik, Classification of Arabic Information Extraction methods, 2nd International Conference on Arabic Language Resources and Tools, Le Caire, Egypte, 21-23 Avril 2009.
 
}}
 
{{CIDE biblio
 
  |id=25
 
  |texte= A. Al Hajjar, M. Hajjar, K. Zreik, Un nouveau système d'évaluation des méthodes d'extraction de la racine des mots arabes, (soumis), 2009.
 
}}
 
{{CIDE biblio
 
  |id=26
 
  |texte= Ibn Manzour, Lisan Al-Arab. www.muhaddith.org, 2009.
 
}}
 
 
{{CIDE biblio
 
{{CIDE biblio
  |id=27
+
|id=Francopoulo, 2008
  |texte= Sakher, Lexicons: Lisan Al-Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit, Al Ghani, Taj Al Arous, Najaat Al Raed, http://lexicons.sakhr.com, 2009.
+
|id édité=[[A pour auteur cité::Gil Francopoulo|Francopoulo, G.]], [[A pour auteur cité::Monte George|George, M.]] (2008)
 +
|texte= Gil Francopoulo, Monte George, Language resource management − Lexical markup framework (LMF), ISO/TC 37/SC 4 Rev.15, 2008.
 
}}
 
}}
 
{{CIDE biblio
 
{{CIDE biblio
  |id=28
+
|id=Al Hajjar, 2009
  |texte= Academy of the Arabic Language, http://lexicons.sakhr.com/intro/intro.aspx?fileurl=intro01.asp, 2009.
+
|id édité=[[A pour auteur cité::Abd El Salam al Hajjar|A. Al Hajjar]], [[A pour auteur cité::Mohammad Hajjar|M. Hajjar]], [[A pour auteur cité::Khaldoun Zreik|K. Zreik]] (2009)
 
+
|texte= A. Al Hajjar, M. Hajjar, K. Zreik, Classification of Arabic Information Extraction methods, 2nd International Conference on Arabic Language Resources and Tools, Le Caire, Egypte, 21-23 Avril 2009.
 
}}
 
}}
 
 
{{CIDE biblio
 
{{CIDE biblio
  |id=29
+
|id=Al Hajjar, 2009
  |texte= Islamic Library, Arabic Dictionaries: Al Misbah Al Mounir, Al Qamous Al Mouhit, Moujam Makayys Al Lougha, Moukhtar Al Sihah, http://www.islamweb.net/newlibrary/bookslist.php?subject= اﻟﻠﻐﺔ آﺘﺐ اﻟﻌﺮﺑﻴﺔ, 2009.
+
|id édité=[[A pour auteur cité::Abd El Salam al Hajjar|A. Al Hajjar]], [[A pour auteur cité::Mohammad Hajjar|M. Hajjar]], [[A pour auteur cité::Khaldoun Zreik|K. Zreik]] (2009)
 
+
|texte= A. Al Hajjar, M. Hajjar, K. Zreik, Un nouveau système d'évaluation des méthodes d'extraction de la racine des mots arabes, (soumis), 2009.
 
}}
 
}}
  
Ligne 383 : Ligne 340 :
  
 
{{CIDE fin corps}}
 
{{CIDE fin corps}}
[[Catégorie:référence bibliographique, article de conférence]]
+
[[Catégorie:Article de conférence]]
 
[[Catégorie:Article avec PDF]]
 
[[Catégorie:Article avec PDF]]
  
 
__SHOWFACTBOX__
 
__SHOWFACTBOX__

Version actuelle datée du 9 décembre 2016 à 14:56

Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA


 
 

 
titre
Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA
auteurs
Abd El Salam al Hajjar (1,2), Mohammad Hajjar (2) et Khaldoun Zreik (2)
Affiliations
(1) : Institut Universitaire de Technologie, Université Libanaise, Liban
(2) : Laboratoire Paragraphe, Université de Paris 8 - Vincennes - Saint-Denis, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Al Hajjar.pdf
Mots-clés 
Langue arabe, Corpus, Dictionnaire, Extraction d’information, Racine.
Keywords
Arabic Language, Corpus, Dictionary, Information Extraction, Root.


Résumé
Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.