CIDE (2009) Al Hajjar : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
imported>Abdelhakim Aidene
Ligne 35 : Ligne 35 :
 
sont soient basées sur les caractéristiques morphologiques de la langue arabe soient sur des calculs statistiques. Pour évaluer ces méthodes, nous avons développé un système d’évaluation et nous avons construit un corpus limité à vingt racines et à deux milles mots. Pour valider ces résultats, il faut bien sur un corpus plus important, un dictionnaire par exemple.
 
sont soient basées sur les caractéristiques morphologiques de la langue arabe soient sur des calculs statistiques. Pour évaluer ces méthodes, nous avons développé un système d’évaluation et nous avons construit un corpus limité à vingt racines et à deux milles mots. Pour valider ces résultats, il faut bien sur un corpus plus important, un dictionnaire par exemple.
  
En effet, on trouve beaucoup de dictionnaires arabes comme Lisan Al- Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit,  Al Ghani et d’autres [26], [27], [28], [29]. Bien que ces dictionnaires indiquent la racine, la définition, l'orthographe, les sens et les modes d’utilisation d’un mot donné, ils ne sont pas directement exploitables informatiquement puisqu’ils sont aux formats textuels non structurés (fichiers texte plats). Donc, l’absence d’un tel dictionnaire nous a poussé à construire un dictionnaire électronique structuré et informatiquement exploitable pour l’utiliser dans l’évaluation des méthodes d’extraction d’information à partir des documents arabes.
+
En effet, on trouve beaucoup de dictionnaires arabes comme Lisan Al- Arab, Al Qamous Al Mouhit, Al Wasit, Al Mouhit, Mouhit Al Mouhit,  Al Ghani et d’autres [{{CIDE lien citation|26}}], [{{CIDE lien citation|27}}], [{{CIDE lien citation|28}}], [{{CIDE lien citation|29}}]. Bien que ces dictionnaires indiquent la racine, la définition, l'orthographe, les sens et les modes d’utilisation d’un mot donné, ils ne sont pas directement exploitables informatiquement puisqu’ils sont aux formats textuels non structurés (fichiers texte plats). Donc, l’absence d’un tel dictionnaire nous a poussé à construire un dictionnaire électronique structuré et informatiquement exploitable pour l’utiliser dans l’évaluation des méthodes d’extraction d’information à partir des documents arabes.
  
Dans cet article, nous proposons un dictionnaire électronique structuré et évolutif de la langue arabe (DESELA). Ce nouveau dictionnaire peut être présenté sous la forme d’une base de données relationnelle [18], [19] ou d’un document XML [22] facilement exploitable à l’aide des langages de requêtes appropriés. Ce nouveau dictionnaire contient les racines, les préfixes, les suffixes, les infixes et les modèles, en plus des informations fournies par un dictionnaire classique. De plus, il fournit les liens d’un mot donné avec sa racine, avec les affixes associés et avec son modèle éventuel. Pour atteindre cet objectif, nous avons construit un système automatique qui permet d’alimenter DESELA à partir d’un ou de plusieurs dictionnaires textuels classiques. Ce système permet aussi d’enrichir DESELA, en permanence, à partir d’un corpus textuel arabe quelconque d’où l’évolutivité de notre dictionnaire.
+
Dans cet article, nous proposons un dictionnaire électronique structuré et évolutif de la langue arabe (DESELA). Ce nouveau dictionnaire peut être présenté sous la forme d’une base de données relationnelle [{{CIDE lien citation|18}}], [{{CIDE lien citation|19}}] ou d’un document XML [{{CIDE lien citation|22}}] facilement exploitable à l’aide des langages de requêtes appropriés. Ce nouveau dictionnaire contient les racines, les préfixes, les suffixes, les infixes et les modèles, en plus des informations fournies par un dictionnaire classique. De plus, il fournit les liens d’un mot donné avec sa racine, avec les affixes associés et avec son modèle éventuel. Pour atteindre cet objectif, nous avons construit un système automatique qui permet d’alimenter DESELA à partir d’un ou de plusieurs dictionnaires textuels classiques. Ce système permet aussi d’enrichir DESELA, en permanence, à partir d’un corpus textuel arabe quelconque d’où l’évolutivité de notre dictionnaire.
  
  
 
==Architecture==
 
==Architecture==
 
La figure 1 présente l’architecture générale de notre système qui permet d’alimenter et d’enrichir automatiquement DESELA à partir de plusieurs dictionnaires textuels classiques et des corpus textuels arabe quelconques. Ce système est composé de plusieurs modules qui sont le parseur, le classifieur, le comparateur et l’analyseur.
 
La figure 1 présente l’architecture générale de notre système qui permet d’alimenter et d’enrichir automatiquement DESELA à partir de plusieurs dictionnaires textuels classiques et des corpus textuels arabe quelconques. Ce système est composé de plusieurs modules qui sont le parseur, le classifieur, le comparateur et l’analyseur.
Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots.
+
*Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots.
Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine.
+
*Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine.
Le comparateur permet d’éviter d’avoir des doublons dans  DESELA, à tous les niveaux. Une remarque d’ordre générale pour cette partie est que les transcriptions de tous les mots arabes utilisés (racine, affixes, modèles, mots) dans ce document sont données dans la table 1.
+
*Le comparateur permet d’éviter d’avoir des doublons dans  DESELA, à tous les niveaux. Une remarque d’ordre générale pour cette partie est que les transcriptions de tous les mots arabes utilisés (racine, affixes, modèles, mots) dans ce document sont données dans la table 1.
  
  
 +
[[Fichier:CIDE (2009) al Hajjar fig 1.png|center|400px|thumb|Figure 1 : Architecture générale du système d’alimentation et d’enrichissement automatiquement de DESELA.]]
  
  
 
+
===Le parseur===
Figure 1 : Architecture générale du système d’alimentation et d’enrichissement automatiquement de DESELA.
 
 
 
1.1 Le parseur
 
 
Le parseur constitue le point d’entrée de notre système. L’objectif de ce composant est de transformer une source textuelle en un ensemble de mots. Il peut bien s’agir d’un dictionnaire sous format des fichiers texte plats d’ou d’un corpus textuel quelconque. Le parsing d’une source textuel est effectué en plusieurs étapes. La première sert à déterminer les délimiteurs qui séparent les mots. Ces délimiteurs peuvent être des espaces, des symboles particuliers ou d’autres selon le document à traiter. La deuxième étape consiste à fournir un premier ensemble des mots bruts à partir du document source. La dernière étape dans ce module sert à nettoyer l’ensemble de mots bruts ainsi obtenus. Cette étape consiste en plusieurs phases. La première sert à éliminer les non-caractères, les chiffres et les symboles de l’ensemble des mots bruts. La deuxième sert à en supprimer les mots parasites, ou des mots courts (...,إﻟﻰ ,ﻣﻦ) pour les ajouter à DESELA. Donc, la sortie de cette dernière étape, et du cout du parseur, est un ensemble de mots qui sont, soient des racines, soient des mots dérivés des racines.
 
Le parseur constitue le point d’entrée de notre système. L’objectif de ce composant est de transformer une source textuelle en un ensemble de mots. Il peut bien s’agir d’un dictionnaire sous format des fichiers texte plats d’ou d’un corpus textuel quelconque. Le parsing d’une source textuel est effectué en plusieurs étapes. La première sert à déterminer les délimiteurs qui séparent les mots. Ces délimiteurs peuvent être des espaces, des symboles particuliers ou d’autres selon le document à traiter. La deuxième étape consiste à fournir un premier ensemble des mots bruts à partir du document source. La dernière étape dans ce module sert à nettoyer l’ensemble de mots bruts ainsi obtenus. Cette étape consiste en plusieurs phases. La première sert à éliminer les non-caractères, les chiffres et les symboles de l’ensemble des mots bruts. La deuxième sert à en supprimer les mots parasites, ou des mots courts (...,إﻟﻰ ,ﻣﻦ) pour les ajouter à DESELA. Donc, la sortie de cette dernière étape, et du cout du parseur, est un ensemble de mots qui sont, soient des racines, soient des mots dérivés des racines.
  
  
 +
[[Fichier:CIDE (2009) al Hajjar fig 2.png|center|400px|thumb|FFigure 2 : Le parseur]]
 +
.
  
Figure 2 : Le parseur.
+
===Le classifieur===
 +
Les entrées de ce composant peuvent être fournies soit par le parseur, soit par le comparateur. L’objectif de ce composant est de décider si un mot est une racine ou non. Le classifieur permet de classer un mot et de l’ajouter au DESELA. Trois classes sont possibles : racines, mots dérivé d’une racine, mot isolé. S’il est une racine, il l’ajoute au DESELA en tant qu’une racine. Dans le cas contraire, il détermine la racine de laquelle il dérive, l’ajoute au DESELA en tant que mot dérivé et établit le lien avec sa racine. S’il n’a pas de racine, il est isolé, dans ce cas aucun lien n’est établit avec les racines.
  
1.2 Le classifieur
 
Les entrées de ce composant peuvent être fournies soit par le parseur, soit par le comparateur. L’objectif de ce composant est de décider si un mot est une racine ou non. Le classifieur permet de classer un mot et de l’ajouter au DESELA. Trois classes sont possibles : racines, mots dérivé d’une racine, mot isolé. S’il est une racine, il l’ajoute au DESELA en tant qu’une racine. Dans le cas contraire, il détermine la racine de laquelle il dérive, l’ajoute au DESELA en tant que mot dérivé et établit le lien avec sa racine. S’il n’a pas de racine, il est isolé, dans ce cas aucun lien n’est établit avec les racines.
 
 
La question primordiale à résoudre dans ce composant est : comment déterminer si un mot est une racine ? Pour répondre à cette question, plusieurs cas se présentent (Figure 3).
 
La question primordiale à résoudre dans ce composant est : comment déterminer si un mot est une racine ? Pour répondre à cette question, plusieurs cas se présentent (Figure 3).
Dans le cas d’un dictionnaire, les racines sont, en générale, encadrées par des séparateurs spéciaux et les mots, qui sont situés après cette racine et avant la racine suivante, dérivent de la première. Le faite de valider un mot avec sa racine est dû au faite que certains mots qui se trouvent après une racine peuvent ne pas dériver d’elle. Ce type des mots est à ne pas considérer dans DESELA. Pour déterminer ce type des mots, nous utilisons l’une des méthodes d’extraction de la racine d’un mot arabe [24]. Par exemple, dans le cas du dictionnaire Lissan Al Arabe [26], [27]. Chaque racine est précédée par le symbole « @ » et suivit par le  symbole
+
Dans le cas d’un dictionnaire, les racines sont, en générale, encadrées par des séparateurs spéciaux et les mots, qui sont situés après cette racine et avant la racine suivante, dérivent de la première. Le faite de valider un mot avec sa racine est dû au faite que certains mots qui se trouvent après une racine peuvent ne pas dériver d’elle. Ce type des mots est à ne pas considérer dans DESELA. Pour déterminer ce type des mots, nous utilisons l’une des méthodes d’extraction de la racine d’un mot arabe [24]. Par exemple, dans le cas du dictionnaire Lissan Al Arabe [{{CIDE lien citation|26}}], [{{CIDE lien citation|27}}]. Chaque racine est précédée par le symbole « @ » et suivit par le  symbole
 +
 
 
« : » (Figure 4), la plupart des mots qui sont situés après une racine et avant la racine suivante dérivent de la première. Considérons l’exemple de la racine أآﻞ    donné dans la figure 4. Dans cet exemple, tous les  mots
 
« : » (Figure 4), la plupart des mots qui sont situés après une racine et avant la racine suivante dérivent de la première. Considérons l’exemple de la racine أآﻞ    donné dans la figure 4. Dans cet exemple, tous les  mots
 
qui sont situés entre les deux    racines
 
qui sont situés entre les deux    racines

Version du 6 juillet 2016 à 14:50

Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA


 
 

 
titre
Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA
auteurs
Abd El Salam al Hajjar (1)(2), Mohammad Hajjar (2) et Khaldoun Zreik (2)
Affiliations
(1):Institut Universitaire de Technologie,Université Libanaise, Liban
(2) :Laboratoire Paragraphe, Université de Paris 8 - Vincennes - Saint- Denis, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009 al Hajjar.pdf
Mots-clés 
Langue arabe, Corpus, Dictionnaire, Extraction d’information, Racine.
Keywords
Arabic Language, Corpus, Dictionary, Information Extraction, Root.


Résumé
Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.