CIDE (2009) Al Hajjar : Différence entre versions

De CIDE
imported>Claire Zuliani
imported>Claire Zuliani
Ligne 100 : Ligne 100 :
  
  
Considérons l’exemple du couple {Mot dérivé = اﻟﻤﺄآﻮﻻت, Racine = أآﻞ},   la phase du repérage des lettres de la racine (en rouge) dans le mot dérivé
+
Considérons l’exemple du couple {Mot dérivé = اﻟﻤﺄآﻮﻻت, Racine = أآﻞ}, la phase du repérage des lettres de la racine (en rouge) dans le mot dérivé donne  ت ا ل و ك أ م ل ا. En suite, les lettres qui précédent la première lettre de la racine اﻟﻢ constituent les préfixes (en vert). Les lettres qui suivent la dernière lettre de la racine ات constituent les suffixes (en jaune). Les lettres qui sont situés entre la première lettre et la dernière lettre de la racine et qui n’en font pas parties و constituent les infixes (en bleu). Le modèle est déduit comme لوﻣﻔﻊ, en partant des lettres du mot  ا ل و ك أ م ل  ات, nous supprimons le suffixe ت ا et le préfixe ل ا, car م  appartient à  {  ,ست ,م,إ} nous obtiendrons le mot ل  و  ك أ  م,  ensuite  nous  permutons respectivement  ل  ك أ en  ل  ع  ف. L’infixe و  est  repris  tel  qu’il  est pour obtenir le modèle لوﻣﻔﻊ.
 
 
donne  ت ا ل و ك أ م ل ا. En suite, les lettres qui précédent la première   lettre
 
de la racine اﻟﻢ constituent les préfixes (en vert). Les lettres qui suivent la dernière lettre de la racine ات constituent les suffixes (en jaune). Les lettres qui sont situés entre la première lettre et la dernière lettre de la racine et qui n’en font pas parties و constituent les infixes (en bleu). Le
 
modèle est déduit comme لوﻣﻔﻊ, en partant des lettres du mot  ا ل و ك أ م ل  ا
 
ت, nous supprimons le suffixe ت ا et le préfixe ل ا, car م  appartient à  {  ,س
 
ت
 
,إ}nous obtiendrons le   mot
 
ل  و  ك
 
أ  م,  ensuite  nous  permutons
 
respectivement  ل  ك أ
 
en  ل  ع  ف. L’infixe
 
و  est  repris  tel  qu’il  est pour
 
obtenir le modèle لوﻣﻔﻊ.
 
  
 
=== Les comparateurs===
 
=== Les comparateurs===
  
 
[[Fichier:Figure 6 Le comparateur.png|600px|thumb|Figure 6 : Le comparateur.]]
 
[[Fichier:Figure 6 Le comparateur.png|600px|thumb|Figure 6 : Le comparateur.]]
 
 
  
 
Le comparateur permet d’éviter d’avoir des doublons dans DESELA aux niveaux des mots, des racines, des préfixes, des infixes, des suffixes et  des modèles. Ce composant est sollicité seulement en phase d’enrichissement. Cette phase d’enrichissement présente le problème suivant : comment enrichir vraiment notre dictionnaire et non pas ajouter des doublons à tous les niveaux. Donc, le rôle du comparateur est de filtrer les mots avant de les ajouter au DESELA. Ce comparateur possède deux modes de fonctionnement. Le premier quand il reçoit en entrée un ensemble de mots fournit par le parseur. Dans ce cas, pour chaque mot il va vérifier s’il existe dans DESELA, s’il n’y est pas il le passe au classifieur pour le traiter. Le second mode de fonctionnement du comparateur est quand il reçoit en entrée un couple {Mot dérivé, Racine} fournit par le classifieur. Ce couple n’est ajouté au DESELA avec le lien entre la racine et le mot dérivé que s’il n’y était pas. Si seule la racine y était, ce couple est passé à l’analyseur pour extraire les affixes et le modèle et si ceux-là n’existent pas dans DESELA, ce mot est ajouté au DESELA avec le lien avec la racine, ils y sont ajoutés.
 
Le comparateur permet d’éviter d’avoir des doublons dans DESELA aux niveaux des mots, des racines, des préfixes, des infixes, des suffixes et  des modèles. Ce composant est sollicité seulement en phase d’enrichissement. Cette phase d’enrichissement présente le problème suivant : comment enrichir vraiment notre dictionnaire et non pas ajouter des doublons à tous les niveaux. Donc, le rôle du comparateur est de filtrer les mots avant de les ajouter au DESELA. Ce comparateur possède deux modes de fonctionnement. Le premier quand il reçoit en entrée un ensemble de mots fournit par le parseur. Dans ce cas, pour chaque mot il va vérifier s’il existe dans DESELA, s’il n’y est pas il le passe au classifieur pour le traiter. Le second mode de fonctionnement du comparateur est quand il reçoit en entrée un couple {Mot dérivé, Racine} fournit par le classifieur. Ce couple n’est ajouté au DESELA avec le lien entre la racine et le mot dérivé que s’il n’y était pas. Si seule la racine y était, ce couple est passé à l’analyseur pour extraire les affixes et le modèle et si ceux-là n’existent pas dans DESELA, ce mot est ajouté au DESELA avec le lien avec la racine, ils y sont ajoutés.
 
 
  
 
Mot/Lettre
 
Mot/Lettre
Ligne 225 : Ligne 208 :
 
ﻏﺮب
 
ﻏﺮب
 
Garaba
 
Garaba
[[Fichier:Table 1 Les transcriptions des lettres et des mots arabes utilisés dans ce document..jpg]]
+
[[Fichier:Table 1 Les transcriptions des lettres et des mots arabes utilisés dans ce document..jpg|600px|thumb|Table 1 : Les transcriptions des lettres et des mots arabes utilisés dans ce document]]
  
  

Version du 5 décembre 2016 à 18:17

Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA


 
 

 
titre
Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA
auteurs
Abd El Salam al Hajjar (1,2), Mohammad Hajjar (2) et Khaldoun Zreik (2)
Affiliations
(1) : Institut Universitaire de Technologie, Université Libanaise, Liban
(2) : Laboratoire Paragraphe, Université de Paris 8 - Vincennes - Saint-Denis, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Al Hajjar.pdf
Mots-clés 
Langue arabe, Corpus, Dictionnaire, Extraction d’information, Racine.
Keywords
Arabic Language, Corpus, Dictionary, Information Extraction, Root.


Résumé
Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.