CIDE (2009) Al Hajjar : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
imported>Abdelhakim Aidene
Ligne 93 : Ligne 93 :
  
  
2.1    1.3 L’analyseur
+
===L’analyseur===
 +
 
 
En générale, un mot arabe est dérivé à partir de sa racine en y ajoutant  des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Ce composant prend en entrée un couple {Mot dérivé, Racine} et produit en sortie les préfixes, les suffixes et les infixes éventuels ainsi que le modèle selon lequel le mot est dérivé. Pour ce faire, Nous commençons par repérer les positions des lettres constituant la racine dans le mot dérivé. L’étape suivante consiste à déterminer les lettres appartenant au mot dérivé et ne faisant pas partie de la racine. Ainsi, les lettres qui précédent la première lettre de la racine, si elles existent, dans le mot dérivé constituent les préfixes. De même, les lettres qui suivent la dernière lettre de la racine, si elles existent, dans le mot dérivé constituent les suffixes. En suite, les lettres qui sont situés entre la première lettre et la dernière lettre de la racine, si elles existent, dans le mot dérivé et qui ne font pas parties de la racine constituent les infixes. L’étape suivante consiste à déduire le modèle dans le mot dérivé, le modèle est déduit, selon les positions des lettres constituant la racine dans le mot dérivé. La première étape consiste à supprimer les suffixes, la deuxième consiste à supprimer les préfixes s’ils n’appartiennent pas à l’ensemble {ت ,م ,إ ,س}, la troisième étape consiste à transformer les lettres après les préfixes de l’ensemble {ت ,م ,إ ,س} s’ils y existent de la racine dans l’ordre où la première lettre permute en "ف", la deuxième permute  en "ع" et la troisième permute en "ل". Les infixes sont repris tel qu’ils sont.
 
En générale, un mot arabe est dérivé à partir de sa racine en y ajoutant  des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Ce composant prend en entrée un couple {Mot dérivé, Racine} et produit en sortie les préfixes, les suffixes et les infixes éventuels ainsi que le modèle selon lequel le mot est dérivé. Pour ce faire, Nous commençons par repérer les positions des lettres constituant la racine dans le mot dérivé. L’étape suivante consiste à déterminer les lettres appartenant au mot dérivé et ne faisant pas partie de la racine. Ainsi, les lettres qui précédent la première lettre de la racine, si elles existent, dans le mot dérivé constituent les préfixes. De même, les lettres qui suivent la dernière lettre de la racine, si elles existent, dans le mot dérivé constituent les suffixes. En suite, les lettres qui sont situés entre la première lettre et la dernière lettre de la racine, si elles existent, dans le mot dérivé et qui ne font pas parties de la racine constituent les infixes. L’étape suivante consiste à déduire le modèle dans le mot dérivé, le modèle est déduit, selon les positions des lettres constituant la racine dans le mot dérivé. La première étape consiste à supprimer les suffixes, la deuxième consiste à supprimer les préfixes s’ils n’appartiennent pas à l’ensemble {ت ,م ,إ ,س}, la troisième étape consiste à transformer les lettres après les préfixes de l’ensemble {ت ,م ,إ ,س} s’ils y existent de la racine dans l’ordre où la première lettre permute en "ف", la deuxième permute  en "ع" et la troisième permute en "ل". Les infixes sont repris tel qu’ils sont.
  
  
 
+
[Fichier:CIDE (2009) al Hajjar fig 5.png|center|400px|thumb|Figure 5 : L’analyseur]]
 
 
Figure 5 : L’analyseur
 
  
  
Ligne 117 : Ligne 116 :
 
obtenir le modèle لوﻣﻔﻊ.
 
obtenir le modèle لوﻣﻔﻊ.
  
1.4 Les comparateurs
+
=== Les comparateurs===
  
 +
[Fichier:CIDE (2009) al Hajjar fig 6.png|center|400px|thumb|Figure 6 : Le comparateur]]
  
  
Figure 6 : Le comparateur
 
  
 
Le comparateur permet d’éviter d’avoir des doublons dans DESELA aux niveaux des mots, des racines, des préfixes, des infixes, des suffixes et  des modèles. Ce composant est sollicité seulement en phase d’enrichissement. Cette phase d’enrichissement présente le problème suivant : comment enrichir vraiment notre dictionnaire et non pas ajouter des doublons à tous les niveaux. Donc, le rôle du comparateur est de filtrer les mots avant de les ajouter au DESELA. Ce comparateur possède deux modes de fonctionnement. Le premier quand il reçoit en entrée un ensemble de mots fournit par le parseur. Dans ce cas, pour chaque mot il va vérifier s’il existe dans DESELA, s’il n’y est pas il le passe au classifieur pour le traiter. Le second mode de fonctionnement du comparateur est quand il reçoit en entrée un couple {Mot dérivé, Racine} fournit par le classifieur. Ce couple n’est ajouté au DESELA avec le lien entre la racine et le mot dérivé que s’il n’y était pas. Si seule la racine y était, ce couple est passé à l’analyseur pour extraire les affixes et le modèle et si ceux-là n’existent pas dans DESELA, ce mot est ajouté au DESELA avec le lien avec la racine, ils y sont ajoutés.
 
Le comparateur permet d’éviter d’avoir des doublons dans DESELA aux niveaux des mots, des racines, des préfixes, des infixes, des suffixes et  des modèles. Ce composant est sollicité seulement en phase d’enrichissement. Cette phase d’enrichissement présente le problème suivant : comment enrichir vraiment notre dictionnaire et non pas ajouter des doublons à tous les niveaux. Donc, le rôle du comparateur est de filtrer les mots avant de les ajouter au DESELA. Ce comparateur possède deux modes de fonctionnement. Le premier quand il reçoit en entrée un ensemble de mots fournit par le parseur. Dans ce cas, pour chaque mot il va vérifier s’il existe dans DESELA, s’il n’y est pas il le passe au classifieur pour le traiter. Le second mode de fonctionnement du comparateur est quand il reçoit en entrée un couple {Mot dérivé, Racine} fournit par le classifieur. Ce couple n’est ajouté au DESELA avec le lien entre la racine et le mot dérivé que s’il n’y était pas. Si seule la racine y était, ce couple est passé à l’analyseur pour extraire les affixes et le modèle et si ceux-là n’existent pas dans DESELA, ce mot est ajouté au DESELA avec le lien avec la racine, ils y sont ajoutés.
Ligne 230 : Ligne 229 :
  
  
3 Résultat
+
==Résultat==
 
Le résultat principal de ce travail est le nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel.
 
Le résultat principal de ce travail est le nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel.
 +
 
Un deuxième résultat est le système qui permet d’alimenter DESELA automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et de l’enrichir en permanence avec des corpus textuels arabe quelconques. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots bruts. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA.
 
Un deuxième résultat est le système qui permet d’alimenter DESELA automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et de l’enrichir en permanence avec des corpus textuels arabe quelconques. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots bruts. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA.
  
  
4 Conclusion
+
==Conclusion==
 
Dans cet article, nous avons présenté DESELA le nouveau dictionnaire électronique structuré et évolutif de la langue arabe. Ce nouveau dictionnaire peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML facilement exploitable à l’aide des langages de requêtes appropriés. Ce nouveau dictionnaire contient les racines, les préfixes, les suffixes, les infixes et les modèles, en plus des informations fournies par un dictionnaire classique. De plus, il fournit les liens d’un mot donné avec sa racine, avec les affixes associés et avec  son
 
Dans cet article, nous avons présenté DESELA le nouveau dictionnaire électronique structuré et évolutif de la langue arabe. Ce nouveau dictionnaire peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML facilement exploitable à l’aide des langages de requêtes appropriés. Ce nouveau dictionnaire contient les racines, les préfixes, les suffixes, les infixes et les modèles, en plus des informations fournies par un dictionnaire classique. De plus, il fournit les liens d’un mot donné avec sa racine, avec les affixes associés et avec  son
  
modèle éventuel [2], [3], [6]. Nous avons présenté aussi le système automatique qui permet d’alimenter et d’enrichir DESELA à partir d’un ou de plusieurs dictionnaires textuels classiques et des corpus textuels arabe quelconque.
+
modèle éventuel [{{CIDE lien citation|2}}], [{{CIDE lien citation|3}}], [{{CIDE lien citation|6}}]. Nous avons présenté aussi le système automatique qui permet d’alimenter et d’enrichir DESELA à partir d’un ou de plusieurs dictionnaires textuels classiques et des corpus textuels arabe quelconque.
 +
 
 
Notre dictionnaire électronique évolutif et structuré comble un besoin au niveau du patrimoine électronique arabe. Ce dictionnaire peut être utilisé pour évaluer les méthodes d’extraction d’information à partir d’un document arabe cette évaluation contribue sans doute à améliorer les méthodes existantes d’extraction d’information à partir des documents arabes. L’originalité de notre dictionnaire réside dans le fait qu’il s’agit d’un dictionnaire évolutif qui contribue aussi à l’évolution de la langue arabe.
 
Notre dictionnaire électronique évolutif et structuré comble un besoin au niveau du patrimoine électronique arabe. Ce dictionnaire peut être utilisé pour évaluer les méthodes d’extraction d’information à partir d’un document arabe cette évaluation contribue sans doute à améliorer les méthodes existantes d’extraction d’information à partir des documents arabes. L’originalité de notre dictionnaire réside dans le fait qu’il s’agit d’un dictionnaire évolutif qui contribue aussi à l’évolution de la langue arabe.
  
  
5 Perspective
+
==Perspective==
 
La prochaine étape est de doter DESELA d’une dimension sémantique en ajoutant des relations sémantiques entre les mots. Pour établir les  relations sémantiques entre les mots il faut que nous exploitions les caractéristiques des dictionnaires classiques. En général, un dictionnaire classique fournit les mots avec leurs synonymes. Ces synonymes peuvent être des mots ou des racines. Donc, nous utiliserons le classifieur et l’analyseur pour établir les relations sémantiques aux niveaux des mots et des racines. Ainsi, pour déterminer les relations sémantiques entre deux mots on pourra passer par leurs racines.
 
La prochaine étape est de doter DESELA d’une dimension sémantique en ajoutant des relations sémantiques entre les mots. Pour établir les  relations sémantiques entre les mots il faut que nous exploitions les caractéristiques des dictionnaires classiques. En général, un dictionnaire classique fournit les mots avec leurs synonymes. Ces synonymes peuvent être des mots ou des racines. Donc, nous utiliserons le classifieur et l’analyseur pour établir les relations sémantiques aux niveaux des mots et des racines. Ainsi, pour déterminer les relations sémantiques entre deux mots on pourra passer par leurs racines.
  
  
Remerciements : Ce travail est effectué dans le cadre  des projets “Arabic Web Intelligence” financé par le Centre National de Recherche Scientifique Libanais (CNRSL) et « Recherche  d’information  Multimedia  Multilingue Arabe » financé par le comité Franco-Libanaise (CEDRE).
+
'''Remerciements''' : Ce travail est effectué dans le cadre  des projets “Arabic Web Intelligence” financé par le Centre National de Recherche Scientifique Libanais (CNRSL) et « Recherche  d’information  Multimedia  Multilingue Arabe » financé par le comité Franco-Libanaise (CEDRE).
 +
 
  
 +
==Références bibliographique==
  
6 Références bibliographique
 
 
[1] W. Adamson George, J. Boreham, The use of an association measure based on character structure to identify semantically related pairs of words and document titles, Information Storage and Retrieval, Vol. 10, pp 253-260, 1974.
 
[1] W. Adamson George, J. Boreham, The use of an association measure based on character structure to identify semantically related pairs of words and document titles, Information Storage and Retrieval, Vol. 10, pp 253-260, 1974.
 
[2] I. Al Kharashi, A Web Search Engine for Indexing, Searching and Publishing Arabic Bibliographic Databases, 1999.
 
[2] I. Al Kharashi, A Web Search Engine for Indexing, Searching and Publishing Arabic Bibliographic Databases, 1999.

Version du 6 juillet 2016 à 14:57

Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA


 
 

 
titre
Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA
auteurs
Abd El Salam al Hajjar (1)(2), Mohammad Hajjar (2) et Khaldoun Zreik (2)
Affiliations
(1):Institut Universitaire de Technologie,Université Libanaise, Liban
(2) :Laboratoire Paragraphe, Université de Paris 8 - Vincennes - Saint- Denis, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009 al Hajjar.pdf
Mots-clés 
Langue arabe, Corpus, Dictionnaire, Extraction d’information, Racine.
Keywords
Arabic Language, Corpus, Dictionary, Information Extraction, Root.


Résumé
Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.


… davantage au sujet de « CIDE (2009) Al Hajjar »