CIDE (2009) Al Hajjar : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
(Page créée avec « {{Wicri avertissement création lien}} ;In:CIDE.12 (Montréal), 2009 * Média:CIDE (2009 al Hajjar.pdf [[Catégorie:Article av... »)
 
imported>Abdelhakim Aidene
Ligne 1 : Ligne 1 :
{{Wicri avertissement création lien}}
+
{{Titre page article
 +
|titre=Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA
 +
}}
 +
{{CIDE boîte bibliographique|texte=
 +
;titre: [[A pour titre::Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA]]
 +
;auteurs: [[A pour premier auteur::Abd El Salam al Hajjar]] (1)(2), [[A pour auteur::Mohammad Hajjar  ]] (2) et  [[A pour auteur::Khaldoun Zreik ]] (2)
 +
;Affiliations:
 +
: (1):[[A pour affiliation auteur:: Institut Universitaire de Technologie]],[[A pour affiliation auteur::Université Libanaise]], [[Liban ]]
 +
: (2) :[[A pour affiliation auteur::Laboratoire Paragraphe]], [[A pour affiliation auteur::Université de Paris 8 - Vincennes - Saint- Denis]], [[France]]
 
;In:[[Est dans les actes::CIDE 2009 Montréal|CIDE.12 (Montréal)]], 2009
 
;In:[[Est dans les actes::CIDE 2009 Montréal|CIDE.12 (Montréal)]], 2009
* [[Média:CIDE (2009 al Hajjar.pdf]]
+
;En PDF : [[Media:CIDE (2009 al Hajjar.pdf|CIDE (2009 al Hajjar.pdf]]
 +
;Mots-clés : Langue arabe, Corpus, Dictionnaire, Extraction d’information, Racine.
 +
;Keywords:Arabic Language, Corpus, Dictionary, Information Extraction, Root.
 +
 
 +
}}
 +
__NOTOC__
 +
<div style="text-align:justify;">
 +
;Résumé:Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet  de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.
 +
{{boîte déroulante
 +
  |titre=English description
 +
  |contenu=
 +
<div style="text-align:justify;">
 +
;Abstract :In this article, we propose a new structured and progressive electronic dictionary for the Arab language (DESELA) which can be presented in the form of a relational database or in the form of an XML document which can be easily exploitable using suitable query languages. Indeed, many Arab dictionaries are found but are not directly exploitable since they are in flat textual files form. DESELA contains the roots, the prefixes, the suffixes, the infixes, the patterns and the derived words. Moreover, for a given word, it provides links to its root, to their associated affixes, and to its possible pattern. DESELA is supplied automatically from one or several traditional textual dictionaries and is enriched permanently with any Arab textual corpus using system that we built.  This system is composed of a parser, a classifier, a comparator and an analyzer. The parser allows transforming a textual source (dictionary or textual corpus) into a set of words. The classifier allows to classify a given word and to add it to DESELA as a root or a derived word. The analyzer allows extracting the affixes and the model from a derived word and of its root. The comparator permits to avoid duplication of roots, affixes or patterns in DESELA. This dictionary can be used to evaluate the information extraction methods from an Arab document, given that; the vocabulary of the Arab language is essentially built from the roots. In general, an Arab word is built from its root while adding to it the affixes (prefix, infix, or suffix) according to a precise pattern. Most methods of information extraction starting from an Arab document proceed conversely by extracting the root from the mot.
 +
 
 +
}}
 +
 
 +
 
 +
{{Clr}}
 +
[[Catégorie:référence bibliographique, article de conférence]]
 
[[Catégorie:Article avec PDF]]
 
[[Catégorie:Article avec PDF]]
 +
[[Catégorie:Musée virtuel]]
 +
[[Catégorie:Médiation numérique]]
 +
__SHOWFACTBOX__

Version du 13 juin 2016 à 20:23

Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA


 
 

 
titre
Un nouveau dictionnaire électronique structuré et évolutif de la langue arabe : DESELA
auteurs
Abd El Salam al Hajjar (1)(2), Mohammad Hajjar (2) et Khaldoun Zreik (2)
Affiliations
(1):Institut Universitaire de Technologie,Université Libanaise, Liban
(2) :Laboratoire Paragraphe, Université de Paris 8 - Vincennes - Saint- Denis, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009 al Hajjar.pdf
Mots-clés 
Langue arabe, Corpus, Dictionnaire, Extraction d’information, Racine.
Keywords
Arabic Language, Corpus, Dictionary, Information Extraction, Root.
Résumé
Dans cet article, nous proposons un nouveau dictionnaire électronique structuré et évolutif de la langue arabe (DESELA) qui peut être présenté sous la forme d’une base de données relationnelle ou d’un document XML et qui est facilement exploitable à l’aide des langages de requêtes appropriés. En effet, on trouve beaucoup de dictionnaires arabes mais qui ne sont pas directement exploitables puisqu’ils sont sous forme des fichiers texte plats. DESELA contient essentiellement les racines, les préfixes, les suffixes, les infixes, les modèles et les mots dérivés. De plus, pour un mot donné, il fournit les liens avec sa racine, avec les affixes associés et avec son modèle éventuel. DESELA est alimenté automatiquement à partir d’un ou de plusieurs dictionnaires textuels classiques et est enrichi en permanence avec des corpus textuels arabe quelconques grâce à un système que nous avons construit. Ce système est composé d’un parseur, d’un classifieur, d’un comparateur et d’un analyseur. Le parseur permet de transformer une source textuelle (dictionnaire ou corpus textuel) en un ensemble de mots. Le classifieur permet de classer un mot donné et de l’ajouter au DESELA en tant qu’une racine ou en tant qu’un mot dérivé. L’analyseur permet d’extraire les affixes et le modèle à partir d’un mot dérivé et de sa racine. Le comparateur permet d’éviter d’avoir des doublons, à tous les niveaux, dans DESELA. Ce dictionnaire peut être utilisé pour évaluer ces méthodes d’extraction d’information à partir d’un document arabe. Étant donné que le vocabulaire de la langue arabe est essentiellement construit à partir des racines, un mot arabe est construit à partir de sa racine en y ajoutant des affixes (préfixe, infixe, ou suffixe) selon un modèle précis. La plupart des méthodes d’extraction d’information à partir d’un document arabe procèdent inversement en extrayant la racine à partir du mot.