CIDE (2007) Sanan : Différence entre versions

De CIDE
imported>Ali Tebbakh
(Défis de la langue arabe)
imported>Ali Tebbakh
(Défis de la langue arabe)
Ligne 66 : Ligne 66 :
 
Les conférences TREC sur la recherche de textes  (Text REtrieval Conferences) en 2001 et 2002, puis le forum CLEF (Cross-Language Evaluation Forum) en 2002 ont contribué à montrer les accomplissements de différents groupes de recherche dans le secteur, et ont permis une évaluation concrète de différents systèmes ayant y participés. La table 1 récapitule les techniques et les approches employées par les participants dans TREC 2001. [7]
 
Les conférences TREC sur la recherche de textes  (Text REtrieval Conferences) en 2001 et 2002, puis le forum CLEF (Cross-Language Evaluation Forum) en 2002 ont contribué à montrer les accomplissements de différents groupes de recherche dans le secteur, et ont permis une évaluation concrète de différents systèmes ayant y participés. La table 1 récapitule les techniques et les approches employées par les participants dans TREC 2001. [7]
  
[[Image: CIDE 7 Sanan 1.png|200px|thumb|center|Table 1. Techniques utilisées dans TREC 2002<small>A: Arabe, E: Anglais, F: Français</small>]]
+
[[Image: CIDE 7 Sanan 1.png|200px|thumb|center|Table 1. Techniques utilisées dans TREC 2002,</br><small>A: Arabe, E: Anglais, F: Français</small>]]
  
 
==Notes==
 
==Notes==
 
<references/>
 
<references/>

Version du 3 mai 2012 à 15:54

L’ACCES MULTILINGUE A L’INFORMATION SCIENTIFIQUE ET TECHNOLOGIQUE : LIMITATIONS DES MOTEURS DE RECHERCHE EN LANGUE ARABE


 
 


 
Titre
L’ACCES MULTILINGUE A L’INFORMATION SCIENTIFIQUE ET TECHNOLOGIQUE : LIMITATIONS DES MOTEURS DE RECHERCHE EN LANGUE ARABE.
Auteurs
Majed SANAN, Mahmoud RAMMAL et Khaldoun ZREIK.
Sinane80@hotmail.com
mrammal@ul.edu.lb
zreik@univ-paris8.fr
Affiliation
Majed SANAN, Université de Caen, Mahmoud RAMMAL, Université Libanaise, Khaldoun ZREIK, Université de Paris 8
Mots-clés
keyword matching, Moteur de recherche arabe, Recherche d’information, Précision, Rappel.

.Résumé : L’Internet demeure la source essentielle d’accès à l’information scientifique et technique. Dans certaines langues, telles que l’arabe, les moyens déployés pour la recherche d’information ne semblent avoir les mêmes performances que dans d’autres langues. Cette carence est probablement due à l’introduction tardive de l’Internet dans le monde scientifique et technique arabisant d’une part et d’autre part aux avancements dans le développement de traitement numérique de langue arabe.
Cet article vise à identifier et à expliquer les limitations et les problèmes de la recherche d’information, en langue arabe, lors de l’usage de trois moteurs de recherche demeurant « standards » basés sur le principe de comparaison des mots clés le “keyword matching” : Google, Yahoo, et Idrisi [1] . Nous avons effectué une série d’expériences sur des documents juridiques arabes extraits du Journal officiel libanais. Nous avons adopté les techniques de calcul des taux de rappel et de précision comme critères de comparaisons afin d’identifier les limitations de cette méthode.
Cette étude soutenue par une expérimentation sur corpus réelle représente la problématique d’un projet de recherche entre trois établissements de recherche en France et au Liban.

Introduction

L’Internet demeure la source essentielle d’accès à l’information scientifique et technique. Dans certaines langues, telles que l’arabe, les moyens déployés pour la recherche d’information ne semblent avoir les mêmes performances que dans d’autres langues. Cette carence est probablement due à l’introduction tardive de l’Internet dans le monde scientifique et technique arabisant d’une part et d’autre part aux avancements dans le développement de traitement numérique de langue arabe.

La langue Arabe standard moderne est la langue officielle utilisée dans les pays arabes. Elle relève certains défis, qui lui sont spécifiques, dans la recherche d’information, pour les raisons suivantes :

  • Les variations orthographiques sont très répandues en arabe [1]; certaines combinaisons des lettres peuvent être écrites de différentes manières. Par exemple, parfois dans les « glyphes » combinant HAMZA [2]ou le MADDA[2] avec la lettre ALEF. La présence de l’une ou de l’autre de ces accentuations peut introduire une sorte d’ambiguïté. Pour cette raison on a tendance, lors du traitement de la langue arabe, à omettre expressément ces accentuations.
    De même, par exemple, changer la lettre YEH (ي) en ALEF MAKSURA (ى) à la fin d'un mot est très commun. C’est d’autant plus perturbant que, les formes des deux lettres sont très semblables.
    C'est tout comme la confusion entre « résumé » en français et « resume » en anglais. Dès lors que le mot prévu et le mot écrit sont les mots valides, il est impossible de corriger les épellations sans faire appel au contexte et l’utiliser.
  • L'arabe a une morphologie très compliquée [2]. En faite, la forme des mots arabes peut avoir 4 catégories d’affixes : les antéfixes, les préfixes, les suffixes et les postfixes. Ainsi un mot arabe peut avoir une forme plus compliquée s’il y a présence de tous ces affixes attachés à sa forme standard. On peut les catégoriser selon leur rôle syntaxique. Les antéfixes sont généralement des prépositions. Les préfixes représentés par une seule lettre indiquent la personne de la conjugaison des verbes au présent. Les suffixes sont les terminaisons de conjugaison des verbes et les signes du pluriel et du féminin pour les noms. Enfin, les postfixes représentent des pronoms.
  • Les pluriels cassés sont communs. Les pluriels cassés souvent ne ressemblent pas à la forme singulière, ils n'obéissent pas à des règles morphologiques normales, et ne sont pas manipulés par des stemmers existants.
  • Les mots arabes sont assez ambigus, ce qui est dû au système tri-littéral de racine (root). En arabe, un mot est généralement dérivé d'une racine, composée le plus souvent de trois lettres. Dans certaines dérivations, une ou plusieurs lettres de racine peuvent être lâchées, ce qui peut amplifier sensiblement l'ambiguïté entre les mots arabes.
  • L’omission presque systématique des voyelles courtes dans la rédaction de textes arabes écrits [2].
  • Les synonymes sont répandus, car la variété dans l'expression est souvent appréciée en tant qu'élément d'un bon modèle d'écriture par les rédacteurs ou les auteurs (littéraires, politiques ou scientifiques) arabes (Noamany, 2001).

Dans ce contexte, notre projet de recherche consiste à optimiser l’exploit des ressources d’information en langue arabe. Nous travaillons sur une base de données textuelle rassemblant des textes (en arabe) extraits de différentes sources administratives dont les journaux officiels. Cette base de données est mise à disposition des juristes et des politologues pour consultations en ligne[3] . Dans un premier temps, nous nous intéressons au traitement et à la recherche d’information textuelle pour lesquels nous proposons une approche structurelle, indépendante de ressources linguistiques. Dans ce papier nous rappelons brièvement la problématique de recherche d’information en générale avant de focaliser notre contribution sur les spécificités et les défis posés par les ressources en langue arabe. Par la suite nous présentons notre approche que nous illustrons via 3 moteurs de recherche.

La recherche d’information en langue arabe : un processus standard dans sa forme

La recherche d’information en langue arabe est un processus standard dans sa forme. Il est déclenché par une demande spécifique exprimée sous forme d’une « requête ». Ce processus consiste à vérifier l'existence de l'information requise et son adresse (localisation) en cas d’une réponse positive. Les requêtes fournies par les utilisateurs se composent généralement d'un ensemble de mots clés et des opérateurs booléens très simplifiés ; le système répond en localisant, à l’aide d’une procédure de comparaisons, les documents satisfaisant le plus ces combinaisons de mots. Ce procédé est fortement influencé par l’approche d'indexation adoptée (tout texte, ontologie, web sémantique, …) ainsi que par les spécificités de la langue de document indexé (segmentation, analyse lexicale, etc.) [3].

Limitations des critères « standard » d’évaluation de l’efficacité de la recherche

Le nombre de sites culturels et « scientifiques » est en forte croissance. L’Internet est désormais un instrument indispensable dans le champ opératoire des producteurs et des consommateurs de l’information culturelle, scientifique et technique. Par conséquent la question du degré d’efficacité de la recherche dans les documents en langue arabe, doit être posée pour ne pas dire « reposer » (c'est-à-dire prendre en compte la spécificité de la langue). Les résultats assortis d’une approche de recherche d’information « standard » en langue arabe peuvent être imprécis et inconsistant en comparaison avec la base de données, d’où une importance accrue est accordée pour mesurer l'efficacité de la recherche d’information [4]. La qualité des moyens de restitution de documents en langue arabe (via les moteurs de recherche) n'a pas été examinée encore.

La première mesure que nous avons retenue dans le cadre de notre approche méthodologique consistait à identifier les particularités (différences) de la langue arabe pouvant affecter l'efficacité de la performance de la recherche et de la restitution de documents. Dans un premier temps nous avons identifié une explication simplifiée basée sur trois caractéristiques structurelles de la langue arabe :

  • Le préfixe : Pour l'article défini et quelques formes plurielles. Par exemple pour les articles définis on a : "ال،كال،فال..." et ces préfixes sont collés aux radicaux des mots.
  • L’infixe : Pour quelques formes plurielles comme " "بيوت(maison –beit بيت, maisons –boyout بيوت ) dans ce cas, on ajoute une lettre au milieu du radical (و) pour former le pluriel d'un mot.
  • Le suffixe : Pour quelques pronoms et pour des formes plurielles comme "هما،هم،وا..".

Par la suite nous nous sommes intéressés à étudier la possibilité de mesurer l'effet de ces caractéristiques. Nous avons adopté une approche comparant l'efficacité de récupération de l'arabe. Pour mettre en place cette approche comparative nous avons considéré les mesures de rappel et de précision [5] utilisées et validées depuis les années 60 pour évaluer l'efficacité de recherche d’information.

Précision : La précision (pertinence) est la proportion de documents pertinents restitués. Précision = |pertinentsrestitués| ÷ |restitués| = P (pertinents | restitués) Précision = [4]

Où a représente le nombre des documents pertinents restitués, et b les documents restitués et qui sont jugés non pertinents. Rappel : Le rappel (complétude) est la proportion de documents pertinents restitués par le moteur de recherche par rapport à l’ensemble des documents pertinents existants sur l’espace de recherche Rappel = |pertinentsrestitués| ÷ |pertinent| = P(restitués | pertinents) Rappel = [4] Où a représente le nombre de documents restitués et pertinents et c celui des documents non restitués mais pertinents.
Mesures par un nombre unique: Nous pouvons également employer des mesures qui utilisent un nombre unique pour l'efficacité, comme suit: F1 = 2PR / (P+R) … où F1 est une moyenne harmonique de la précision et du rappel [4]. Dans le cadre de notre projet de recherche la notion de pertinence a été limitée au niveau du sujet : « un document est pertinent par rapport à une requête si le document porte le même sujet que celui de la requête, autrement le même ensemble des mots clés et des opérateurs ».

Défis de la langue arabe

Différentes approches technologiques et méthodologiques ont été proposées pour adapter (au contexte de la langue arabe) le calcul des mesures de rappel et précision [6] afin d’optimiser la qualité de la recherche d’information.
Les conférences TREC sur la recherche de textes (Text REtrieval Conferences) en 2001 et 2002, puis le forum CLEF (Cross-Language Evaluation Forum) en 2002 ont contribué à montrer les accomplissements de différents groupes de recherche dans le secteur, et ont permis une évaluation concrète de différents systèmes ayant y participés. La table 1 récapitule les techniques et les approches employées par les participants dans TREC 2001. [7]

Table 1. Techniques utilisées dans TREC 2002,
A: Arabe, E: Anglais, F: Français

Notes

  1. Moteur de recherche arabe, de la compagnie Sakhr, http://www.sakhr.com.
  2. Elément d’accentuation utilisé en langue arabe
  3. Le site en Langue Arabe : http://www.legallaw.ul.edu.lb