CIDE (2007) Sanan

De CIDE
Révision datée du 3 mai 2012 à 16:04 par imported>Ali Tebbakh (Normalisation et mise en correspondance)

L’ACCES MULTILINGUE A L’INFORMATION SCIENTIFIQUE ET TECHNOLOGIQUE : LIMITATIONS DES MOTEURS DE RECHERCHE EN LANGUE ARABE


 
 


 
Titre
L’ACCES MULTILINGUE A L’INFORMATION SCIENTIFIQUE ET TECHNOLOGIQUE : LIMITATIONS DES MOTEURS DE RECHERCHE EN LANGUE ARABE.
Auteurs
Majed SANAN, Mahmoud RAMMAL et Khaldoun ZREIK.
Sinane80@hotmail.com
mrammal@ul.edu.lb
zreik@univ-paris8.fr
Affiliation
Majed SANAN, Université de Caen, Mahmoud RAMMAL, Université Libanaise, Khaldoun ZREIK, Université de Paris 8
Mots-clés
keyword matching, Moteur de recherche arabe, Recherche d’information, Précision, Rappel.

.Résumé : L’Internet demeure la source essentielle d’accès à l’information scientifique et technique. Dans certaines langues, telles que l’arabe, les moyens déployés pour la recherche d’information ne semblent avoir les mêmes performances que dans d’autres langues. Cette carence est probablement due à l’introduction tardive de l’Internet dans le monde scientifique et technique arabisant d’une part et d’autre part aux avancements dans le développement de traitement numérique de langue arabe.
Cet article vise à identifier et à expliquer les limitations et les problèmes de la recherche d’information, en langue arabe, lors de l’usage de trois moteurs de recherche demeurant « standards » basés sur le principe de comparaison des mots clés le “keyword matching” : Google, Yahoo, et Idrisi [1] . Nous avons effectué une série d’expériences sur des documents juridiques arabes extraits du Journal officiel libanais. Nous avons adopté les techniques de calcul des taux de rappel et de précision comme critères de comparaisons afin d’identifier les limitations de cette méthode.
Cette étude soutenue par une expérimentation sur corpus réelle représente la problématique d’un projet de recherche entre trois établissements de recherche en France et au Liban.

Introduction

L’Internet demeure la source essentielle d’accès à l’information scientifique et technique. Dans certaines langues, telles que l’arabe, les moyens déployés pour la recherche d’information ne semblent avoir les mêmes performances que dans d’autres langues. Cette carence est probablement due à l’introduction tardive de l’Internet dans le monde scientifique et technique arabisant d’une part et d’autre part aux avancements dans le développement de traitement numérique de langue arabe.

La langue Arabe standard moderne est la langue officielle utilisée dans les pays arabes. Elle relève certains défis, qui lui sont spécifiques, dans la recherche d’information, pour les raisons suivantes :

  • Les variations orthographiques sont très répandues en arabe [1]; certaines combinaisons des lettres peuvent être écrites de différentes manières. Par exemple, parfois dans les « glyphes » combinant HAMZA [2]ou le MADDA[2] avec la lettre ALEF. La présence de l’une ou de l’autre de ces accentuations peut introduire une sorte d’ambiguïté. Pour cette raison on a tendance, lors du traitement de la langue arabe, à omettre expressément ces accentuations.
    De même, par exemple, changer la lettre YEH (ي) en ALEF MAKSURA (ى) à la fin d'un mot est très commun. C’est d’autant plus perturbant que, les formes des deux lettres sont très semblables.
    C'est tout comme la confusion entre « résumé » en français et « resume » en anglais. Dès lors que le mot prévu et le mot écrit sont les mots valides, il est impossible de corriger les épellations sans faire appel au contexte et l’utiliser.
  • L'arabe a une morphologie très compliquée [2]. En faite, la forme des mots arabes peut avoir 4 catégories d’affixes : les antéfixes, les préfixes, les suffixes et les postfixes. Ainsi un mot arabe peut avoir une forme plus compliquée s’il y a présence de tous ces affixes attachés à sa forme standard. On peut les catégoriser selon leur rôle syntaxique. Les antéfixes sont généralement des prépositions. Les préfixes représentés par une seule lettre indiquent la personne de la conjugaison des verbes au présent. Les suffixes sont les terminaisons de conjugaison des verbes et les signes du pluriel et du féminin pour les noms. Enfin, les postfixes représentent des pronoms.
  • Les pluriels cassés sont communs. Les pluriels cassés souvent ne ressemblent pas à la forme singulière, ils n'obéissent pas à des règles morphologiques normales, et ne sont pas manipulés par des stemmers existants.
  • Les mots arabes sont assez ambigus, ce qui est dû au système tri-littéral de racine (root). En arabe, un mot est généralement dérivé d'une racine, composée le plus souvent de trois lettres. Dans certaines dérivations, une ou plusieurs lettres de racine peuvent être lâchées, ce qui peut amplifier sensiblement l'ambiguïté entre les mots arabes.
  • L’omission presque systématique des voyelles courtes dans la rédaction de textes arabes écrits [2].
  • Les synonymes sont répandus, car la variété dans l'expression est souvent appréciée en tant qu'élément d'un bon modèle d'écriture par les rédacteurs ou les auteurs (littéraires, politiques ou scientifiques) arabes (Noamany, 2001).

Dans ce contexte, notre projet de recherche consiste à optimiser l’exploit des ressources d’information en langue arabe. Nous travaillons sur une base de données textuelle rassemblant des textes (en arabe) extraits de différentes sources administratives dont les journaux officiels. Cette base de données est mise à disposition des juristes et des politologues pour consultations en ligne[3] . Dans un premier temps, nous nous intéressons au traitement et à la recherche d’information textuelle pour lesquels nous proposons une approche structurelle, indépendante de ressources linguistiques. Dans ce papier nous rappelons brièvement la problématique de recherche d’information en générale avant de focaliser notre contribution sur les spécificités et les défis posés par les ressources en langue arabe. Par la suite nous présentons notre approche que nous illustrons via 3 moteurs de recherche.

La recherche d’information en langue arabe : un processus standard dans sa forme

La recherche d’information en langue arabe est un processus standard dans sa forme. Il est déclenché par une demande spécifique exprimée sous forme d’une « requête ». Ce processus consiste à vérifier l'existence de l'information requise et son adresse (localisation) en cas d’une réponse positive. Les requêtes fournies par les utilisateurs se composent généralement d'un ensemble de mots clés et des opérateurs booléens très simplifiés ; le système répond en localisant, à l’aide d’une procédure de comparaisons, les documents satisfaisant le plus ces combinaisons de mots. Ce procédé est fortement influencé par l’approche d'indexation adoptée (tout texte, ontologie, web sémantique, …) ainsi que par les spécificités de la langue de document indexé (segmentation, analyse lexicale, etc.) [3].

Limitations des critères « standard » d’évaluation de l’efficacité de la recherche

Le nombre de sites culturels et « scientifiques » est en forte croissance. L’Internet est désormais un instrument indispensable dans le champ opératoire des producteurs et des consommateurs de l’information culturelle, scientifique et technique. Par conséquent la question du degré d’efficacité de la recherche dans les documents en langue arabe, doit être posée pour ne pas dire « reposer » (c'est-à-dire prendre en compte la spécificité de la langue). Les résultats assortis d’une approche de recherche d’information « standard » en langue arabe peuvent être imprécis et inconsistant en comparaison avec la base de données, d’où une importance accrue est accordée pour mesurer l'efficacité de la recherche d’information [4]. La qualité des moyens de restitution de documents en langue arabe (via les moteurs de recherche) n'a pas été examinée encore.

La première mesure que nous avons retenue dans le cadre de notre approche méthodologique consistait à identifier les particularités (différences) de la langue arabe pouvant affecter l'efficacité de la performance de la recherche et de la restitution de documents. Dans un premier temps nous avons identifié une explication simplifiée basée sur trois caractéristiques structurelles de la langue arabe :

  • Le préfixe : Pour l'article défini et quelques formes plurielles. Par exemple pour les articles définis on a : "ال،كال،فال..." et ces préfixes sont collés aux radicaux des mots.
  • L’infixe : Pour quelques formes plurielles comme " "بيوت(maison –beit بيت, maisons –boyout بيوت ) dans ce cas, on ajoute une lettre au milieu du radical (و) pour former le pluriel d'un mot.
  • Le suffixe : Pour quelques pronoms et pour des formes plurielles comme "هما،هم،وا..".

Par la suite nous nous sommes intéressés à étudier la possibilité de mesurer l'effet de ces caractéristiques. Nous avons adopté une approche comparant l'efficacité de récupération de l'arabe. Pour mettre en place cette approche comparative nous avons considéré les mesures de rappel et de précision [5] utilisées et validées depuis les années 60 pour évaluer l'efficacité de recherche d’information.

Précision : La précision (pertinence) est la proportion de documents pertinents restitués. Précision = |pertinentsrestitués| ÷ |restitués| = P (pertinents | restitués) Précision = [4]

Où a représente le nombre des documents pertinents restitués, et b les documents restitués et qui sont jugés non pertinents. Rappel : Le rappel (complétude) est la proportion de documents pertinents restitués par le moteur de recherche par rapport à l’ensemble des documents pertinents existants sur l’espace de recherche Rappel = |pertinentsrestitués| ÷ |pertinent| = P(restitués | pertinents) Rappel = [4] Où a représente le nombre de documents restitués et pertinents et c celui des documents non restitués mais pertinents.
Mesures par un nombre unique: Nous pouvons également employer des mesures qui utilisent un nombre unique pour l'efficacité, comme suit: F1 = 2PR / (P+R) … où F1 est une moyenne harmonique de la précision et du rappel [4]. Dans le cadre de notre projet de recherche la notion de pertinence a été limitée au niveau du sujet : « un document est pertinent par rapport à une requête si le document porte le même sujet que celui de la requête, autrement le même ensemble des mots clés et des opérateurs ».

Défis de la langue arabe

Différentes approches technologiques et méthodologiques ont été proposées pour adapter (au contexte de la langue arabe) le calcul des mesures de rappel et précision [6] afin d’optimiser la qualité de la recherche d’information.
Les conférences TREC sur la recherche de textes (Text REtrieval Conferences) en 2001 et 2002, puis le forum CLEF (Cross-Language Evaluation Forum) en 2002 ont contribué à montrer les accomplissements de différents groupes de recherche dans le secteur, et ont permis une évaluation concrète de différents systèmes ayant y participés. La table 1 récapitule les techniques et les approches employées par les participants dans TREC 2001. [7]

Table 1. Techniques utilisées dans TREC 2002,
A: Arabe, E: Anglais, F: Français

Les équipes participantes à ces colloques ont abordé différentes alternatives d'indexation de termes, de langages de requêtes, de traduction (cross-languages) et des sources de connaissance. Chaque équipe participante a adopté une technique de « sac de termes » basée sur des statistiques d'indexation au sujet de l'occurrence des termes dans chaque document. Une grande variété de techniques spécifiques ont été employées, y compris des modèles de langue, les modèles cachés de Markov, les modèles de l'espace de vecteur et les réseaux d'inférence. Quatre types de base pour l'indexation de termes ont été explorés, parfois séparément et parfois en association :

  • Mot: Un lexème isolé et unique qui représente une certaine signification.
  • Racine lexicale(Stem): un morphème ou un groupe de morphèmes concaténés qui peuvent accepter un affixe.
  • Racine(Root): un morphème unique qui constitue la signification basique d’un mot.
  • N-gramme: Le texte est décomposé en N-gramme, i.e., les sous chaînes de longueur N, qui souvent consistent en un ensemble adjacents de caractères d’un texte. Les diagrammes contiennent deux caractères et les trigrammes trois.

Caractéristiques de la langue arabe

La langue arabe est une langue flexionnelle, ce n’est pas une langue analytique [1]. La dérivation en arabe est basée sur les modèles morphologiques et le verbe joue un rôle flexionnel plus important que dans d'autres langues. En outre, les mots arabes sont constitués des racines représentant des connecteurs lexicologiques et sémantiques. L'arabe offre la possibilité de combiner des particules et des pronoms apposés aux mots. En d'autres termes, l'arabe permet beaucoup de liberté dans la commande des mots dans une phrase.
Ainsi, la syntaxe de la phrase peut changer selon les mécanismes transformationnels comme une extraposition, affrontement et omission, ou selon le remplacement syntactique tel qu'un nom d'agent au lieu d'un verbe. La langue arabe est distinguée par sa sensibilité élevée au contexte sur plusieurs dimensions. Au niveau d'écriture, la forme de la lettre dépend de la lettre qui la précède et de celle qui la suit. Au niveau syntactique, les différentes relations synthétiques de concordance telles que « case-ending », « matching », connexion, association et pronominalisation représentent différents exemples de sensitivité syntactique.
Le caractère de sensibilité au contexte est non seulement limité aux lettres, aux mots, et aux phrases. Des phrases arabes sont incluses et normalement reliées par les particules de copulatives, exceptionnelles et adversatives. Pour cette raison, il est plus difficile d’identifier la fin d'une phrase arabe qu'est le cas dans d'autres langues. En outre, le « shadda » dans la langue arabe représente un accent plus élevé sur le caractère (dans d'autres langues le shadda est représenté en doublant le caractère en écrivant). Alors nous pouvons avoir deux mots : un avec le « shadda » (l’équivalent de la répétition de lettre en français : tt, mm, …) et un autre le même que le premier mais sans « shadda » ; ces deux mots peuvent avoir de sens différents. Il faut noter que l’écriture explicite de « shadda » et de la majorité des accentuations voyelles en arabe est de moins en moins fréquente surtout dans les domaines scientifiques et techniques.

Ambiguïté

L'ambiguïté des langues est l'une des questions la plus complexe que les moteurs de recherche confrontent. Le taux de l'ambiguïté dans la recherche d’information en langue arabe est considéré parmi les plus élevés des langues pratiquées [1]. Ce point rend difficile d'adopter des moteurs de recherche dédiés à la langue arabe que les moteurs de recherche soient en langue arabe « non native » ou bien indigène. Cependant, plusieurs approches et solutions ont été mises en application et évaluées. Xu, Fraser et Weishedel (2001) ont examiné deux techniques pour manipuler une requête. Dans un premier temps ils traitent les stems -sûrs : le mot sera réduit à un stem si et seulement si le mot a un seul stem (forme fléchie) possible. En second lieu, ils traitent tout stem : considérer tous les stems probables (toutes les formes fléchies d’un mot) et tous les stems obtenus seront équitablement probables. Si un mot avait n stems possibles, chaque stem obtient la probabilité 1/n.
Comme nous l’avons signalé plus haut, le processus de « stemming » ne peut échapper à l’ambiguïté de la langue. Certes l’ampleur de ce problème peut être réduit en adoptant des solutions complémentaires de type analyseur de syntaxe qui peut déterminer et éliminer certaines des stems qui ne s'adapteraient pas dans la structure de la phrase (procédé de désambiguïsation de sens de mot) ou en adoptant des mesures statistiques qui peuvent être tirées de l'analyse de corpus pour élire des sens basés sur la fréquence ou la Co-occurrence.

Stratégies de recherche en arabe

Introduction

Fournir à l'utilisateur le mécanisme clair de commande et une réponse rapide comprenant les documents pertinents sont les objectifs principaux des systèmes de recherche d’information connus de plus en plus sous la forme de moteurs de recherche. Les travaux de recherche et de développement (R&D) sur le texte arabe ont toujours un long chemin à parcourir. Bien que le milieu universitaire ait fait des accomplissements significatifs, la structure morphologique complexe de la langue arabe pose des défis ; des techniques doivent s'avérer pour rendre la recherche d’information efficace pour la langue arabe (Abdelali, Cowie et Soliman, 2004). Les systèmes existants de recherche et de restitution de textes arabes pourraient être classifiés en deux groupes [1] :

  • Systèmes basés sur une approche plein texte (full form based approach) : C’est le cas de la plupart des moteurs commerciaux utilisés dont le moteur web ayna (www.ayna.com) ainsi que d’autres moteurs multilingues et Unicode tels que www.alltheweb.com ou www.google.com.
  • Systèmes basés sur la morphologie (morphological based approach): Les efforts qui ont été faits dans le milieu universitaire pour étudier des systèmes plus sophistiqués ont permis d’avoir une idée sur la prochaine génération des moteurs de recherche arabes. Des expérimentations ont été effectuées sur des systèmes utilisant différentes approches tenant compte de la morphologie lors de la recherche des formes fléchies (méthode de racine, méthode de stem, méthode de stem léger) [7, 8].

Ces expérimentations ont montré que, généralement, en utilisant des « stemmers » on améliore la mesure du rappel ainsi que la précision. Les expériences de Larkey, Connell en 2002 ont prouvé que la performance du « stemmer » léger est meilleur que le « stemmer » régulier.
Tandis que chacune de ces méthodes est proposée comme une solution alternative pour la recherche et la restitution des textes arabes, aucune d’elles ne peut prétendre fournir la solution optimale. Par exemple, les méthodes basées sur le mot ou le « stem » sont efficaces pour fournir un résultat assez focalisé néanmoins elles peuvent omettre des textes pertinents. La méthode de racine, permet une recherche plus exhaustive proposant tous les textes concernés (matchés) mais ces résultats peuvent contenir de textes non pertinents. Ainsi le besoin d’une méthode plus efficace pour la recherche d’information pertinente en langue arabe demeure à l’ordre du jour.

Normalisation et mise en correspondance

L'orthographe arabe est fortement variable. Un type plus problématique de variation d'épellation est que certains glyphes combinant ALEF avec HAMZA (أ،إ) ou MADDA (آ) sont parfois écrits comme ALEF plat (ا), probablement en raison de leur similitude apparente. Souvent, le mot prévu et le mot écrit réellement sont des mots valides. Nous avons exploré deux techniques pour étudier ce problème.

  1. la technique de normalisation, où nous remplaçons par exemple toutes les occurrences de l'ALEFs diacritique par l'ALEF plat.
  2. la technique de mise en correspondance (mapping), où nous mettons en correspondance un mot portant l'ALEF plat avec un ensemble de mots pouvant potentiellement être écrits comme ce mot en changeant l’ALEF diacritique en ALEF plat. En cette absence des données de formation, nous supposerons que tous les mots dans l'ensemble sont également probables.

Les deux techniques ont des avantages et des inconvénients. La technique de normalisation est simple, mais elle augmente l'ambiguïté. La technique de mise en correspondance (mapping) bien qu’elle n’augmente pas l'ambiguïté mais elle est plus complexe.

Notes

  1. Moteur de recherche arabe, de la compagnie Sakhr, http://www.sakhr.com.
  2. Elément d’accentuation utilisé en langue arabe
  3. Le site en Langue Arabe : http://www.legallaw.ul.edu.lb