CIDE (2007) Sanan : Différence entre versions
imported>Ali Tebbakh (→Introduction) |
imported>Ali Tebbakh (→Introduction) |
||
Ligne 24 : | Ligne 24 : | ||
La langue Arabe standard moderne est la langue officielle utilisée dans les pays arabes. Elle relève certains défis, qui lui sont spécifiques, dans la recherche d’information, pour les raisons suivantes : | La langue Arabe standard moderne est la langue officielle utilisée dans les pays arabes. Elle relève certains défis, qui lui sont spécifiques, dans la recherche d’information, pour les raisons suivantes : | ||
− | *Les variations orthographiques sont très répandues en arabe [1]; certaines combinaisons des lettres peuvent être écrites de différentes manières. Par exemple, parfois dans les « glyphes » combinant HAMZA [2]ou le MADDA<ref> Elément d’accentuation utilisé en langue arabe</ref> avec la lettre ALEF. La présence de l’une ou de l’autre de ces accentuations peut introduire une sorte d’ambiguïté. Pour cette raison on a tendance, lors du traitement de la langue arabe, à omettre expressément ces accentuations.<br/>De même, par exemple, changer la lettre YEH (ي) en ALEF MAKSURA (ى) à la fin d'un mot est très commun. C’est d’autant plus perturbant que, les formes des deux lettres sont très semblables.<br/> | + | *Les variations orthographiques sont très répandues en arabe [1]; certaines combinaisons des lettres peuvent être écrites de différentes manières. Par exemple, parfois dans les « glyphes » combinant HAMZA [2]ou le MADDA<ref> Elément d’accentuation utilisé en langue arabe</ref> avec la lettre ALEF. La présence de l’une ou de l’autre de ces accentuations peut introduire une sorte d’ambiguïté. Pour cette raison on a tendance, lors du traitement de la langue arabe, à omettre expressément ces accentuations.<br/>De même, par exemple, changer la lettre YEH (ي) en ALEF MAKSURA (ى) à la fin d'un mot est très commun. C’est d’autant plus perturbant que, les formes des deux lettres sont très semblables.<br/>C'est tout comme la confusion entre « résumé » en français et « resume » en anglais. Dès lors que le mot prévu et le mot écrit sont les mots valides, il est impossible de corriger les épellations sans faire appel au contexte et l’utiliser. |
− | C'est tout comme la confusion entre « résumé » en français et « resume » en anglais. Dès lors que le mot prévu et le mot écrit sont les mots valides, il est impossible de corriger les épellations sans faire appel au contexte et l’utiliser. | ||
*L'arabe a une morphologie très compliquée [2]. En faite, la forme des mots arabes peut avoir 4 catégories d’affixes : les antéfixes, les préfixes, les suffixes et les postfixes. Ainsi un mot arabe peut avoir une forme plus compliquée s’il y a présence de tous ces affixes attachés à sa forme standard. On peut les catégoriser selon leur rôle syntaxique. Les antéfixes sont généralement des prépositions. Les préfixes représentés par une seule lettre indiquent la personne de la conjugaison des verbes au présent. Les suffixes sont les terminaisons de conjugaison des verbes et les signes du pluriel et du féminin pour les noms. Enfin, les postfixes représentent des pronoms. | *L'arabe a une morphologie très compliquée [2]. En faite, la forme des mots arabes peut avoir 4 catégories d’affixes : les antéfixes, les préfixes, les suffixes et les postfixes. Ainsi un mot arabe peut avoir une forme plus compliquée s’il y a présence de tous ces affixes attachés à sa forme standard. On peut les catégoriser selon leur rôle syntaxique. Les antéfixes sont généralement des prépositions. Les préfixes représentés par une seule lettre indiquent la personne de la conjugaison des verbes au présent. Les suffixes sont les terminaisons de conjugaison des verbes et les signes du pluriel et du féminin pour les noms. Enfin, les postfixes représentent des pronoms. | ||
*Les pluriels cassés sont communs. Les pluriels cassés souvent ne ressemblent pas à la forme singulière, ils n'obéissent pas à des règles morphologiques normales, et ne sont pas manipulés par des stemmers existants. | *Les pluriels cassés sont communs. Les pluriels cassés souvent ne ressemblent pas à la forme singulière, ils n'obéissent pas à des règles morphologiques normales, et ne sont pas manipulés par des stemmers existants. |
Version du 3 mai 2012 à 14:33
L’ACCES MULTILINGUE A L’INFORMATION SCIENTIFIQUE ET TECHNOLOGIQUE : LIMITATIONS DES MOTEURS DE RECHERCHE EN LANGUE ARABE
|
Sommaire
.Résumé : L’Internet demeure la source essentielle d’accès à l’information scientifique et technique. Dans certaines langues, telles que l’arabe, les moyens déployés pour la recherche d’information ne semblent avoir les mêmes performances que dans d’autres langues. Cette carence est probablement due à l’introduction tardive de l’Internet dans le monde scientifique et technique arabisant d’une part et d’autre part aux avancements dans le développement de traitement numérique de langue arabe.
Cet article vise à identifier et à expliquer les limitations et les problèmes de la recherche d’information, en langue arabe, lors de l’usage de trois moteurs de recherche demeurant « standards » basés sur le principe de comparaison des mots clés le “keyword matching” : Google, Yahoo, et Idrisi [1] . Nous avons effectué une série d’expériences sur des documents juridiques arabes extraits du Journal officiel libanais. Nous avons adopté les techniques de calcul des taux de rappel et de précision comme critères de comparaisons afin d’identifier les limitations de cette méthode.
Cette étude soutenue par une expérimentation sur corpus réelle représente la problématique d’un projet de recherche entre trois établissements de recherche en France et au Liban.
Introduction
L’Internet demeure la source essentielle d’accès à l’information scientifique et technique. Dans certaines langues, telles que l’arabe, les moyens déployés pour la recherche d’information ne semblent avoir les mêmes performances que dans d’autres langues. Cette carence est probablement due à l’introduction tardive de l’Internet dans le monde scientifique et technique arabisant d’une part et d’autre part aux avancements dans le développement de traitement numérique de langue arabe.
La langue Arabe standard moderne est la langue officielle utilisée dans les pays arabes. Elle relève certains défis, qui lui sont spécifiques, dans la recherche d’information, pour les raisons suivantes :
- Les variations orthographiques sont très répandues en arabe [1]; certaines combinaisons des lettres peuvent être écrites de différentes manières. Par exemple, parfois dans les « glyphes » combinant HAMZA [2]ou le MADDA[2] avec la lettre ALEF. La présence de l’une ou de l’autre de ces accentuations peut introduire une sorte d’ambiguïté. Pour cette raison on a tendance, lors du traitement de la langue arabe, à omettre expressément ces accentuations.
De même, par exemple, changer la lettre YEH (ي) en ALEF MAKSURA (ى) à la fin d'un mot est très commun. C’est d’autant plus perturbant que, les formes des deux lettres sont très semblables.
C'est tout comme la confusion entre « résumé » en français et « resume » en anglais. Dès lors que le mot prévu et le mot écrit sont les mots valides, il est impossible de corriger les épellations sans faire appel au contexte et l’utiliser. - L'arabe a une morphologie très compliquée [2]. En faite, la forme des mots arabes peut avoir 4 catégories d’affixes : les antéfixes, les préfixes, les suffixes et les postfixes. Ainsi un mot arabe peut avoir une forme plus compliquée s’il y a présence de tous ces affixes attachés à sa forme standard. On peut les catégoriser selon leur rôle syntaxique. Les antéfixes sont généralement des prépositions. Les préfixes représentés par une seule lettre indiquent la personne de la conjugaison des verbes au présent. Les suffixes sont les terminaisons de conjugaison des verbes et les signes du pluriel et du féminin pour les noms. Enfin, les postfixes représentent des pronoms.
- Les pluriels cassés sont communs. Les pluriels cassés souvent ne ressemblent pas à la forme singulière, ils n'obéissent pas à des règles morphologiques normales, et ne sont pas manipulés par des stemmers existants.
- Les mots arabes sont assez ambigus, ce qui est dû au système tri-littéral de racine (root). En arabe, un mot est généralement dérivé d'une racine, composée le plus souvent de trois lettres. Dans certaines dérivations, une ou plusieurs lettres de racine peuvent être lâchées, ce qui peut amplifier sensiblement l'ambiguïté entre les mots arabes.
- L’omission presque systématique des voyelles courtes dans la rédaction de textes arabes écrits [2].
- Les synonymes sont répandus, car la variété dans l'expression est souvent appréciée en tant qu'élément d'un bon modèle d'écriture par les rédacteurs ou les auteurs (littéraires, politiques ou scientifiques) arabes (Noamany, 2001).
Dans ce contexte, notre projet de recherche consiste à optimiser l’exploit des ressources d’information en langue arabe. Nous travaillons sur une base de données textuelle rassemblant des textes (en arabe) extraits de différentes sources administratives dont les journaux officiels. Cette base de données est mise à disposition des juristes et des politologues pour consultations en ligne[3] . Dans un premier temps, nous nous intéressons au traitement et à la recherche d’information textuelle pour lesquels nous proposons une approche structurelle, indépendante de ressources linguistiques. Dans ce papier nous rappelons brièvement la problématique de recherche d’information en générale avant de focaliser notre contribution sur les spécificités et les défis posés par les ressources en langue arabe. Par la suite nous présentons notre approche que nous illustrons via 3 moteurs de recherche.
Notes
- ↑ Moteur de recherche arabe, de la compagnie Sakhr, http://www.sakhr.com.
- ↑ Elément d’accentuation utilisé en langue arabe
- ↑ Le site en Langue Arabe : http://www.legallaw.ul.edu.lb