Extraction de graphies dans un corpus : Différence entre versions

De Wicri Manuel
imported>Jacques Ducloy
(Manipulations d'expressions régulières dans DILIB)
imported>Jacques Ducloy
(Manipulations d'expressions régulières dans DILIB)
Ligne 8 : Ligne 8 :
 
==Manipulations d'expressions régulières dans DILIB==
 
==Manipulations d'expressions régulières dans DILIB==
 
Les graphies recherchées par exemple « philologie » ou « philology » peuvent être reconnues par des [[expression régulière|expressions régulières]].
 
Les graphies recherchées par exemple « philologie » ou « philology » peuvent être reconnues par des [[expression régulière|expressions régulières]].
 
+
===Les expressions régulières autour des la philologie===
 
Il convient de distinguer les contextes sélectionnées et les graphies effectivement extraites. Par exemple une expression comme <code>[Pp]hilogogue</code> va permettre de sélectionner des phrases contenant « philologue » ou « philologues ». Mais seule la forme « philologue » sera effectivement extraite.
 
Il convient de distinguer les contextes sélectionnées et les graphies effectivement extraites. Par exemple une expression comme <code>[Pp]hilogogue</code> va permettre de sélectionner des phrases contenant « philologue » ou « philologues ». Mais seule la forme « philologue » sera effectivement extraite.
  
Ligne 15 : Ligne 15 :
 
Pour extraire tous les suffixes, on peut imaginer une première expression régulière du type :
 
Pour extraire tous les suffixes, on peut imaginer une première expression régulière du type :
 
* <code>[Pp]hilolog[a-z]*</code>
 
* <code>[Pp]hilolog[a-z]*</code>
 +
 +
Dans le programme qui suit, on utilise une expression à plus large couverture qui permet de reconnaître préfixes ou suffixes, indépendamment de la casse.
 +
* <code>[A-Za-z]*[Pp][Hh][Ii][Ll][Oo][Ll][Oo][Gg][A-Za-z]*</code>
  
 
==Programme final==
 
==Programme final==

Version du 25 avril 2015 à 11:30

logo travaux page en cours de rédaction

Cette page introduit un tutoriel sur l'extraction de graphies dans un corpus significatif.

Nous prendrons pour exemple une analyse d'un corpus extrait d'ISTEX sur la philologie. Celui-ci fait l'objet d'une plate-forme de curation et d'exploration sur Wicri/Linguistique.

Le problème posé est relativement simple : quelles sont toutes les graphies contenant la racine « philolog » dans un corpus.

Manipulations d'expressions régulières dans DILIB

Les graphies recherchées par exemple « philologie » ou « philology » peuvent être reconnues par des expressions régulières.

Les expressions régulières autour des la philologie

Il convient de distinguer les contextes sélectionnées et les graphies effectivement extraites. Par exemple une expression comme [Pp]hilogogue va permettre de sélectionner des phrases contenant « philologue » ou « philologues ». Mais seule la forme « philologue » sera effectivement extraite.

Le corpus Philologie est conséquent : 23 000 documents, dont certains sont volumineux. Il est donc intéressant de se constituer un répertoire de toutes les graphies possibles.

Pour extraire tous les suffixes, on peut imaginer une première expression régulière du type :

  • [Pp]hilolog[a-z]*

Dans le programme qui suit, on utilise une expression à plus large couverture qui permet de reconnaître préfixes ou suffixes, indépendamment de la casse.

  • [A-Za-z]*[Pp][Hh][Ii][Ll][Oo][Ll][Oo][Gg][A-Za-z]*

Programme final

Pour pouvoir faire facilement des énumérations, le programme génère des triplets contenant :

  1. la chaîne reconnue,
  2. la clé HFD,
  3. un numéro d'ordre (numMatch).
#include "Buffer.h"
#include "RegExp.h"
#include <stdio.h>
#include <string.h>

int main()
{
  RegExp *rePhilo;
  Buffer *bufDoc;
  Buffer *bufKey;
  
  rePhilo=RegExpCreate("[A-Za-z]*[Pp][Hh][Ii][Ll][Oo][Ll][Oo][Gg][A-Za-z]*");
  bufDoc=BufferCreate(1000,1000);
  bufKey=NewBuffer();
  
  while (BufferGets(bufDoc))
    {
      char   *posTab;
      char   *match;
      char   *beginToParse;
      int     numMatch;
      
      posTab=strchr(BufferString(bufDoc), '\t');
      if (posTab)BufferStrncpy(bufKey, BufferString(bufDoc), posTab-BufferString(bufDoc));
      
      beginToParse=BufferString(bufDoc);
      numMatch=0;
      match=RegExpExtract(rePhilo, beginToParse);
      while (match)
	{
	  numMatch++;
	  printf("%s", match);
	  free (match);

	  if (posTab) 
	    {
	      printf("\t%s\t%d\n", BufferString(bufKey), numMatch);
	    }
	  else putchar('\n');

	  beginToParse=RegExpLoc2;
	  match=RegExpExtract(rePhilo, beginToParse);
      }
    }
  exit(EXIT_SUCCESS);
}


Si le source est rangé dans un fichier « findPhilolog », la compilation se fait ainsi :

gcc findPhilolog.c $DILIB_CC -o findPhilolog