Discussion:Serveur d'exploration sur l'OCR

De CIDE

Contributions d'Abdel Belaïd

Dans le cadre d'un échange par courriel le 14 juin 2016

Nécessité de l'évaluation des performances des OCRs utilisés [par ISTEX]

Les éditeurs appliquent des OCRs du commerce (assez généralistes) qui cassent la structure du document et font beaucoup d'erreurs. De plus, les éditeurs fournissent le plus souvent des documents de vérité linéaires un peu éloignées des structures bidimensionnelles (paragraphes, colonnes, encadrés, tableaux...). Les techniques de rétro-conversion ont la lourde tâche de réhabiliter ces structures physique et dans une certaine mesure (logique), en faisant des alignements de chaînes pour repositionner le texte, et des corrections du contenu par étude contextuelle et statistiques sur les tics (répétition d'erreurs dans des contextes identiques) des OCRs.

En tout cas cela devient primordial pour plein de fournisseurs de documents : pour fournir des documents de qualité, il faut pouvoir évaluer leur contenu (voir leur rendu) ocrisés et afficher cette qualité à ses clients. L'évaluation peut se faire à partir d'échantillons, sur une petite base annotée manuellement ou semi-automatiquement. Cela ouvre la voie à plein de recherche sur :

L'annotation de documents et la création de vérité terrain. C'est faisable pour du texte, mais le challenge actuellement est pour les structures complexes : tableaux (multi-dimensionnels...), formules mathématiques, références bibliographiques, formulaires, etc.

  • Les techniques de comparaison de chaînes (alignement). On est aujourd'hui loin du simple diff Unix, Il y a plusieurs distances d'édition qui sont explorées.
  • Les méthodes d'alignement de surfaces (de paragraphes) quand le document de vérité n'est pas linéaire mais bi-dimensionnel (pour être le plus près du document d'origine). Il y a des méthodes n à n (par ex. Zonemap), mais cela se complique quand les zones de la vérité se chevauchent entre elles et qu'elles ont subi plusieurs erreurs de segmentation.
  • L'équipe READ travaille sur l'évaluation des OCRs pour déterminer leurs forces et leurs faiblesses. Ces informations permettront de conjuguer faiblesse de l'un et force de l'autre. Il existe actuellement deux OCRs libres (Tesseract, OCRopus) qui ont des résultats encourageants. L'idée est de fournir un logiciel personnalisable et compétitif par rapport aux logiciels payants.
  • Enfin, n'oublions pas le manuscrit ou le manuscrit-like qu'on trouve dans les documents anciens ou historiques. Pour ceux-là il faut des OCRs spécialisés type ICR (Intelligent Character Recognition) qui commencent à se répandre petit à petit.

Scripts exploratoires

Pour trouver les auteurs suisses :

HfdIndexSelect -h $EXPLOR_AREA/Data/Main/Exploration/AffPays.i           \
             -Sk "Suisse"                                                \
         | HfdSelect -Kh $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd   \
         | SgmlFast -G analytic                                          \
         | SxmlSelect -s analytic/author/name/1 -p @s1 -p @1             \
         | sort -u                                                      \
         | IndexFastBuildRec                                          \
         | SxmlSelect -g idx/f/1 -g idx/kw/1 -p @g1 -p @g2            \
         | sort -rn

Bugs

Problème sur IstexRepository pour les HfdClés 3635 à 3637.