Serveur d'exploration sur l'OCR

De CIDE
Révision datée du 28 août 2016 à 07:46 par imported>Jacques Ducloy (Curation)

Cette page introduit le « Serveur d'exploration sur l'OCR ». Il contient 8131 documents.

Théorème de Pythagore Démonstration ISTEX LorExplor Wicri
Ce serveur d'exploration est mis en place pour aborder des problématiques variées liées à la reconnaissance optique de caractères.

Au départ, il s'agit de répondre à des besoins d'information dans deux contextes complémentaires d'utilisation de cette technologie :

  • En amont, à l'INIST, le département dirigé par Laurent Schmitt conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte Valérie Mahut et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données.
  • En aval, le projet LorExplor (Jacques Ducloy) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données.

Il permet également de valoriser les travaux des équipes françaises ou francophones (par exemple Abdel Belaïd) dans un cadre de coopérations internationales.

logo travaux Serveur en cours de curation, créé avec des outils en cours de développement

Navigation

Logo Paris tram ligne1.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux donne accès à 6406 documents ISTEX (et 6070 après curation).
Logo Paris tram ligne2.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal / Francis

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 1227 références, dont 32 venant de Francis, et 1195 venant de Pascal.

Après curation le volume est réduit à 1200.

Logo Paris tram ligne3.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Hal Ccsd

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 170 références téléchargées de HAL. Après curation le volume est réduit à 170.
Logo Paris tram ligne4.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur les documents BibTeX du Loria (Crin)

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 15 références, Après curation le volume est réduit à 15.
Logo Paris tram ligne5.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux PubMed/Medline

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 215 références ou documents en provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 98.
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 215 références ou documents en provenance de l'archive PubMed Central. Après curation le volume est réduit à 215.
Logo Paris tram ligne7.svg
Logo Paris tram ligne5.svg
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 313 références, Après curation le volume est réduit à 294.
Logo Paris tram ligne8.svg
Flux principal
Logo Paris tram ligne1.svg
Logo Paris tram ligne2.svg
Logo Paris tram ligne3.svg
Logo Paris tram ligne4.svg
Logo Paris tram ligne7.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux de convergence qui donne accès au serveur

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux fusionne 7 749 références issues des étapes précédentes.

Ce volume est ramené à 7 736 après dédoublonnage par DOI. Enfin, il est réduit à 7 533 par clé de dédoublonnage IDAT.

Zoom France

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 435 références ayant au moins un auteur avec une affiliation française.
Zoom UK

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 503 références ayant au moins un auteur avec une affiliation du Royaume-Uni.
Zoom USA

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 1844 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique.
Zoom Allemagne

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 420 références ayant au moins un auteur avec une affiliation allemande.

Projections géographiques

logo travaux La curation des données est encore très faible sur ce corpus. Dans cet état les projections graphiques servent souvent à repérer des actions de curation (par exemple si une région est très active dans un domaine médical où le sigle OCR repère une spécialité thérapeutique).
 

Aspects techniques

Paramétrage

Curation

Résultats et investigations

Listes de résultats bruts

Test modèle de construction de listes

Attention ces données sont élaborées à partir d'un corpus qui n'a reçu aucune curation spécifique

  1. États-Unis (1844)
  2. Royaume-Uni (503)
  3. France (435)
  4. Allemagne (420)
  5. Japon (355)
  6. République populaire de Chine (299)
  7. Canada (255)
  8. Italie (235)
  9. Inde (174)
  10. Australie (151)
  11. Espagne (145)
  12. Corée du Sud (127)
  13. Pays-Bas (125)
  14. Suisse (109)
  15. Russie (82)
 
  1. Abdel Belaïd (53)
  2. Bidyut Baran Chaudhuri (22)
  3. Masakazu Suzuki (mathématicien) (21)
  4. Venugopal Govindaraju (20)
  5. George Nagy (informaticien) (20)
  6. David Doermann (17)
  7. Kuo-Chin Fan (16)
  8. Jean-Marc Ogier (15)
  9. Kazuhiko Yamamoto (informaticien) (14)
  10. Azriel Rosenfeld (14)
  11. Thierry Paquet (13)
  12. Kazem Taghva (13)
  13. Dov Dori (13)
  14. Nicolas Ragot (12)
  15. Lim Tan (12)
  1. Université de Lorraine (62)
  2. Université du Maryland (44)
  3. Université Nancy 2 (35)
  4. Université nationale de Singapour (34)
  5. Institut national polytechnique de Lorraine (32)
  6. Université de Kyūshū (28)
  7. Université de Toronto (26)
  8. Laboratoire lorrain de recherche en informatique et ses applications (26)
  9. Centre national de la recherche scientifique (26)
  10. Université Carnegie-Mellon (25)
  11. Université d'État de New York à Buffalo (24)
  12. Institut national de recherche en informatique et en automatique (24)
  13. Université de Rouen (23)
  14. Institut indien de statistiques (22)
  15. Université de Washington (21)
 
  1. Pékin (85)
  2. Tokyo (77)
  3. Nancy (66)
  4. Séoul (52)
  5. College Park (Maryland) (44)
  6. Londres (42)
  7. Paris (37)
  8. Munich (34)
  9. Moscou (32)
  10. Pittsburgh (30)
  11. Fukuoka (28)
  12. Berlin (28)
  13. Toronto (26)
  14. Buffalo (New York) (24)
  15. Rennes (22)
En France
  1. Abdel Belaïd (52)
  2. Jean-Marc Ogier (15)
  3. Thierry Paquet (13)
  4. Nicolas Ragot (12)
  5. Christophe Garcia (9)
  6. Antoine Doucet (9)
  7. Rémy Mullot (8)
  8. Nibal Nayef (8)
  9. Hubert Emptoz (8)
  10. Gabriella Kazai (8)
  11. Yves Rangoni (7)
  12. Yves Lecourtier (7)
  13. Mathieu Andro (7)
  14. Khaoula Elagouni (7)
  15. Karl Tombre (7)
Test indexation

Construction d'une table d'indexation

Requêtes d'approfondissement

  • Evaluation de la qualité d’un document,
  • Tokenisation,
  • Méthode par dictionnaire pour mesurer la qualité d’un document

Voir aussi

Dans le réseau Wicri :

La page de référence « Serveur d'exploration sur l'OCR » est sur le wiki Wicri/Ticri. Ce serveur est également visible sur Wicri/Informatique.