Serveur d'exploration sur l'OCR : Différence entre versions

De CIDE
imported>Jacques Ducloy
(A faire : test indexation)
imported>Jacques Ducloy
(Navigation)
 
(8 révisions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
 +
{{Wicri travaux
 +
|texte=Attention, l'interface de navigation a été mis à niveau avec la version V0.6.32 de DILIB. En revanche les données sont plus anciennes. Des incohérences sont possibles
 +
}}
 
Cette page introduit le « [[Serveur d'exploration]] sur [[Reconnaissance optique de caractères|l'OCR]] ».
 
Cette page introduit le « [[Serveur d'exploration]] sur [[Reconnaissance optique de caractères|l'OCR]] ».
 
Il contient [[A pour volumétrie (serveur d'exploration)::{{OcrV1, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents.
 
Il contient [[A pour volumétrie (serveur d'exploration)::{{OcrV1, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents.
Ligne 142 : Ligne 145 :
  
 
==Résultats et investigations==
 
==Résultats et investigations==
{{Wicri tp|titre=Exemples de curation de données
 
|texte=Cette section montre deux séries de résultats obtenus sur deux versions du serveur. Le corpus traité est le même dans les 2 cas.
 
}}
 
 
===Listes de résultats bruts===
 
===Listes de résultats bruts===
 
Cette liste correspond à la version actuelle du serveur.
 
Cette liste correspond à la version actuelle du serveur.
Ligne 208 : Ligne 208 :
 
{{OcrV1, include|section=paysFrance}}
 
{{OcrV1, include|section=paysFrance}}
 
{{Fin 3 colonnes}}
 
{{Fin 3 colonnes}}
 
+
{{Wicri tp|titre=Pour voir les effets des mécanismes de curation
 +
|texte=Une version initiale de ce paragraphe est visible sur la page :
 +
* [[Serveur d'exploration sur l'OCR/Archive]]
 +
}}
 
===A faire===
 
===A faire===
 
;test indexation:Construction d'une table d'indexation
 
;test indexation:Construction d'une table d'indexation
 
+
:Requêtes d'approfondissement:
===Requêtes d'approfondissement===
 
 
*Evaluation de la qualité d’un document,
 
*Evaluation de la qualité d’un document,
 
*Tokenisation,
 
*Tokenisation,

Version actuelle datée du 13 novembre 2017 à 19:47

logo travaux Attention, l'interface de navigation a été mis à niveau avec la version V0.6.32 de DILIB. En revanche les données sont plus anciennes. Des incohérences sont possibles

Cette page introduit le « Serveur d'exploration sur l'OCR ». Il contient 8131 documents.

Théorème de Pythagore Démonstration ISTEX LorExplor Wicri
Ce serveur d'exploration aborde des problématiques variées liées à la reconnaissance optique de caractères, et plus précisément :
  • En amont, à l'INIST, le département dirigé par Laurent Schmitt conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte Valérie Mahut et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données.
  • En aval, le projet LorExplor (Jacques Ducloy) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données.

Il permet également de valoriser les travaux des équipes françaises ou francophones (par exemple Abdel Belaïd) dans un cadre de coopérations internationales.

Navigation

Logo Paris tram ligne1.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux donne accès à 6406 documents ISTEX (et 6070 après curation).
Logo Paris tram ligne2.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal / Francis

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 1227 références, dont 32 venant de Francis, et 1195 venant de Pascal.

Après curation le volume est réduit à 1200.

Logo Paris tram ligne3.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Hal Ccsd

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 170 références téléchargées de HAL. Après curation le volume est réduit à 170.
Logo Paris tram ligne4.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur les documents BibTeX du Loria (Crin)

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 15 références, Après curation le volume est réduit à 15.
Logo Paris tram ligne5.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux PubMed/Medline

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 215 références ou documents en provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 98.
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 215 références ou documents en provenance de l'archive PubMed Central. Après curation le volume est réduit à 215.
Logo Paris tram ligne7.svg
Logo Paris tram ligne5.svg
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 313 références, Après curation le volume est réduit à 294.
Logo Paris tram ligne8.svg
Flux principal
Logo Paris tram ligne1.svg
Logo Paris tram ligne2.svg
Logo Paris tram ligne3.svg
Logo Paris tram ligne4.svg
Logo Paris tram ligne7.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux de convergence qui donne accès au serveur

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux fusionne 7 749 références issues des étapes précédentes.

Ce volume est ramené à 7 736 après dédoublonnage par DOI. Enfin, il est réduit à 7 533 par clé de dédoublonnage IDAT.

Zoom France

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 435 références ayant au moins un auteur avec une affiliation française.
Zoom UK

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 503 références ayant au moins un auteur avec une affiliation du Royaume-Uni.
Zoom USA

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 1844 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique.
Zoom Allemagne

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 420 références ayant au moins un auteur avec une affiliation allemande.

Projections géographiques

logo travaux La curation des données est encore très faible sur ce corpus. Dans cet état les projections graphiques servent souvent à repérer des actions de curation (par exemple si une région est très active dans un domaine médical où le sigle OCR repère une spécialité thérapeutique).
 

Aspects techniques

Paramétrage

Curation

Résultats et investigations

Listes de résultats bruts

Cette liste correspond à la version actuelle du serveur.

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Règles de curation spécifiques
Une amélioration de la pertinence des listes a été obtenues par deux mécanismes différents.

A cette occasion à portée plus large ont été menées comme l'ajout d'Universités japonaises dans une liste d'universités du wiki Asie. Sur ce wiki, on notera un net enrichissement de la présence du Japon, avec souvent des liens entre les pages régions (exemple Préfecture de Fukuoka) et les serveurs.

Auteurs
  1. Abdel Belaïd (53)
  2. Bidyut Baran Chaudhuri (22)
  3. Masakazu Suzuki (mathématicien) (21)
  4. Venugopal Govindaraju (20)
  5. George Nagy (informaticien) (20)
  6. David Doermann (17)
  7. Kuo-Chin Fan (16)
  8. Jean-Marc Ogier (15)
  9. Kazuhiko Yamamoto (informaticien) (14)
  10. Azriel Rosenfeld (14)
  11. Thierry Paquet (13)
  12. Kazem Taghva (13)
  13. Dov Dori (13)
  14. Nicolas Ragot (12)
  15. Lim Tan (12)
 
Affiliations
  1. Université de Lorraine (62)
  2. Université du Maryland (44)
  3. Université Nancy 2 (35)
  4. Université nationale de Singapour (34)
  5. Institut national polytechnique de Lorraine (32)
  6. Université de Kyūshū (28)
  7. Université de Toronto (26)
  8. Laboratoire lorrain de recherche en informatique et ses applications (26)
  9. Centre national de la recherche scientifique (26)
  10. Université Carnegie-Mellon (25)
  11. Université d'État de New York à Buffalo (24)
  12. Institut national de recherche en informatique et en automatique (24)
  13. Université de Rouen (23)
  14. Institut indien de statistiques (22)
  15. Université de Washington (21)
Pays
  1. États-Unis (1844)
  2. Royaume-Uni (503)
  3. France (435)
  4. Allemagne (420)
  5. Japon (355)
  6. République populaire de Chine (299)
  7. Canada (255)
  8. Italie (235)
  9. Inde (174)
  10. Australie (151)
  11. Espagne (145)
  12. Corée du Sud (127)
  13. Pays-Bas (125)
  14. Suisse (109)
  15. Russie (82)
 
Régions
  1. Californie (258)
  2. État de New York (218)
  3. Angleterre (170)
  4. Massachusetts (133)
  5. Maryland (123)
  6. Pennsylvanie (113)
  7. Île-de-France (81)
  8. Bade-Wurtemberg (68)
  9. Texas (63)
  10. New Jersey (63)
  11. Lorraine (63)
  12. Illinois (63)
  13. Washington (État) (62)
  14. Michigan (62)
  15. Ohio (61)
 
Villes
  1. Pékin (85)
  2. Tokyo (77)
  3. Nancy (66)
  4. Séoul (52)
  5. College Park (Maryland) (44)
  6. Londres (42)
  7. Paris (37)
  8. Munich (34)
  9. Moscou (32)
  10. Pittsburgh (30)
  11. Fukuoka (28)
  12. Berlin (28)
  13. Toronto (26)
  14. Buffalo (New York) (24)
  15. Rennes (22)
Mots-clés originaux
  1. Optical character recognition (542)
  2. Character recognition (452)
  3. Pattern recognition (323)
  4. Image processing (196)
  5. Text (104)
  6. Segmentation (95)
  7. Performance evaluation (82)
  8. Information retrieval (82)
  9. Algorithm (81)
  10. Document processing (79)
  11. Document analysis (75)
  12. Digitizing (73)
  13. Neural network (71)
  14. Manuscript character (71)
  15. Classification (70)
 
Mots du titre
  1. recognition (476)
  2. document (321)
  3. text (294)
  4. ocr (290)
  5. system (263)
  6. analysis (220)
  7. character (219)
  8. image (205)
  9. information (193)
  10. images (189)
  11. documents (183)
  12. digital (160)
  13. data (150)
  14. extraction (148)
  15. method (132)
 
ISSN/revue
  1. Lecture Notes in Computer Science (1325)
  2. Pattern recognition (revue) (241)
  3. SPIE proceedings series (110)
  4. Pattern recognition letters (81)
  5. Computer Communications (69)
  6. Library Hi Tech (66)
  7. The Electronic Library (63)
  8. International journal on document analysis and recognition (59)
  9. The BMJ (54)
  10. SPIE proceedings series (53)
  11. Microform and Imaging Review (52)
  12. Literary and linguistic computing (47)
  13. Program (revue) (45)
  14. Image and Vision Computing (43)
  15. Syst. Comp. Jpn. (40)
Sur le Zoom France
Auteurs
  1. Abdel Belaïd (52)
  2. Jean-Marc Ogier (15)
  3. Thierry Paquet (13)
  4. Nicolas Ragot (12)
  5. Christophe Garcia (9)
  6. Antoine Doucet (9)
  7. Rémy Mullot (8)
  8. Nibal Nayef (8)
  9. Hubert Emptoz (8)
  10. Gabriella Kazai (8)
  11. Yves Rangoni (7)
  12. Yves Lecourtier (7)
  13. Mathieu Andro (7)
  14. Khaoula Elagouni (7)
  15. Karl Tombre (7)
 
Affiliations
  1. Université de Lorraine (62)
  2. Université Nancy 2 (35)
  3. Institut national polytechnique de Lorraine (32)
  4. Laboratoire lorrain de recherche en informatique et ses applications (26)
  5. Centre national de la recherche scientifique (26)
  6. Institut national de recherche en informatique et en automatique (24)
  7. Université de Rouen (23)
  8. Université de La Rochelle (17)
  9. Centre Val de Loire Université (17)
  10. Université François-Rabelais de Tours (16)
  11. Université de Rennes 1 (13)
  12. Université européenne de Bretagne (11)
  13. Université de Lyon (10)
  14. Université Claude Bernard Lyon 1 (9)
  15. Université Joseph Fourier (8)
 
Pays
  1. France (435)
  2. États-Unis (31)
  3. Suisse (11)
  4. Espagne (10)
  5. Allemagne (10)
  6. Royaume-Uni (8)
  7. Pays-Bas (8)
  8. Tunisie (6)
  9. Canada (6)
  10. République populaire de Chine (5)
  11. Italie (5)
  12. Belgique (5)
  13. Viêt Nam (4)
  14. Inde (4)
  15. Grèce (4)
Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Pour voir les effets des mécanismes de curation
Une version initiale de ce paragraphe est visible sur la page :

A faire

test indexation
Construction d'une table d'indexation
Requêtes d'approfondissement:
  • Evaluation de la qualité d’un document,
  • Tokenisation,
  • Méthode par dictionnaire pour mesurer la qualité d’un document

Voir aussi

Sur ce wiki
Dans le réseau Wicri :

La page de référence « Serveur d'exploration sur l'OCR » est sur le wiki Wicri/Ticri. Ce serveur est également visible sur Wicri/Informatique.