Serveur d'exploration sur l'OCR : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Listes de résultats bruts)
imported>Jacques Ducloy
(Listes de résultats bruts)
Ligne 158 : Ligne 158 :
 
}}).
 
}}).
 
* '''normalisation des noms d'auteurs'''. Le wiki contient notamment une « [[Wicri:Liste de personnalités du document numérique|liste de spécialistes du document numérique]] » qui permet cette homogénéisation et ajoute une affiliation implicite. On notera une modification de l'ordre des auteurs et l'émergence de nouvelles affiliations dans le « top 15 » comme l'[[Université de Kyūshū]].
 
* '''normalisation des noms d'auteurs'''. Le wiki contient notamment une « [[Wicri:Liste de personnalités du document numérique|liste de spécialistes du document numérique]] » qui permet cette homogénéisation et ajoute une affiliation implicite. On notera une modification de l'ordre des auteurs et l'émergence de nouvelles affiliations dans le « top 15 » comme l'[[Université de Kyūshū]].
A cette occasion à portée plus large ont été menées comme l'ajout d'Universités japonaises dans une [[wicri-asie.fr:Wicri:Liste de grandes universités asiatiques|liste d'universités du wiki Asie]]. Sur ce wiki, on notera un net enrichissement de la présence du [[Japon]].
+
A cette occasion à portée plus large ont été menées comme l'ajout d'Universités japonaises dans une [[wicri-asie.fr:Wicri:Liste de grandes universités asiatiques|liste d'universités du wiki Asie]]. Sur ce wiki, on notera un net enrichissement de la présence du [[Japon]], avec souvent des liens entre les pages régions (exemple [[Préfecture de Fukuoka]]) et les serveurs.
 
}}
 
}}
 
{{Début 2 colonnes}}
 
{{Début 2 colonnes}}

Version du 2 septembre 2016 à 09:56

Cette page introduit le « Serveur d'exploration sur l'OCR ». Il contient 8131 documents.

Théorème de Pythagore Démonstration ISTEX LorExplor Wicri
Ce serveur d'exploration est mis en place pour aborder des problématiques variées liées à la reconnaissance optique de caractères.

Au départ, il s'agit de répondre à des besoins d'information dans deux contextes complémentaires d'utilisation de cette technologie :

  • En amont, à l'INIST, le département dirigé par Laurent Schmitt conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte Valérie Mahut et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données.
  • En aval, le projet LorExplor (Jacques Ducloy) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données.

Il permet également de valoriser les travaux des équipes françaises ou francophones (par exemple Abdel Belaïd) dans un cadre de coopérations internationales.

logo travaux Serveur en cours de curation,

Navigation

Logo Paris tram ligne1.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux donne accès à 6406 documents ISTEX (et 6070 après curation).
Logo Paris tram ligne2.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal / Francis

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 1227 références, dont 32 venant de Francis, et 1195 venant de Pascal.

Après curation le volume est réduit à 1200.

Logo Paris tram ligne3.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Hal Ccsd

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 170 références téléchargées de HAL. Après curation le volume est réduit à 170.
Logo Paris tram ligne4.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur les documents BibTeX du Loria (Crin)

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 15 références, Après curation le volume est réduit à 15.
Logo Paris tram ligne5.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux PubMed/Medline

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 215 références ou documents en provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 98.
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 215 références ou documents en provenance de l'archive PubMed Central. Après curation le volume est réduit à 215.
Logo Paris tram ligne7.svg
Logo Paris tram ligne5.svg
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 313 références, Après curation le volume est réduit à 294.
Logo Paris tram ligne8.svg
Flux principal
Logo Paris tram ligne1.svg
Logo Paris tram ligne2.svg
Logo Paris tram ligne3.svg
Logo Paris tram ligne4.svg
Logo Paris tram ligne7.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux de convergence qui donne accès au serveur

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux fusionne 7 749 références issues des étapes précédentes.

Ce volume est ramené à 7 736 après dédoublonnage par DOI. Enfin, il est réduit à 7 533 par clé de dédoublonnage IDAT.

Zoom France

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 435 références ayant au moins un auteur avec une affiliation française.
Zoom UK

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 503 références ayant au moins un auteur avec une affiliation du Royaume-Uni.
Zoom USA

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 1844 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique.
Zoom Allemagne

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 420 références ayant au moins un auteur avec une affiliation allemande.

Projections géographiques

logo travaux La curation des données est encore très faible sur ce corpus. Dans cet état les projections graphiques servent souvent à repérer des actions de curation (par exemple si une région est très active dans un domaine médical où le sigle OCR repère une spécialité thérapeutique).
 

Aspects techniques

Paramétrage

Curation

Résultats et investigations

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Exemples de curation de données
Cette section montre deux séries de résultats obtenus sur deux versions du serveur. Le corpus traité est le même dans les 2 cas.

Listes de résultats bruts

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Règles de curation spécifiques
Une amélioration de la pertinence des listes a été obtenues par deux mécanismes différents.

A cette occasion à portée plus large ont été menées comme l'ajout d'Universités japonaises dans une liste d'universités du wiki Asie. Sur ce wiki, on notera un net enrichissement de la présence du Japon, avec souvent des liens entre les pages régions (exemple Préfecture de Fukuoka) et les serveurs.

Auteurs
  1. Abdel Belaïd (53)
  2. Bidyut Baran Chaudhuri (22)
  3. Masakazu Suzuki (mathématicien) (21)
  4. Venugopal Govindaraju (20)
  5. George Nagy (informaticien) (20)
  6. David Doermann (17)
  7. Kuo-Chin Fan (16)
  8. Jean-Marc Ogier (15)
  9. Kazuhiko Yamamoto (informaticien) (14)
  10. Azriel Rosenfeld (14)
  11. Thierry Paquet (13)
  12. Kazem Taghva (13)
  13. Dov Dori (13)
  14. Nicolas Ragot (12)
  15. Lim Tan (12)
 
Affiliations
  1. Université de Lorraine (62)
  2. Université du Maryland (44)
  3. Université Nancy 2 (35)
  4. Université nationale de Singapour (34)
  5. Institut national polytechnique de Lorraine (32)
  6. Université de Kyūshū (28)
  7. Université de Toronto (26)
  8. Laboratoire lorrain de recherche en informatique et ses applications (26)
  9. Centre national de la recherche scientifique (26)
  10. Université Carnegie-Mellon (25)
  11. Université d'État de New York à Buffalo (24)
  12. Institut national de recherche en informatique et en automatique (24)
  13. Université de Rouen (23)
  14. Institut indien de statistiques (22)
  15. Université de Washington (21)
Pays
  1. États-Unis (1844)
  2. Royaume-Uni (503)
  3. France (435)
  4. Allemagne (420)
  5. Japon (355)
  6. République populaire de Chine (299)
  7. Canada (255)
  8. Italie (235)
  9. Inde (174)
  10. Australie (151)
  11. Espagne (145)
  12. Corée du Sud (127)
  13. Pays-Bas (125)
  14. Suisse (109)
  15. Russie (82)
 
Régions
  1. Californie (258)
  2. État de New York (218)
  3. Angleterre (170)
  4. Massachusetts (133)
  5. Maryland (123)
  6. Pennsylvanie (113)
  7. Île-de-France (81)
  8. Bade-Wurtemberg (68)
  9. Texas (63)
  10. New Jersey (63)
  11. Lorraine (63)
  12. Illinois (63)
  13. Washington (État) (62)
  14. Michigan (62)
  15. Ohio (61)
 
Villes
  1. Pékin (85)
  2. Tokyo (77)
  3. Nancy (66)
  4. Séoul (52)
  5. College Park (Maryland) (44)
  6. Londres (42)
  7. Paris (37)
  8. Munich (34)
  9. Moscou (32)
  10. Pittsburgh (30)
  11. Fukuoka (28)
  12. Berlin (28)
  13. Toronto (26)
  14. Buffalo (New York) (24)
  15. Rennes (22)
Mots-clés originaux
  1. Optical character recognition (542)
  2. Character recognition (452)
  3. Pattern recognition (323)
  4. Image processing (196)
  5. Text (104)
  6. Segmentation (95)
  7. Performance evaluation (82)
  8. Information retrieval (82)
  9. Algorithm (81)
  10. Document processing (79)
  11. Document analysis (75)
  12. Digitizing (73)
  13. Neural network (71)
  14. Manuscript character (71)
  15. Classification (70)
 
Mots du titre
  1. recognition (476)
  2. document (321)
  3. text (294)
  4. ocr (290)
  5. system (263)
  6. analysis (220)
  7. character (219)
  8. image (205)
  9. information (193)
  10. images (189)
  11. documents (183)
  12. digital (160)
  13. data (150)
  14. extraction (148)
  15. method (132)
 
ISSN/revue
  1. Lecture Notes in Computer Science (1325)
  2. Pattern recognition (revue) (241)
  3. SPIE proceedings series (110)
  4. Pattern recognition letters (81)
  5. Computer Communications (69)
  6. Library Hi Tech (66)
  7. The Electronic Library (63)
  8. International journal on document analysis and recognition (59)
  9. The BMJ (54)
  10. SPIE proceedings series (53)
  11. Microform and Imaging Review (52)
  12. Literary and linguistic computing (47)
  13. Program (revue) (45)
  14. Image and Vision Computing (43)
  15. Syst. Comp. Jpn. (40)
Sur le Zoom France
Auteurs
  1. Abdel Belaïd (52)
  2. Jean-Marc Ogier (15)
  3. Thierry Paquet (13)
  4. Nicolas Ragot (12)
  5. Christophe Garcia (9)
  6. Antoine Doucet (9)
  7. Rémy Mullot (8)
  8. Nibal Nayef (8)
  9. Hubert Emptoz (8)
  10. Gabriella Kazai (8)
  11. Yves Rangoni (7)
  12. Yves Lecourtier (7)
  13. Mathieu Andro (7)
  14. Khaoula Elagouni (7)
  15. Karl Tombre (7)
 
Affiliations
  1. Université de Lorraine (62)
  2. Université Nancy 2 (35)
  3. Institut national polytechnique de Lorraine (32)
  4. Laboratoire lorrain de recherche en informatique et ses applications (26)
  5. Centre national de la recherche scientifique (26)
  6. Institut national de recherche en informatique et en automatique (24)
  7. Université de Rouen (23)
  8. Université de La Rochelle (17)
  9. Centre Val de Loire Université (17)
  10. Université François-Rabelais de Tours (16)
  11. Université de Rennes 1 (13)
  12. Université européenne de Bretagne (11)
  13. Université de Lyon (10)
  14. Université Claude Bernard Lyon 1 (9)
  15. Université Joseph Fourier (8)
 
Pays
  1. France (435)
  2. États-Unis (31)
  3. Suisse (11)
  4. Espagne (10)
  5. Allemagne (10)
  6. Royaume-Uni (8)
  7. Pays-Bas (8)
  8. Tunisie (6)
  9. Canada (6)
  10. République populaire de Chine (5)
  11. Italie (5)
  12. Belgique (5)
  13. Viêt Nam (4)
  14. Inde (4)
  15. Grèce (4)

Liste de résultats bruts

Ces résultats ont été obtenus sur un corpus où l'on a appliqué des règles de curation préalablement élaborées sur d'autres corpus.

Auteurs
  1. Abdel Belaïd (53)
  2. Masakazu Suzuki (18)
  3. Kuo-Chin Fan (16)
  4. Jean-Marc Ogier (15)
  5. Kazuhiko Yamamoto (14)
  6. Azriel Rosenfeld (14)
  7. Thierry Paquet (13)
  8. Kazem Taghva (13)
  9. Dov Dori (13)
  10. B. B. Chaudhuri (13)
  11. Venu Govindaraju (12)
  12. Nicolas Ragot (12)
  13. Lim Tan (12)
  14. George Nagy (12)
  15. David Doermann (12)
 
Affiliations
  1. Université de Lorraine (62)
  2. Université Nancy 2 (35)
  3. Université nationale de Singapour (32)
  4. Institut national polytechnique de Lorraine (32)
  5. Université de Toronto (26)
  6. Université Carnegie-Mellon (25)
  7. Laboratoire lorrain de recherche en informatique et ses applications (25)
  8. Centre national de la recherche scientifique (25)
  9. Institut national de recherche en informatique et en automatique (24)
  10. Université de Rouen (23)
  11. Université de Washington (21)
  12. Université de La Rochelle (17)
  13. Université de Birmingham (17)
  14. Centre Val de Loire Université (17)
  15. Université Louis-et-Maximilien de Munich (16)
Pays
  1. États-Unis (1833)
  2. Royaume-Uni (496)
  3. France (425)
  4. Allemagne (405)
  5. Japon (346)
  6. République populaire de Chine (296)
  7. Canada (242)
  8. Italie (228)
  9. Inde (167)
  10. Australie (160)
  11. Espagne (143)
  12. Corée du Sud (126)
  13. Pays-Bas (118)
  14. Suisse (103)
  15. Taïwan (79)
 
Régions
  1. Californie (256)
  2. État de New York (202)
  3. Angleterre (165)
  4. Massachusetts (131)
  5. Pennsylvanie (111)
  6. Maryland (107)
  7. Île-de-France (79)
  8. Bade-Wurtemberg (64)
  9. Texas (63)
  10. New Jersey (63)
  11. Lorraine (63)
  12. Illinois (63)
  13. Washington (État) (61)
  14. Ohio (59)
  15. Michigan (59)
 
Villes
  1. Pékin (85)
  2. Tokyo (76)
  3. Nancy (66)
  4. Séoul (52)
  5. Londres (40)
  6. Paris (37)
  7. Munich (35)
  8. Moscou (32)
  9. Pittsburgh (29)
  10. Berlin (28)
  11. Toronto (26)
  12. Seattle (21)
  13. Rennes (21)
  14. Kaiserslautern (21)
  15. Vienne (Autriche) (19)
Mots-clés originaux
  1. Optical character recognition (542)
  2. Character recognition (452)
  3. Pattern recognition (323)
  4. Image processing (197)
  5. Text (104)
  6. Segmentation (95)
  7. Performance evaluation (82)
  8. Information retrieval (82)
  9. Algorithm (81)
  10. Document processing (79)
  11. Document analysis (75)
  12. Digitizing (73)
  13. Neural network (71)
  14. Manuscript character (71)
  15. Classification (71)
 
Mots du titre
  1. recognition (476)
  2. document (321)
  3. text (294)
  4. ocr (291)
  5. system (264)
  6. analysis (223)
  7. character (219)
  8. image (205)
  9. information (193)
  10. images (189)
  11. documents (183)
  12. digital (160)
  13. data (154)
  14. extraction (148)
  15. model (137)
 
ISSN/revue
  1. Lecture Notes in Computer Science (1325)
  2. Pattern recognition (revue) (241)
  3. 1017-2653 (110)
  4. J. Geophys. Res. (92)
  5. 2156-2202 (92)
  6. 0148-0227 (92)
  7. 0167-8655 (81)
  8. PATREC (74)
  9. RMMSZZ (72)
  10. 0148-9062 (72)
  11. COMCOM (69)
  12. 0140-3664 (69)
  13. 0737-8831 (66)
  14. J. Am. Soc. Inf. Sci. (63)
  15. 0264-0473 (63)

A faire : test indexation

Construction d'une table d'indexation

Requêtes d'approfondissement

  • Evaluation de la qualité d’un document,
  • Tokenisation,
  • Méthode par dictionnaire pour mesurer la qualité d’un document

Voir aussi

Dans le réseau Wicri :

La page de référence « Serveur d'exploration sur l'OCR » est sur le wiki Wicri/Ticri. Ce serveur est également visible sur Wicri/Informatique.