Serveur d'exploration sur l'OCR : Différence entre versions

De CIDE
imported>Jacques Ducloy
(Résultats et investigations)
imported>Jacques Ducloy
(Navigation)
 
(30 révisions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
 +
{{Wicri travaux
 +
|texte=Attention, l'interface de navigation a été mis à niveau avec la version V0.6.32 de DILIB. En revanche les données sont plus anciennes. Des incohérences sont possibles
 +
}}
 
Cette page introduit le « [[Serveur d'exploration]] sur [[Reconnaissance optique de caractères|l'OCR]] ».
 
Cette page introduit le « [[Serveur d'exploration]] sur [[Reconnaissance optique de caractères|l'OCR]] ».
 
Il contient [[A pour volumétrie (serveur d'exploration)::{{OcrV1, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents.
 
Il contient [[A pour volumétrie (serveur d'exploration)::{{OcrV1, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents.
 
{{Wicri démonstration
 
{{Wicri démonstration
 
  |titre=Démonstration ISTEX LorExplor Wicri
 
  |titre=Démonstration ISTEX LorExplor Wicri
  |texte=Ce [[serveur d'exploration]] est mis en place pour aborder des problématiques variées liées à la [[reconnaissance optique de caractères]].
+
  |texte=Ce [[serveur d'exploration]] aborde des problématiques variées liées à la [[reconnaissance optique de caractères]], et plus précisément :
 
 
Au départ, il s'agit de répondre à des besoins d'information dans deux contextes complémentaires d'utilisation de cette technologie :
 
 
* En amont, à l'INIST, le département dirigé par [[Laurent Schmitt]] conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte [[Valérie Mahut]] et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données.
 
* En amont, à l'INIST, le département dirigé par [[Laurent Schmitt]] conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte [[Valérie Mahut]] et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données.
 
* En aval, le projet LorExplor ([[Jacques Ducloy]]) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données.
 
* En aval, le projet LorExplor ([[Jacques Ducloy]]) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données.
Ligne 11 : Ligne 12 :
 
Il permet également de valoriser les travaux des équipes françaises ou francophones (par exemple [[Abdel Belaïd]]) dans un cadre de coopérations internationales.
 
Il permet également de valoriser les travaux des équipes françaises ou francophones (par exemple [[Abdel Belaïd]]) dans un cadre de coopérations internationales.
 
}}
 
}}
 
+
<!--
{{Wicri travaux|texte=Serveur en cours de curation,
+
{{Wicri travaux
 +
|texte=Serveur en cours de ré-génération ; incohérences possibles
 
}}
 
}}
 +
-->
 
==Navigation==
 
==Navigation==
 
{| class="wikitable"
 
{| class="wikitable"
Ligne 142 : Ligne 145 :
  
 
==Résultats et investigations==
 
==Résultats et investigations==
{{Wicri tp|titre=Exemples de curation de données
 
|texte=Cette section montre deux séries de résultats obtenus sur deux versions du serveur. Le corpus traité est le même dans les 2 cas.
 
}}
 
 
===Listes de résultats bruts===
 
===Listes de résultats bruts===
 +
Cette liste correspond à la version actuelle du serveur.
 
{{Wicri tp|titre=Règles de curation spécifiques
 
{{Wicri tp|titre=Règles de curation spécifiques
 
  |texte=Une amélioration de la pertinence des listes a été obtenues par deux mécanismes différents.
 
  |texte=Une amélioration de la pertinence des listes a été obtenues par deux mécanismes différents.
 +
* '''élimination de revues''', avec notamment le « ''Journal of Geophysical Research: Oceans'' (ISSN 0148-0227) » où il est question de l' « ''Oregon Coast Range'' « (Chaîne côtière de l'Oregon), (voir sur par exemple {{Explor lien
 +
  |wiki=    Ticri/CIDE
 +
  |area=    OcrV1
 +
  |flux=    Istex
 +
  |étape=  Corpus
 +
  |type=    RBID
 +
  |clé=    ISTEX:42F66A3AE6097610532C602767F36846BA88A9BD
 +
  |texte=  Vegetation‐modulated landscape evolution: Effects of vegetation on landscape processes, drainage density, and topography
 +
}}). Il est cependant possible d'accéder à cette revue, mais dans l'étape « corpus ISTEX » de la plateforme de curation, (voir {{Explor lien
 +
  |wiki=    Ticri/CIDE
 +
  |area=    OcrV1
 +
  |flux=    Istex
 +
  |étape=  Corpus
 +
  |type=    indexItem
 +
  |index=    ISSN.i
 +
  |clé=    2156-2202
 +
  |texte=2156-2202
 +
}})
 +
* '''normalisation des noms d'auteurs'''. Le wiki contient notamment une « [[Wicri:Liste de personnalités du document numérique|liste de spécialistes du document numérique]] » qui permet cette homogénéisation et ajoute une affiliation implicite. On notera une modification de l'ordre des auteurs et l'émergence de nouvelles affiliations dans le « top 15 » comme l'[[Université de Kyūshū]].
 +
A cette occasion à portée plus large ont été menées comme l'ajout d'Universités japonaises dans une [[wicri-asie.fr:Wicri:Liste de grandes universités asiatiques|liste d'universités du wiki Asie]]. Sur ce wiki, on notera un net enrichissement de la présence du [[Japon]], avec souvent des liens entre les pages régions (exemple [[Préfecture de Fukuoka]]) et les serveurs.
 
}}
 
}}
 
{{Début 2 colonnes}}
 
{{Début 2 colonnes}}
Ligne 187 : Ligne 208 :
 
{{OcrV1, include|section=paysFrance}}
 
{{OcrV1, include|section=paysFrance}}
 
{{Fin 3 colonnes}}
 
{{Fin 3 colonnes}}
===Liste de résultats bruts===
+
{{Wicri tp|titre=Pour voir les effets des mécanismes de curation
Ces résultats ont été obtenus sur un corpus où l'on a appliqué des règles de curation préalablement élaborées sur d'autres corpus.
+
|texte=Une version initiale de ce paragraphe est visible sur la page :
{{Début 2 colonnes}}
+
* [[Serveur d'exploration sur l'OCR/Archive]]
;Auteurs:
+
}}
{{OcrV1, include V160831|section=auteurs}}
+
===A faire===
{{Saut 2 colonnes}}
+
;test indexation:Construction d'une table d'indexation
;Affiliations:
+
:Requêtes d'approfondissement:
{{OcrV1, include V160831|section=org}}
 
{{Fin 2 colonnes}}
 
{{Début 3 colonnes}}
 
;Pays:
 
{{OcrV1, include V160831|section=pays}}
 
{{Saut 3 colonnes}}
 
;Régions:
 
{{OcrV1, include V160831|section=region}}
 
{{Saut 3 colonnes}}
 
;Villes:
 
{{OcrV1, include V160831|section=ville}}
 
{{Fin 2 colonnes}}
 
{{Début 3 colonnes}}
 
;Mots-clés originaux:
 
{{OcrV1, include V160831|section=KwdEn}}
 
{{Saut 3 colonnes}}
 
;Mots du titre:
 
{{OcrV1, include V160831|section=title}}
 
{{Saut 3 colonnes}}
 
;ISSN/revue:
 
{{OcrV1, include V160831|section=ISSN}}
 
{{Fin 3 colonnes}}
 
 
 
===A faire : test indexation===
 
Construction d'une table d'indexation
 
 
 
===Requêtes d'approfondissement===
 
 
*Evaluation de la qualité d’un document,
 
*Evaluation de la qualité d’un document,
 
*Tokenisation,
 
*Tokenisation,
Ligne 226 : Ligne 220 :
  
 
==Voir aussi==
 
==Voir aussi==
 +
;Sur ce wiki:
 +
* [[Serveur d'exploration sur l'OCR/Archive]]
 
{{Wicri voir|référence=Ticri}}
 
{{Wicri voir|référence=Ticri}}
 
Ce serveur est également visible sur {{Wicri lien|wiki=Informatique}}.
 
Ce serveur est également visible sur {{Wicri lien|wiki=Informatique}}.

Version actuelle datée du 13 novembre 2017 à 20:47

logo travaux Attention, l'interface de navigation a été mis à niveau avec la version V0.6.32 de DILIB. En revanche les données sont plus anciennes. Des incohérences sont possibles

Cette page introduit le « Serveur d'exploration sur l'OCR ». Il contient 8131 documents.

Théorème de Pythagore Démonstration ISTEX LorExplor Wicri
Ce serveur d'exploration aborde des problématiques variées liées à la reconnaissance optique de caractères, et plus précisément :
  • En amont, à l'INIST, le département dirigé par Laurent Schmitt conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte Valérie Mahut et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données.
  • En aval, le projet LorExplor (Jacques Ducloy) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données.

Il permet également de valoriser les travaux des équipes françaises ou francophones (par exemple Abdel Belaïd) dans un cadre de coopérations internationales.

Navigation

Logo Paris tram ligne1.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux donne accès à 6406 documents ISTEX (et 6070 après curation).
Logo Paris tram ligne2.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal / Francis

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 1227 références, dont 32 venant de Francis, et 1195 venant de Pascal.

Après curation le volume est réduit à 1200.

Logo Paris tram ligne3.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Hal Ccsd

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 170 références téléchargées de HAL. Après curation le volume est réduit à 170.
Logo Paris tram ligne4.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur les documents BibTeX du Loria (Crin)

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 15 références, Après curation le volume est réduit à 15.
Logo Paris tram ligne5.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux PubMed/Medline

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 215 références ou documents en provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 98.
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 215 références ou documents en provenance de l'archive PubMed Central. Après curation le volume est réduit à 215.
Logo Paris tram ligne7.svg
Logo Paris tram ligne5.svg
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 313 références, Après curation le volume est réduit à 294.
Logo Paris tram ligne8.svg
Flux principal
Logo Paris tram ligne1.svg
Logo Paris tram ligne2.svg
Logo Paris tram ligne3.svg
Logo Paris tram ligne4.svg
Logo Paris tram ligne7.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux de convergence qui donne accès au serveur

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux fusionne 7 749 références issues des étapes précédentes.

Ce volume est ramené à 7 736 après dédoublonnage par DOI. Enfin, il est réduit à 7 533 par clé de dédoublonnage IDAT.

Zoom France

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 435 références ayant au moins un auteur avec une affiliation française.
Zoom UK

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 503 références ayant au moins un auteur avec une affiliation du Royaume-Uni.
Zoom USA

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 1844 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique.
Zoom Allemagne

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 420 références ayant au moins un auteur avec une affiliation allemande.

Projections géographiques

logo travaux La curation des données est encore très faible sur ce corpus. Dans cet état les projections graphiques servent souvent à repérer des actions de curation (par exemple si une région est très active dans un domaine médical où le sigle OCR repère une spécialité thérapeutique).
 

Aspects techniques

Paramétrage

Curation

Résultats et investigations

Listes de résultats bruts

Cette liste correspond à la version actuelle du serveur.

Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Règles de curation spécifiques
Une amélioration de la pertinence des listes a été obtenues par deux mécanismes différents.

A cette occasion à portée plus large ont été menées comme l'ajout d'Universités japonaises dans une liste d'universités du wiki Asie. Sur ce wiki, on notera un net enrichissement de la présence du Japon, avec souvent des liens entre les pages régions (exemple Préfecture de Fukuoka) et les serveurs.

Auteurs
  1. Abdel Belaïd (53)
  2. Bidyut Baran Chaudhuri (22)
  3. Masakazu Suzuki (mathématicien) (21)
  4. Venugopal Govindaraju (20)
  5. George Nagy (informaticien) (20)
  6. David Doermann (17)
  7. Kuo-Chin Fan (16)
  8. Jean-Marc Ogier (15)
  9. Kazuhiko Yamamoto (informaticien) (14)
  10. Azriel Rosenfeld (14)
  11. Thierry Paquet (13)
  12. Kazem Taghva (13)
  13. Dov Dori (13)
  14. Nicolas Ragot (12)
  15. Lim Tan (12)
 
Affiliations
  1. Université de Lorraine (62)
  2. Université du Maryland (44)
  3. Université Nancy 2 (35)
  4. Université nationale de Singapour (34)
  5. Institut national polytechnique de Lorraine (32)
  6. Université de Kyūshū (28)
  7. Université de Toronto (26)
  8. Laboratoire lorrain de recherche en informatique et ses applications (26)
  9. Centre national de la recherche scientifique (26)
  10. Université Carnegie-Mellon (25)
  11. Université d'État de New York à Buffalo (24)
  12. Institut national de recherche en informatique et en automatique (24)
  13. Université de Rouen (23)
  14. Institut indien de statistiques (22)
  15. Université de Washington (21)
Pays
  1. États-Unis (1844)
  2. Royaume-Uni (503)
  3. France (435)
  4. Allemagne (420)
  5. Japon (355)
  6. République populaire de Chine (299)
  7. Canada (255)
  8. Italie (235)
  9. Inde (174)
  10. Australie (151)
  11. Espagne (145)
  12. Corée du Sud (127)
  13. Pays-Bas (125)
  14. Suisse (109)
  15. Russie (82)
 
Régions
  1. Californie (258)
  2. État de New York (218)
  3. Angleterre (170)
  4. Massachusetts (133)
  5. Maryland (123)
  6. Pennsylvanie (113)
  7. Île-de-France (81)
  8. Bade-Wurtemberg (68)
  9. Texas (63)
  10. New Jersey (63)
  11. Lorraine (63)
  12. Illinois (63)
  13. Washington (État) (62)
  14. Michigan (62)
  15. Ohio (61)
 
Villes
  1. Pékin (85)
  2. Tokyo (77)
  3. Nancy (66)
  4. Séoul (52)
  5. College Park (Maryland) (44)
  6. Londres (42)
  7. Paris (37)
  8. Munich (34)
  9. Moscou (32)
  10. Pittsburgh (30)
  11. Fukuoka (28)
  12. Berlin (28)
  13. Toronto (26)
  14. Buffalo (New York) (24)
  15. Rennes (22)
Mots-clés originaux
  1. Optical character recognition (542)
  2. Character recognition (452)
  3. Pattern recognition (323)
  4. Image processing (196)
  5. Text (104)
  6. Segmentation (95)
  7. Performance evaluation (82)
  8. Information retrieval (82)
  9. Algorithm (81)
  10. Document processing (79)
  11. Document analysis (75)
  12. Digitizing (73)
  13. Neural network (71)
  14. Manuscript character (71)
  15. Classification (70)
 
Mots du titre
  1. recognition (476)
  2. document (321)
  3. text (294)
  4. ocr (290)
  5. system (263)
  6. analysis (220)
  7. character (219)
  8. image (205)
  9. information (193)
  10. images (189)
  11. documents (183)
  12. digital (160)
  13. data (150)
  14. extraction (148)
  15. method (132)
 
ISSN/revue
  1. Lecture Notes in Computer Science (1325)
  2. Pattern recognition (revue) (241)
  3. SPIE proceedings series (110)
  4. Pattern recognition letters (81)
  5. Computer Communications (69)
  6. Library Hi Tech (66)
  7. The Electronic Library (63)
  8. International journal on document analysis and recognition (59)
  9. The BMJ (54)
  10. SPIE proceedings series (53)
  11. Microform and Imaging Review (52)
  12. Literary and linguistic computing (47)
  13. Program (revue) (45)
  14. Image and Vision Computing (43)
  15. Syst. Comp. Jpn. (40)
Sur le Zoom France
Auteurs
  1. Abdel Belaïd (52)
  2. Jean-Marc Ogier (15)
  3. Thierry Paquet (13)
  4. Nicolas Ragot (12)
  5. Christophe Garcia (9)
  6. Antoine Doucet (9)
  7. Rémy Mullot (8)
  8. Nibal Nayef (8)
  9. Hubert Emptoz (8)
  10. Gabriella Kazai (8)
  11. Yves Rangoni (7)
  12. Yves Lecourtier (7)
  13. Mathieu Andro (7)
  14. Khaoula Elagouni (7)
  15. Karl Tombre (7)
 
Affiliations
  1. Université de Lorraine (62)
  2. Université Nancy 2 (35)
  3. Institut national polytechnique de Lorraine (32)
  4. Laboratoire lorrain de recherche en informatique et ses applications (26)
  5. Centre national de la recherche scientifique (26)
  6. Institut national de recherche en informatique et en automatique (24)
  7. Université de Rouen (23)
  8. Université de La Rochelle (17)
  9. Centre Val de Loire Université (17)
  10. Université François-Rabelais de Tours (16)
  11. Université de Rennes 1 (13)
  12. Université européenne de Bretagne (11)
  13. Université de Lyon (10)
  14. Université Claude Bernard Lyon 1 (9)
  15. Université Joseph Fourier (8)
 
Pays
  1. France (435)
  2. États-Unis (31)
  3. Suisse (11)
  4. Espagne (10)
  5. Allemagne (10)
  6. Royaume-Uni (8)
  7. Pays-Bas (8)
  8. Tunisie (6)
  9. Canada (6)
  10. République populaire de Chine (5)
  11. Italie (5)
  12. Belgique (5)
  13. Viêt Nam (4)
  14. Inde (4)
  15. Grèce (4)
Ce tableau de Albert Anker illustre une activité à caractère pédagogique sur une page Pour voir les effets des mécanismes de curation
Une version initiale de ce paragraphe est visible sur la page :

A faire

test indexation
Construction d'une table d'indexation
Requêtes d'approfondissement:
  • Evaluation de la qualité d’un document,
  • Tokenisation,
  • Méthode par dictionnaire pour mesurer la qualité d’un document

Voir aussi

Sur ce wiki
Dans le réseau Wicri :

La page de référence « Serveur d'exploration sur l'OCR » est sur le wiki Wicri/Ticri. Ce serveur est également visible sur Wicri/Informatique.