Serveur d'exploration sur l'OCR : Différence entre versions
De CIDE
imported>Jacques Ducloy |
imported>Jacques Ducloy (→Navigation) |
||
(92 révisions intermédiaires par 3 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
− | {{Wicri | + | {{Wicri travaux |
− | + | |texte=Attention, l'interface de navigation a été mis à niveau avec la version V0.6.32 de DILIB. En revanche les données sont plus anciennes. Des incohérences sont possibles | |
− | + | }} | |
− | + | Cette page introduit le « [[Serveur d'exploration]] sur [[Reconnaissance optique de caractères|l'OCR]] ». | |
− | + | Il contient [[A pour volumétrie (serveur d'exploration)::{{OcrV1, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents. | |
− | + | {{Wicri démonstration | |
− | + | |titre=Démonstration ISTEX LorExplor Wicri | |
− | + | |texte=Ce [[serveur d'exploration]] aborde des problématiques variées liées à la [[reconnaissance optique de caractères]], et plus précisément : | |
− | + | * En amont, à l'INIST, le département dirigé par [[Laurent Schmitt]] conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte [[Valérie Mahut]] et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données. | |
− | + | * En aval, le projet LorExplor ([[Jacques Ducloy]]) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | </ | + | Il permet également de valoriser les travaux des équipes françaises ou francophones (par exemple [[Abdel Belaïd]]) dans un cadre de coopérations internationales. |
+ | }} | ||
+ | <!-- | ||
+ | {{Wicri travaux | ||
+ | |texte=Serveur en cours de ré-génération ; incohérences possibles | ||
+ | }} | ||
+ | --> | ||
+ | ==Navigation== | ||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | |||
+ | |- | ||
+ | !{{Explor icon number|n=1}} | ||
+ | |colspan=2| | ||
+ | |||
+ | {{Explor bandeau flux|type=IstexMulti|code=Istex|path=OcrV1}} | ||
+ | |Ce flux donne accès à [[A pour taille ISTEX::{{OcrV1, Explor size|stream=Istex|step=Corpus|index=biblio}}]] [[A pour base utilisée::ISTEX (corpus)|documents ISTEX]] (et {{OcrV1, Explor size|stream=Istex|step=Checkpoint|index=biblio}} après curation). | ||
+ | |- | ||
+ | !{{Explor icon number|n=2}} | ||
+ | |colspan=2| | ||
+ | |||
+ | {{Explor bandeau flux|type=Stanalyst|code=PascalFrancis|path=OcrV1}} | ||
+ | |Ce flux traite {{OcrV1, Explor size|stream=PascalFrancis|step=Corpus|index=biblio}} références, dont [[A pour taille Francis::{{OcrV1, Explor size|stream=PascalFrancis|step=Corpus|index=biblioFrancis}}]] venant de [[A pour base utilisée::Francis (base de données)|Francis]], et [[A pour taille Pascal::{{OcrV1, Explor size|stream=PascalFrancis|step=Corpus|index=biblioPascal}}]] venant de [[A pour base utilisée::Pascal (base de données)|Pascal]]. | ||
+ | Après curation le volume est réduit à {{OcrV1, Explor size|stream=PascalFrancis|step=Checkpoint|index=biblio}}. | ||
+ | |- | ||
+ | !{{Explor icon number|n=3}} | ||
+ | |colspan=2| | ||
+ | |||
+ | {{Explor bandeau flux|type=Hal|code=Hal|path=OcrV1}} | ||
+ | |Ce flux traite [[A pour taille HAL::{{OcrV1, Explor size|stream=Hal|step=Corpus|index=biblio}}]] références [[A pour base utilisée::Hyper article en ligne|téléchargées de HAL]]. Après curation le volume est réduit à {{OcrV1, Explor size|stream=Hal|step=Checkpoint|index=biblio}}. | ||
+ | |- | ||
+ | !{{Explor icon number|n=4}} | ||
+ | |colspan=2| | ||
+ | |||
+ | {{Explor bandeau flux|type=CrinMulti|code=Crin|path=OcrV1}} | ||
+ | |Ce flux traite {{OcrV1, Explor size|stream=Crin|step=Corpus|index=biblio}} références, Après curation le volume est réduit à {{OcrV1, Explor size|stream=Crin|step=Checkpoint|index=biblio}}. | ||
+ | |- | ||
+ | !{{Explor icon number|n=5}} | ||
+ | |colspan=2| | ||
+ | |||
+ | {{Explor bandeau flux|type=Medline|code=PubMed|path=OcrV1}} | ||
+ | |Ce flux traite [[A pour taille PubMed::{{OcrV1, Explor size|stream=Pmc|step=Corpus|index=biblio}}]] références ou documents en provenance de l'archive [[A pour base utilisée::PubMed (MEDLINE)]]. Après curation le volume est réduit à {{OcrV1, Explor size|stream=PubMed|step=Checkpoint|index=biblio}}. | ||
+ | |- | ||
+ | !{{Explor icon number|n=6}} | ||
+ | |colspan=2| | ||
+ | |||
+ | {{Explor bandeau flux|type=Pmc|code=Pmc|path=OcrV1}} | ||
+ | |Ce flux traite [[A pour taille PubMed Central::{{OcrV1, Explor size|stream=Pmc|step=Corpus|index=biblio}}]] références ou documents en provenance de l'archive [[A pour base utilisée::PubMed Central]]. Après curation le volume est réduit à {{OcrV1, Explor size|stream=Pmc|step=Checkpoint|index=biblio}}. | ||
+ | |- | ||
+ | !{{Explor icon number|n=7}} | ||
+ | !{{Explor icon number|n=5}}{{Explor icon number|n=6}} | ||
+ | | | ||
+ | {{Explor bandeau flux|type=Ncbi|code=Ncbi|path=OcrV1}} | ||
+ | |Ce flux traite {{OcrV1, Explor size|stream=Ncbi|step=Corpus|index=biblio}} références, Après curation le volume est réduit à {{OcrV1, Explor size|stream=Ncbi|step=Checkpoint|index=biblio}}. | ||
+ | |- | ||
+ | !{{Explor icon number|n=8}}Flux principal | ||
+ | !{{Explor icon number|n=1}}{{Explor icon number|n=2}}{{Explor icon number|n=3}}{{Explor icon number|n=4}}{{Explor icon number|n=7}} | ||
+ | |{{Explor bandeau flux|type=MainMerge|code=Main|path=OcrV1}} | ||
+ | |||
+ | |Ce flux fusionne {{formatnum:{{OcrV1, Explor size|stream=Area|step=Checkpoint|index=biblio}}}} références issues des étapes précédentes. | ||
+ | Ce volume est ramené à {{formatnum:{{OcrV1, Explor size|stream=Main|step=Merge|index=biblio}}}} après dédoublonnage par [[DOI]]. | ||
+ | Enfin, il est réduit à {{formatnum:{{OcrV1, Explor size|stream=Main|step=Exploration|index=biblio}}}} par [[clé de dédoublonnage IDAT]]. | ||
+ | |- | ||
+ | !Zoom | ||
+ | !France | ||
+ | | | ||
+ | {{Explor bandeau flux|type=zoom|code=France|path=OcrV1}} | ||
+ | |Ce flux donne accès à une bibliographie contenant {{OcrV1, Explor size|stream=France|step=Analysis|index=biblio}} références ayant au moins un auteur avec une affiliation française. | ||
+ | |- | ||
+ | !Zoom | ||
+ | !UK | ||
+ | | | ||
+ | {{Explor bandeau flux|type=zoom|code=UK|path=OcrV1}} | ||
+ | |Ce flux donne accès à une bibliographie contenant {{OcrV1, Explor size|stream=UK|step=Analysis|index=biblio}} références ayant au moins un auteur avec une affiliation du Royaume-Uni. | ||
+ | |- | ||
+ | !Zoom | ||
+ | !USA | ||
+ | | | ||
+ | {{Explor bandeau flux|type=zoom|code=USA|path=OcrV1}} | ||
+ | |Ce flux donne accès à une bibliographie contenant {{OcrV1, Explor size|stream=USA|step=Analysis|index=biblio}} références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique. | ||
+ | |- | ||
+ | !Zoom | ||
+ | !Allemagne | ||
+ | | | ||
+ | {{Explor bandeau flux|type=zoom|code=Allemagne|path=OcrV1}} | ||
+ | |Ce flux donne accès à une bibliographie contenant {{OcrV1, Explor size|stream=Allemagne|step=Analysis|index=biblio}} références ayant au moins un auteur avec une affiliation allemande. | ||
+ | |- | ||
+ | |} | ||
+ | |||
+ | ==Projections géographiques== | ||
+ | {{Wicri travaux|texte=La curation des données est encore très faible sur ce corpus. Dans cet état les projections graphiques servent souvent à repérer des actions de curation (par exemple si une région est très active dans un domaine médical où le sigle OCR repère une spécialité thérapeutique).}} | ||
+ | {{Début 2 colonnes}} | ||
+ | {{Explor plateforme OcrV1/Carte France|taille=400}} | ||
+ | {{saut 2 colonnes}} | ||
+ | {{Explor plateforme OcrV1/Carte France Regions 2016|taille=400}} | ||
+ | {{Fin 2 colonnes}} | ||
+ | {{Explor plateforme OcrV1/Carte Europe}} | ||
+ | {{Explor plateforme OcrV1/Carte Monde Europe réunie}} | ||
+ | {{boîte déroulante | ||
+ | |titre= production mondiale (détail Europe) | ||
+ | |contenu= | ||
+ | {{Explor plateforme OcrV1/Carte Monde}} | ||
+ | }} | ||
+ | |||
+ | ==Aspects techniques== | ||
+ | ===Paramétrage=== | ||
+ | *[[Wicri:OcrV1]] - ''introduction'' | ||
+ | *[[Wicri:OcrV1/Paramètres, data]] - ''génération des données'' | ||
+ | *[[Wicri:OcrV1/Paramètres, fr]] - ''génération de l'interface'' | ||
+ | *[[Wicri:OcrV1/Paramètres, génération des cartes]] - ''génération de cartes géographiques'' | ||
+ | *[[Wicri:OcrV1/Paramètres, templates size]] - ''paramétrage des modèles liés aux valeurs numériques'' | ||
+ | *[[Wicri:OcrV1/Paramètres, template include]] | ||
+ | |||
+ | ===Curation=== | ||
+ | * revues portant sur des [[OCR (homonymie)|homonymies de OCR]] : {{Explor lien | ||
+ | |wiki= Ticri/CIDE | ||
+ | |area= OcrV1 | ||
+ | |flux= Istex | ||
+ | |étape= Corpus | ||
+ | |type= indexItem | ||
+ | |index= ISSN.i | ||
+ | |clé= 0023-852X | ||
+ | |texte=The Laryngoscope (ISSN : 0023-852X) | ||
+ | }} | ||
+ | * dans les articles de la revue [[Lecture Notes in Physics]], par exemple : ({{Explor lien | ||
+ | |wiki= Ticri/CIDE | ||
+ | |area= OcrV1 | ||
+ | |flux= Istex | ||
+ | |étape= Corpus | ||
+ | |type= RBID | ||
+ | |clé= ISTEX:ABF2C843AB09B88175DD71C6CC6634BCDDACB523 | ||
+ | |texte= Fundamentals of gas-dynamical simulations | ||
+ | }}), une action d'OCR sur « α ''r'' » génère « ocr». | ||
+ | |||
+ | ==Résultats et investigations== | ||
+ | ===Listes de résultats bruts=== | ||
+ | Cette liste correspond à la version actuelle du serveur. | ||
+ | {{Wicri tp|titre=Règles de curation spécifiques | ||
+ | |texte=Une amélioration de la pertinence des listes a été obtenues par deux mécanismes différents. | ||
+ | * '''élimination de revues''', avec notamment le « ''Journal of Geophysical Research: Oceans'' (ISSN 0148-0227) » où il est question de l' « ''Oregon Coast Range'' « (Chaîne côtière de l'Oregon), (voir sur par exemple {{Explor lien | ||
+ | |wiki= Ticri/CIDE | ||
+ | |area= OcrV1 | ||
+ | |flux= Istex | ||
+ | |étape= Corpus | ||
+ | |type= RBID | ||
+ | |clé= ISTEX:42F66A3AE6097610532C602767F36846BA88A9BD | ||
+ | |texte= Vegetation‐modulated landscape evolution: Effects of vegetation on landscape processes, drainage density, and topography | ||
+ | }}). Il est cependant possible d'accéder à cette revue, mais dans l'étape « corpus ISTEX » de la plateforme de curation, (voir {{Explor lien | ||
+ | |wiki= Ticri/CIDE | ||
+ | |area= OcrV1 | ||
+ | |flux= Istex | ||
+ | |étape= Corpus | ||
+ | |type= indexItem | ||
+ | |index= ISSN.i | ||
+ | |clé= 2156-2202 | ||
+ | |texte=2156-2202 | ||
+ | }}) | ||
+ | * '''normalisation des noms d'auteurs'''. Le wiki contient notamment une « [[Wicri:Liste de personnalités du document numérique|liste de spécialistes du document numérique]] » qui permet cette homogénéisation et ajoute une affiliation implicite. On notera une modification de l'ordre des auteurs et l'émergence de nouvelles affiliations dans le « top 15 » comme l'[[Université de Kyūshū]]. | ||
+ | A cette occasion à portée plus large ont été menées comme l'ajout d'Universités japonaises dans une [[wicri-asie.fr:Wicri:Liste de grandes universités asiatiques|liste d'universités du wiki Asie]]. Sur ce wiki, on notera un net enrichissement de la présence du [[Japon]], avec souvent des liens entre les pages régions (exemple [[Préfecture de Fukuoka]]) et les serveurs. | ||
+ | }} | ||
+ | {{Début 2 colonnes}} | ||
+ | ;Auteurs: | ||
+ | {{OcrV1, include|section=auteurs}} | ||
+ | {{Saut 2 colonnes}} | ||
+ | ;Affiliations: | ||
+ | {{OcrV1, include|section=org}} | ||
+ | {{Fin 2 colonnes}} | ||
+ | {{Début 3 colonnes}} | ||
+ | ;Pays: | ||
+ | {{OcrV1, include|section=pays}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Régions: | ||
+ | {{OcrV1, include|section=region}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Villes: | ||
+ | {{OcrV1, include|section=ville}} | ||
+ | {{Fin 2 colonnes}} | ||
+ | {{Début 3 colonnes}} | ||
+ | ;Mots-clés originaux: | ||
+ | {{OcrV1, include|section=KwdEn}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Mots du titre: | ||
+ | {{OcrV1, include|section=title}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;ISSN/revue: | ||
+ | {{OcrV1, include|section=ISSN}} | ||
+ | {{Fin 3 colonnes}} | ||
+ | ;Sur le Zoom France: | ||
+ | {{Début 3 colonnes}} | ||
+ | ;Auteurs | ||
+ | {{OcrV1, include|section=auteursFrance}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Affiliations: | ||
+ | {{OcrV1, include|section=orgFrance}} | ||
+ | {{Saut 3 colonnes}} | ||
+ | ;Pays: | ||
+ | {{OcrV1, include|section=paysFrance}} | ||
+ | {{Fin 3 colonnes}} | ||
+ | {{Wicri tp|titre=Pour voir les effets des mécanismes de curation | ||
+ | |texte=Une version initiale de ce paragraphe est visible sur la page : | ||
+ | * [[Serveur d'exploration sur l'OCR/Archive]] | ||
+ | }} | ||
+ | ===A faire=== | ||
+ | ;test indexation:Construction d'une table d'indexation | ||
+ | :Requêtes d'approfondissement: | ||
+ | *Evaluation de la qualité d’un document, | ||
+ | *Tokenisation, | ||
+ | *Méthode par dictionnaire pour mesurer la qualité d’un document | ||
+ | |||
+ | ==Voir aussi== | ||
+ | ;Sur ce wiki: | ||
+ | * [[Serveur d'exploration sur l'OCR/Archive]] | ||
+ | {{Wicri voir|référence=Ticri}} | ||
+ | Ce serveur est également visible sur {{Wicri lien|wiki=Informatique}}. | ||
+ | |||
+ | [[Catégorie:Serveur d'exploration|OCR]] | ||
+ | [[Catégorie:Reconnaissance optique de caractères]] | ||
+ | __SHOWFACTBOX__ |
Version actuelle datée du 13 novembre 2017 à 19:47
Cette page introduit le « Serveur d'exploration sur l'OCR ». Il contient 8131 documents.
Sommaire
Ce flux donne accès à 6406 documents ISTEX (et 6070 après curation). | |||
Ce flux traite 1227 références, dont 32 venant de Francis, et 1195 venant de Pascal.
Après curation le volume est réduit à 1200. | |||
Ce flux traite 170 références téléchargées de HAL. Après curation le volume est réduit à 170. | |||
Ce flux traite 15 références, Après curation le volume est réduit à 15. | |||
Ce flux traite 215 références ou documents en provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 98. | |||
Ce flux traite 215 références ou documents en provenance de l'archive PubMed Central. Après curation le volume est réduit à 215. | |||
Ce flux traite 313 références, Après curation le volume est réduit à 294. | |||
Flux principal | Ce flux fusionne 7 749 références issues des étapes précédentes.
Ce volume est ramené à 7 736 après dédoublonnage par DOI. Enfin, il est réduit à 7 533 par clé de dédoublonnage IDAT. | ||
Zoom | France | Ce flux donne accès à une bibliographie contenant 435 références ayant au moins un auteur avec une affiliation française. | |
Zoom | UK | Ce flux donne accès à une bibliographie contenant 503 références ayant au moins un auteur avec une affiliation du Royaume-Uni. | |
Zoom | USA | Ce flux donne accès à une bibliographie contenant 1844 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique. | |
Zoom | Allemagne | Ce flux donne accès à une bibliographie contenant 420 références ayant au moins un auteur avec une affiliation allemande. |
Projections géographiques
|
|
production mondiale (détail Europe)
Aspects techniques
Paramétrage
- Wicri:OcrV1 - introduction
- Wicri:OcrV1/Paramètres, data - génération des données
- Wicri:OcrV1/Paramètres, fr - génération de l'interface
- Wicri:OcrV1/Paramètres, génération des cartes - génération de cartes géographiques
- Wicri:OcrV1/Paramètres, templates size - paramétrage des modèles liés aux valeurs numériques
- Wicri:OcrV1/Paramètres, template include
Curation
- revues portant sur des homonymies de OCR : The Laryngoscope (ISSN : 0023-852X)
- dans les articles de la revue Lecture Notes in Physics, par exemple : (Fundamentals of gas-dynamical simulations), une action d'OCR sur « α r » génère « ocr».
Résultats et investigations
Listes de résultats bruts
Cette liste correspond à la version actuelle du serveur.
|
|
|
- Sur le Zoom France
A faire
- test indexation
- Construction d'une table d'indexation
- Requêtes d'approfondissement:
- Evaluation de la qualité d’un document,
- Tokenisation,
- Méthode par dictionnaire pour mesurer la qualité d’un document
Voir aussi
- Sur ce wiki
- Dans le réseau Wicri :
La page de référence « Serveur d'exploration sur l'OCR » est sur le wiki Wicri/Ticri. Ce serveur est également visible sur Wicri/Informatique.
… davantage au sujet de « Serveur d'exploration sur l'OCR »