Serveur d'exploration sur l'OCR : Différence entre versions
De CIDE
imported>Jacques Ducloy (→Résultats et investigations) |
imported>Jacques Ducloy (→Navigation) |
||
(30 révisions intermédiaires par 2 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
+ | {{Wicri travaux | ||
+ | |texte=Attention, l'interface de navigation a été mis à niveau avec la version V0.6.32 de DILIB. En revanche les données sont plus anciennes. Des incohérences sont possibles | ||
+ | }} | ||
Cette page introduit le « [[Serveur d'exploration]] sur [[Reconnaissance optique de caractères|l'OCR]] ». | Cette page introduit le « [[Serveur d'exploration]] sur [[Reconnaissance optique de caractères|l'OCR]] ». | ||
Il contient [[A pour volumétrie (serveur d'exploration)::{{OcrV1, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents. | Il contient [[A pour volumétrie (serveur d'exploration)::{{OcrV1, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents. | ||
{{Wicri démonstration | {{Wicri démonstration | ||
|titre=Démonstration ISTEX LorExplor Wicri | |titre=Démonstration ISTEX LorExplor Wicri | ||
− | |texte=Ce [[serveur d'exploration]] | + | |texte=Ce [[serveur d'exploration]] aborde des problématiques variées liées à la [[reconnaissance optique de caractères]], et plus précisément : |
− | |||
− | |||
* En amont, à l'INIST, le département dirigé par [[Laurent Schmitt]] conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte [[Valérie Mahut]] et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données. | * En amont, à l'INIST, le département dirigé par [[Laurent Schmitt]] conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte [[Valérie Mahut]] et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données. | ||
* En aval, le projet LorExplor ([[Jacques Ducloy]]) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données. | * En aval, le projet LorExplor ([[Jacques Ducloy]]) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données. | ||
Ligne 11 : | Ligne 12 : | ||
Il permet également de valoriser les travaux des équipes françaises ou francophones (par exemple [[Abdel Belaïd]]) dans un cadre de coopérations internationales. | Il permet également de valoriser les travaux des équipes françaises ou francophones (par exemple [[Abdel Belaïd]]) dans un cadre de coopérations internationales. | ||
}} | }} | ||
− | + | <!-- | |
− | {{Wicri travaux|texte=Serveur en cours de | + | {{Wicri travaux |
+ | |texte=Serveur en cours de ré-génération ; incohérences possibles | ||
}} | }} | ||
+ | --> | ||
==Navigation== | ==Navigation== | ||
{| class="wikitable" | {| class="wikitable" | ||
Ligne 142 : | Ligne 145 : | ||
==Résultats et investigations== | ==Résultats et investigations== | ||
− | |||
− | |||
− | |||
===Listes de résultats bruts=== | ===Listes de résultats bruts=== | ||
+ | Cette liste correspond à la version actuelle du serveur. | ||
{{Wicri tp|titre=Règles de curation spécifiques | {{Wicri tp|titre=Règles de curation spécifiques | ||
|texte=Une amélioration de la pertinence des listes a été obtenues par deux mécanismes différents. | |texte=Une amélioration de la pertinence des listes a été obtenues par deux mécanismes différents. | ||
+ | * '''élimination de revues''', avec notamment le « ''Journal of Geophysical Research: Oceans'' (ISSN 0148-0227) » où il est question de l' « ''Oregon Coast Range'' « (Chaîne côtière de l'Oregon), (voir sur par exemple {{Explor lien | ||
+ | |wiki= Ticri/CIDE | ||
+ | |area= OcrV1 | ||
+ | |flux= Istex | ||
+ | |étape= Corpus | ||
+ | |type= RBID | ||
+ | |clé= ISTEX:42F66A3AE6097610532C602767F36846BA88A9BD | ||
+ | |texte= Vegetation‐modulated landscape evolution: Effects of vegetation on landscape processes, drainage density, and topography | ||
+ | }}). Il est cependant possible d'accéder à cette revue, mais dans l'étape « corpus ISTEX » de la plateforme de curation, (voir {{Explor lien | ||
+ | |wiki= Ticri/CIDE | ||
+ | |area= OcrV1 | ||
+ | |flux= Istex | ||
+ | |étape= Corpus | ||
+ | |type= indexItem | ||
+ | |index= ISSN.i | ||
+ | |clé= 2156-2202 | ||
+ | |texte=2156-2202 | ||
+ | }}) | ||
+ | * '''normalisation des noms d'auteurs'''. Le wiki contient notamment une « [[Wicri:Liste de personnalités du document numérique|liste de spécialistes du document numérique]] » qui permet cette homogénéisation et ajoute une affiliation implicite. On notera une modification de l'ordre des auteurs et l'émergence de nouvelles affiliations dans le « top 15 » comme l'[[Université de Kyūshū]]. | ||
+ | A cette occasion à portée plus large ont été menées comme l'ajout d'Universités japonaises dans une [[wicri-asie.fr:Wicri:Liste de grandes universités asiatiques|liste d'universités du wiki Asie]]. Sur ce wiki, on notera un net enrichissement de la présence du [[Japon]], avec souvent des liens entre les pages régions (exemple [[Préfecture de Fukuoka]]) et les serveurs. | ||
}} | }} | ||
{{Début 2 colonnes}} | {{Début 2 colonnes}} | ||
Ligne 187 : | Ligne 208 : | ||
{{OcrV1, include|section=paysFrance}} | {{OcrV1, include|section=paysFrance}} | ||
{{Fin 3 colonnes}} | {{Fin 3 colonnes}} | ||
− | = | + | {{Wicri tp|titre=Pour voir les effets des mécanismes de curation |
− | + | |texte=Une version initiale de ce paragraphe est visible sur la page : | |
− | + | * [[Serveur d'exploration sur l'OCR/Archive]] | |
− | + | }} | |
− | + | ===A faire=== | |
− | + | ;test indexation:Construction d'une table d'indexation | |
− | + | :Requêtes d'approfondissement: | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | ===A faire | ||
− | Construction d'une table d'indexation | ||
− | |||
− | |||
*Evaluation de la qualité d’un document, | *Evaluation de la qualité d’un document, | ||
*Tokenisation, | *Tokenisation, | ||
Ligne 226 : | Ligne 220 : | ||
==Voir aussi== | ==Voir aussi== | ||
+ | ;Sur ce wiki: | ||
+ | * [[Serveur d'exploration sur l'OCR/Archive]] | ||
{{Wicri voir|référence=Ticri}} | {{Wicri voir|référence=Ticri}} | ||
Ce serveur est également visible sur {{Wicri lien|wiki=Informatique}}. | Ce serveur est également visible sur {{Wicri lien|wiki=Informatique}}. |
Version actuelle datée du 13 novembre 2017 à 19:47
Cette page introduit le « Serveur d'exploration sur l'OCR ». Il contient 8131 documents.
Sommaire
Ce flux donne accès à 6406 documents ISTEX (et 6070 après curation). | |||
Ce flux traite 1227 références, dont 32 venant de Francis, et 1195 venant de Pascal.
Après curation le volume est réduit à 1200. | |||
Ce flux traite 170 références téléchargées de HAL. Après curation le volume est réduit à 170. | |||
Ce flux traite 15 références, Après curation le volume est réduit à 15. | |||
Ce flux traite 215 références ou documents en provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 98. | |||
Ce flux traite 215 références ou documents en provenance de l'archive PubMed Central. Après curation le volume est réduit à 215. | |||
Ce flux traite 313 références, Après curation le volume est réduit à 294. | |||
Flux principal | Ce flux fusionne 7 749 références issues des étapes précédentes.
Ce volume est ramené à 7 736 après dédoublonnage par DOI. Enfin, il est réduit à 7 533 par clé de dédoublonnage IDAT. | ||
Zoom | France | Ce flux donne accès à une bibliographie contenant 435 références ayant au moins un auteur avec une affiliation française. | |
Zoom | UK | Ce flux donne accès à une bibliographie contenant 503 références ayant au moins un auteur avec une affiliation du Royaume-Uni. | |
Zoom | USA | Ce flux donne accès à une bibliographie contenant 1844 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique. | |
Zoom | Allemagne | Ce flux donne accès à une bibliographie contenant 420 références ayant au moins un auteur avec une affiliation allemande. |
Projections géographiques
|
|
production mondiale (détail Europe)
Aspects techniques
Paramétrage
- Wicri:OcrV1 - introduction
- Wicri:OcrV1/Paramètres, data - génération des données
- Wicri:OcrV1/Paramètres, fr - génération de l'interface
- Wicri:OcrV1/Paramètres, génération des cartes - génération de cartes géographiques
- Wicri:OcrV1/Paramètres, templates size - paramétrage des modèles liés aux valeurs numériques
- Wicri:OcrV1/Paramètres, template include
Curation
- revues portant sur des homonymies de OCR : The Laryngoscope (ISSN : 0023-852X)
- dans les articles de la revue Lecture Notes in Physics, par exemple : (Fundamentals of gas-dynamical simulations), une action d'OCR sur « α r » génère « ocr».
Résultats et investigations
Listes de résultats bruts
Cette liste correspond à la version actuelle du serveur.
|
|
|
- Sur le Zoom France
A faire
- test indexation
- Construction d'une table d'indexation
- Requêtes d'approfondissement:
- Evaluation de la qualité d’un document,
- Tokenisation,
- Méthode par dictionnaire pour mesurer la qualité d’un document
Voir aussi
- Sur ce wiki
- Dans le réseau Wicri :
La page de référence « Serveur d'exploration sur l'OCR » est sur le wiki Wicri/Ticri. Ce serveur est également visible sur Wicri/Informatique.
… davantage au sujet de « Serveur d'exploration sur l'OCR »