Serveur d'exploration sur l'OCR : Différence entre versions

De CIDE
imported>Jacques Ducloy
imported>Jacques Ducloy
Ligne 7 : Ligne 7 :
 
Au départ, il s'agit de répondre à des besoins d'information dans deux contextes complémentaires d'utilisation de cette technologie :
 
Au départ, il s'agit de répondre à des besoins d'information dans deux contextes complémentaires d'utilisation de cette technologie :
 
* En amont, à l'INIST, le département dirigé par [[Laurent Schmitt]] conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte [[Valérie Mahut]] et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données.
 
* En amont, à l'INIST, le département dirigé par [[Laurent Schmitt]] conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte [[Valérie Mahut]] et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données.
* En aval, le projet LorExplor [[Jacques Ducloy]] est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données.
+
* En aval, le projet LorExplor ([[Jacques Ducloy]]) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données.
  
 
Il permet également de valoriser les travaux des équipes françaises ou francophones dans un cadre de coopérations internationales.
 
Il permet également de valoriser les travaux des équipes françaises ou francophones dans un cadre de coopérations internationales.

Version du 14 juin 2016 à 08:05

Cette page introduit le « Serveur d'exploration sur l'OCR ». Il contient 8131 documents.

Théorème de Pythagore Démonstration ISTEX LorExplor Wicri
Ce serveur d'exploration est mis en place pour aborder des problématiques variées liées à la reconnaissance optique de caractères.

Au départ, il s'agit de répondre à des besoins d'information dans deux contextes complémentaires d'utilisation de cette technologie :

  • En amont, à l'INIST, le département dirigé par Laurent Schmitt conçoit et exploite la plateforme de services ISTEX appelée à rendre disponibles des dizaines de millions de documents traités en OCR. Dans ce contexte Valérie Mahut et son équipe doivent mettre en place des procédures pour améliorer la qualité de ces données.
  • En aval, le projet LorExplor (Jacques Ducloy) est confronté à l'analyse de corpus pour lesquels l'OCR amène parfois de très sérieuses contraintes de curation de données.

Il permet également de valoriser les travaux des équipes françaises ou francophones dans un cadre de coopérations internationales.

logo travaux Serveur en cours de curation, créé avec des outils en cours de développement

Navigation

Logo Paris tram ligne1.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux ISTEX

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux donne accès 6406 documents ISTEX (et 6070 après curation).
Logo Paris tram ligne2.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Pascal / Francis

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 1227 références, dont 32 venant de Francis, et 1195 venant de Pascal.

Après curation le volume est réduit à 1200.

Logo Paris tram ligne3.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux Hal Ccsd

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 170 références téléchargées de HAL. Après curation le volume est réduit à 170.
Logo Paris tram ligne4.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur les documents BibTeX du Loria (Crin)

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 15 références, Après curation le volume est réduit à 15.
Logo Paris tram ligne5.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux PubMed/Medline

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 215 références ou documents provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 98.
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 215 références ou documents provenance de l'archive PubMed Central. Après curation le volume est réduit à 215.
Logo Paris tram ligne7.svg
Logo Paris tram ligne5.svg
Logo Paris tram ligne6.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur l'étape de reformatage du corpus

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape de contrôle

Ce flux traite 313 références, Après curation le volume est réduit à 294.
Logo Paris tram ligne8.svg
Flux principal
Logo Paris tram ligne1.svg
Logo Paris tram ligne2.svg
Logo Paris tram ligne3.svg
Logo Paris tram ligne4.svg
Logo Paris tram ligne7.svg

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur le flux de convergence qui donne accès au serveur

Pour aller sur l'étape de confluence / dédoublonnage

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux fusionne 7 749 références issues des étapes précédentes.

Ce volume est ramené à 7 736 après dédoublonnage par DOI. Enfin, il est réduit à 7 533 par clé de dédoublonnage IDAT.

Zoom France

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 435 références ayant au moins un auteur avec une affiliation française.
Zoom UK

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 503 références ayant au moins un auteur avec une affiliation du Royaume-Uni.
Zoom USA

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 1844 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique.
Zoom Allemagne

DilibExplorGabarit1.png

ExplorGabarit1Arrow.png

Pour aller sur la page d'accueil du Zoom

Pour aller sur la page d'accueil du Zoom

Pour aller sur l'étape de curation

Pour aller sur l'étape d'exploration globale

Ce flux donne accès à une bibliographie contenant 420 références ayant au moins un auteur avec une affiliation allemande.

Projections géographiques

logo travaux La curation des données est encore très faible sur ce corpus. Dans cet état les projections graphiques servent souvent à repérer des actions de curation (par exemple si une région est très active dans un domaine médical où le sigle OCR repère une spécialité thérapeutique).
 

Aspects techniques

Paramétrage

Curation

Voir aussi

Dans le réseau Wicri :

La page de référence « Serveur d'exploration sur l'OCR » est sur le wiki Wicri/Ticri. Ce serveur est également visible sur Wicri/Informatique.