Serveur d'exploration sur l'OCR : Différence entre versions
De CIDE
imported>Jacques Ducloy (→A faire : test indexation) |
imported>Jacques Ducloy (→Navigation) |
||
(8 révisions intermédiaires par 2 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
+ | {{Wicri travaux | ||
+ | |texte=Attention, l'interface de navigation a été mis à niveau avec la version V0.6.32 de DILIB. En revanche les données sont plus anciennes. Des incohérences sont possibles | ||
+ | }} | ||
Cette page introduit le « [[Serveur d'exploration]] sur [[Reconnaissance optique de caractères|l'OCR]] ». | Cette page introduit le « [[Serveur d'exploration]] sur [[Reconnaissance optique de caractères|l'OCR]] ». | ||
Il contient [[A pour volumétrie (serveur d'exploration)::{{OcrV1, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents. | Il contient [[A pour volumétrie (serveur d'exploration)::{{OcrV1, Explor size|stream=Area|step=Corpus|index=biblio}}]] documents. | ||
Ligne 142 : | Ligne 145 : | ||
==Résultats et investigations== | ==Résultats et investigations== | ||
− | |||
− | |||
− | |||
===Listes de résultats bruts=== | ===Listes de résultats bruts=== | ||
Cette liste correspond à la version actuelle du serveur. | Cette liste correspond à la version actuelle du serveur. | ||
Ligne 208 : | Ligne 208 : | ||
{{OcrV1, include|section=paysFrance}} | {{OcrV1, include|section=paysFrance}} | ||
{{Fin 3 colonnes}} | {{Fin 3 colonnes}} | ||
− | + | {{Wicri tp|titre=Pour voir les effets des mécanismes de curation | |
+ | |texte=Une version initiale de ce paragraphe est visible sur la page : | ||
+ | * [[Serveur d'exploration sur l'OCR/Archive]] | ||
+ | }} | ||
===A faire=== | ===A faire=== | ||
;test indexation:Construction d'une table d'indexation | ;test indexation:Construction d'une table d'indexation | ||
− | + | :Requêtes d'approfondissement: | |
− | |||
*Evaluation de la qualité d’un document, | *Evaluation de la qualité d’un document, | ||
*Tokenisation, | *Tokenisation, |
Version actuelle datée du 13 novembre 2017 à 19:47
Cette page introduit le « Serveur d'exploration sur l'OCR ». Il contient 8131 documents.
Sommaire
Ce flux donne accès à 6406 documents ISTEX (et 6070 après curation). | |||
Ce flux traite 1227 références, dont 32 venant de Francis, et 1195 venant de Pascal.
Après curation le volume est réduit à 1200. | |||
Ce flux traite 170 références téléchargées de HAL. Après curation le volume est réduit à 170. | |||
Ce flux traite 15 références, Après curation le volume est réduit à 15. | |||
Ce flux traite 215 références ou documents en provenance de l'archive PubMed (MEDLINE). Après curation le volume est réduit à 98. | |||
Ce flux traite 215 références ou documents en provenance de l'archive PubMed Central. Après curation le volume est réduit à 215. | |||
Ce flux traite 313 références, Après curation le volume est réduit à 294. | |||
Flux principal | Ce flux fusionne 7 749 références issues des étapes précédentes.
Ce volume est ramené à 7 736 après dédoublonnage par DOI. Enfin, il est réduit à 7 533 par clé de dédoublonnage IDAT. | ||
Zoom | France | Ce flux donne accès à une bibliographie contenant 435 références ayant au moins un auteur avec une affiliation française. | |
Zoom | UK | Ce flux donne accès à une bibliographie contenant 503 références ayant au moins un auteur avec une affiliation du Royaume-Uni. | |
Zoom | USA | Ce flux donne accès à une bibliographie contenant 1844 références ayant au moins un auteur avec une affiliation des Etats-Unis d'Amérique. | |
Zoom | Allemagne | Ce flux donne accès à une bibliographie contenant 420 références ayant au moins un auteur avec une affiliation allemande. |
Projections géographiques
|
|
production mondiale (détail Europe)
Aspects techniques
Paramétrage
- Wicri:OcrV1 - introduction
- Wicri:OcrV1/Paramètres, data - génération des données
- Wicri:OcrV1/Paramètres, fr - génération de l'interface
- Wicri:OcrV1/Paramètres, génération des cartes - génération de cartes géographiques
- Wicri:OcrV1/Paramètres, templates size - paramétrage des modèles liés aux valeurs numériques
- Wicri:OcrV1/Paramètres, template include
Curation
- revues portant sur des homonymies de OCR : The Laryngoscope (ISSN : 0023-852X)
- dans les articles de la revue Lecture Notes in Physics, par exemple : (Fundamentals of gas-dynamical simulations), une action d'OCR sur « α r » génère « ocr».
Résultats et investigations
Listes de résultats bruts
Cette liste correspond à la version actuelle du serveur.
|
|
|
- Sur le Zoom France
A faire
- test indexation
- Construction d'une table d'indexation
- Requêtes d'approfondissement:
- Evaluation de la qualité d’un document,
- Tokenisation,
- Méthode par dictionnaire pour mesurer la qualité d’un document
Voir aussi
- Sur ce wiki
- Dans le réseau Wicri :
La page de référence « Serveur d'exploration sur l'OCR » est sur le wiki Wicri/Ticri. Ce serveur est également visible sur Wicri/Informatique.
… davantage au sujet de « Serveur d'exploration sur l'OCR »