Wicri:OcrV1

De CIDE

Cette page introduit les aspects techniques de la version OcrV1 du « Serveur d'exploration sur l'OCR ».

Voir aussi :

Mise en œuvre

Sur la machine de développement

Initialisations

Génération des pages wikis
source IstexGetCorpusSize -q "ocr AND (character* OR optical) AND (digital* OR computer)"
 IstexGenerAreaPages \
       -a OcrV1   \
       -m   \
       -g Ocr   \
       -p Ticri/CIDE   \
       -w ticri-cide.fr  \
       -W Ticri/CIDE   \
       -s PascalFrancis   \
       -s Hal   \
       -s Crin   \
       -s PubMed   \
       -s Pmc   \
       -s Ncbi   \
       -z France   \
       -z UK   \
       -z USA   \
       -z Allemagne   \
       -q "ocr AND (character* OR optical) AND (digital* OR computer)"   \
       -d "3"   \
       -D "2500"   \
       -t "Serveur d'exploration sur l'OCR"
Définition $EXPLOR_AREA
EXPLOR_AREA=$WICRI_ROOT/Ticri/CIDE/corpus/Ocr.storage/OcrV1
export EXPLOR_AREA
export LC_ALL='C'
Création des répertoires
mkdir $WICRI_ROOT/Ticri/CIDE/corpus/Ocr.storage
mkdir $EXPLOR_AREA
mkdir $EXPLOR_AREA/Import

Récupération des corpus ISTEX

En cas de reprise complète au niveau du téléchargement
rm -rf $EXPLOR_AREA/Import/IstexDownload.*.h*
time IstexGetCorpus -q "ocr AND (character* OR optical) AND (digital* OR computer)" -s 2500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.000000
Vérification
SxmlSelect -g hfd/nrec/1 -p @g1 < $EXPLOR_AREA/Import/IstexDownload.000000.hcs
time IstexGetCorpus -q "ocr AND (character* OR optical) AND (digital* OR computer)" -f 2500 -s 2500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.002500
SxmlSelect -g hfd/nrec/1 -p @g1 < $EXPLOR_AREA/Import/IstexDownload.002500.hcs
time IstexGetCorpus -q "ocr AND (character* OR optical) AND (digital* OR computer)" -f 5000 -s 2500 -A \
     | IstexToSxml     \
     | HfdBuild -bh    $EXPLOR_AREA/Import/IstexDownload.005000
SxmlSelect -g hfd/nrec/1 -p @g1 < $EXPLOR_AREA/Import/IstexDownload.005000.hcs

Construction du Repository ISTEX

En cas de reprise au niveau du téléchargement

rm -rf $EXPLOR_AREA/Import/IstexRepository.h*
(
  HfdCat $EXPLOR_AREA/Import/IstexDownload.000000.hfd
  HfdCat $EXPLOR_AREA/Import/IstexDownload.002500.hfd
  HfdCat $EXPLOR_AREA/Import/IstexDownload.005000.hfd
 )    | SgmlFast -c 1 \
      | HfdBuild -bh    $EXPLOR_AREA/Import/IstexRepository

Vérification

HfdCat  $EXPLOR_AREA/Import/IstexRepository.hfd | wc

Construction des métadonnées ISTEX

ISTEX, création du HFD Corpus Biblio
En cas de reprise:
rm -rf $EXPLOR_AREA/Import/IstexMetadata.h*
Construction corpus biblio
HfdCat $EXPLOR_AREA/Import/IstexRepository.hfd   \
  | IstexCleanFullText                           \
  | SgmlFast -c1                                 \
  | IstexToTei                                   \
  | TeiPutRefToIdno -t wicri:Area/Istex/Corpus \
  | HfdBuild -h $EXPLOR_AREA/Import/IstexMetadata

Téléchargement des autres corpus

PubMed

Site : http://www.ncbi.nlm.nih.gov/pubmed

Requête :

ocr AND (optical OR character OR recognition) 

Ranger le résultat dans $EXPLOR_AREA/Import/pubmed_result.xml

PubMed Central

Site : http://www.ncbi.nlm.nih.gov/pmc

ocr AND (optical AND character AND recognition) 

Requête :

Ranger le résultat dans $EXPLOR_AREA/Import/pmc_result.xml

PascalFrancis

Site :http://stan2.demo.inist.fr/fr/

Requête :

Télécharger avec les onglets : Serveur / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistServer.txt 

Télécharger avec les onglets : SGML / SGML / SGML / LF

  • résultat dans $EXPLOR_AREA/Import
 mv $EXPLOR_AREA/Import/corpus.txt $EXPLOR_AREA/Import/inistStandard.txt 
Hal

Sur : https://hal.archives-ouvertes.fr/

Crin
HfdIndexSelect   \
   -h $WICRI_ROOT/Wicri/Lorraine/Corpus/InforLor.storage/InforLorV3/Data/Crin/Corpus/KwdEn.i  \
   -Sk "character recognition"      \
  | HfdSelect       \
    -h $WICRI_ROOT/Wicri/Lorraine/Corpus/InforLor.storage/InforLorV3/Data/Crin/Corpus/biblio.hfd \
    > $EXPLOR_AREA/Import/CrinCorpusTei.xml

Génération de la plateforme

Importation des paramètres de génération
WicriGetPage -l wicri-lor.fr -p "Wicri:OcrV1/Paramètres, data"\
      > $EXPLOR_AREA/Import/WicriAreaParam.data.wiki

Si reprise

sh $EXPLOR_AREA/bin/AreaReset.sh
ExplorAreaDataCreate -d $EXPLOR_AREA
make -f $EXPLOR_AREA/bin/area.mk
Importation des paramètres de navigation
WicriGetPage -l wicri-lor.fr -p "Wicri:OcrV1/Paramètres, fr"\
      > $EXPLOR_AREA/Import/WicriAreaSiteParam.fr.wiki
Génération de l'interface 
sh $EXPLOR_AREA/bin/AreaCreateSite.fr.sh

Génération des FTP

cd $EXPLOR_AREA
rm Site.tar.gz 
tar -cvf Site.tar Site 
gzip Site.tar 
rm Data.tar.gz 
tar -cvf Data.tar Data 
gzip Data.tar 

rm ImportMetadata.tar.gz
tar -cvf ImportMetadata.tar Import/istexMetadata.hcs Import/istexMetadata.hfd
gzip ImportMetadata.tar

Transfert vers la machine LorExplor

scp $ISTEX_PAR Site.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Sic/CIDE/explor/Ocr.storage/OcrV1.new
scp $ISTEX_PAR  Data.tar.gz $ISTEX_SCP:$WICRI_TARGET_ROOT/Sic/CIDE/explor/Ocr.storage/OcrV1.new

Sur la machine cible

Aller sur le répertoire corpus correspondant au wiki cible

. ... Dilib/init.sh  
newgrp ticri
EXPLOR_AREA=$WICRI_ROOT/Wicri/Lorraine/corpus/Ocr.storage/OcrV1.20160603

Si nouveau code générique :

mkdir $WICRI_ROOT/Wicri/Lorraine/corpus/Ocr.storage

Création du répertoire plateforme

mkdir $EXPLOR_AREA
Transfert par FileZilla

Transférer les fichiers Site.tar.gz, Data.tar.gz de OcrV1 (émetteur) vers OcrV1 (cible).

Installation
cd $EXPLOR_AREA
gunzip Site.tar.gz 
tar -xvf Site.tar 
gzip Site.tar 

gunzip Data.tar.gz 
tar -xvf Data.tar 
gzip Data.tar
gunzip ImportMetadata.tar.gz 
tar -xvf ImportMetadata.tar 
gzip ImportMetadata.tar 

cd Data/Istex/Corpus 
rm biblio.hcs 
rm biblio.hfd 
ln -s ../../../Import/istexMetadata.hcs biblio.hcs 
ln -s ../../../Import/istexMetadata.hfd biblio.hfd