OcrV1, Main, Merge, bibRecord, 002138

Text extraction, enhancement and OCR in digital video

Identifieur interne : 002138 ( Main/Merge ); précédent : 002137; suivant : 002139

Text extraction, enhancement and OCR in digital video

Auteurs : HUIPING LI [États-Unis] ; David Doermann [États-Unis] ; O. Kia [États-Unis]

Source :

Lecture notes in computer science [ 0302-9743 ] ; 1999.

RBID : Pascal:99-0486115

Descripteurs français

Pascal (Inist)
- Analyse documentaire, Traitement image document, Reconnaissance optique caractère, Reconnaissance forme, Segmentation image, Vision ordinateur.

English descriptors

KwdEn :
- Computer vision, Document analysis, Document image processing, Image segmentation, Optical character recognition, Pattern recognition.

Abstract

In this paper we address the problem of text extraction, enhancement and recognition in digital video. Compared with optical character recognition (OCR) from document images, text extraction and recognition in digital video presents several new challenges. First, the text in video is often embedded in complex backgrounds, making text extraction and separation difficult. Second, image data contained in video frames is often digitized and/or subsampled at a much lower resolution than is typical for document images. As a result, most commercial OCR software can not recognize text extracted from video. We have implemented a hybrid wavelet/neural network segmenter to extract text regions and use a two stage enhancement scheme prior to recognition. First, we use Shannon interpolation to raise the image resolution, and second we postprocess the block with normal/inverse text classification and adaptive thresholding. Experimental results show that our text extraction scheme can extract both scene text and graphical text robustly and reasonable OCR results are achieved after enhancement.

Links toward previous steps (curation, corpus...)

to stream PascalFrancis, to step Corpus: 000804
to stream PascalFrancis, to step Curation: 000B90
to stream PascalFrancis, to step Checkpoint: 000757

Links to Exploration step

Pascal:99-0486115

Le document en format XML

<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="en" level="a">Text extraction, enhancement and OCR in digital video</title>
<author><name sortKey="Huiping Li" sort="Huiping Li" uniqKey="Huiping Li" last="Huiping Li">HUIPING LI</name>
<affiliation wicri:level="4"><inist:fA14 i1="01"><s1>Language and Media Processing Laboratory, Institute for Advanced Computer Studies, University of Maryland</s1>
<s2>College Park, MD 20742-3275</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName><region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
</author>
<author><name sortKey="Doermann, D" sort="Doermann, D" uniqKey="Doermann D" first="D." last="Doermann">David Doermann</name>
<affiliation wicri:level="4"><inist:fA14 i1="01"><s1>Language and Media Processing Laboratory, Institute for Advanced Computer Studies, University of Maryland</s1>
<s2>College Park, MD 20742-3275</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName><region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
<placeName><settlement type="city">College Park (Maryland)</settlement>
<region type="state">Maryland</region>
</placeName>
<orgName type="university" n="3">Université du Maryland</orgName>
</affiliation>
</author>
<author><name sortKey="Kia, O" sort="Kia, O" uniqKey="Kia O" first="O." last="Kia">O. Kia</name>
<affiliation wicri:level="2"><inist:fA14 i1="02"><s1>Advanced Network Technologies Division, National Institute of Standards and Technology</s1>
<s2>Gaithersburg, MD 20899</s2>
<s3>USA</s3>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName><region type="state">Maryland</region>
</placeName>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">INIST</idno>
<idno type="inist">99-0486115</idno>
<date when="1999">1999</date>
<idno type="stanalyst">PASCAL 99-0486115 INIST</idno>
<idno type="RBID">Pascal:99-0486115</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000804</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000B90</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000757</idno>
<idno type="wicri:doubleKey">0302-9743:1999:Huiping Li:text:extraction:enhancement</idno>
<idno type="wicri:Area/Main/Merge">002138</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="en" level="a">Text extraction, enhancement and OCR in digital video</title>
<author><name sortKey="Huiping Li" sort="Huiping Li" uniqKey="Huiping Li" last="Huiping Li">HUIPING LI</name>
<affiliation wicri:level="4"><inist:fA14 i1="01"><s1>Language and Media Processing Laboratory, Institute for Advanced Computer Studies, University of Maryland</s1>
<s2>College Park, MD 20742-3275</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName><region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
</affiliation>
</author>
<author><name sortKey="Doermann, D" sort="Doermann, D" uniqKey="Doermann D" first="D." last="Doermann">David Doermann</name>
<affiliation wicri:level="4"><inist:fA14 i1="01"><s1>Language and Media Processing Laboratory, Institute for Advanced Computer Studies, University of Maryland</s1>
<s2>College Park, MD 20742-3275</s2>
<s3>USA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName><region type="state">Maryland</region>
<settlement type="city">College Park (Maryland)</settlement>
</placeName>
<orgName type="university">Université du Maryland</orgName>
<placeName><settlement type="city">College Park (Maryland)</settlement>
<region type="state">Maryland</region>
</placeName>
<orgName type="university" n="3">Université du Maryland</orgName>
</affiliation>
</author>
<author><name sortKey="Kia, O" sort="Kia, O" uniqKey="Kia O" first="O." last="Kia">O. Kia</name>
<affiliation wicri:level="2"><inist:fA14 i1="02"><s1>Advanced Network Technologies Division, National Institute of Standards and Technology</s1>
<s2>Gaithersburg, MD 20899</s2>
<s3>USA</s3>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>États-Unis</country>
<placeName><region type="state">Maryland</region>
</placeName>
</affiliation>
</author>
</analytic>
<series><title level="j" type="main">Lecture notes in computer science</title>
<idno type="ISSN">0302-9743</idno>
<imprint><date when="1999">1999</date>
</imprint>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt><title level="j" type="main">Lecture notes in computer science</title>
<idno type="ISSN">0302-9743</idno>
</seriesStmt>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>Computer vision</term>
<term>Document analysis</term>
<term>Document image processing</term>
<term>Image segmentation</term>
<term>Optical character recognition</term>
<term>Pattern recognition</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr"><term>Analyse documentaire</term>
<term>Traitement image document</term>
<term>Reconnaissance optique caractère</term>
<term>Reconnaissance forme</term>
<term>Segmentation image</term>
<term>Vision ordinateur</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="en">In this paper we address the problem of text extraction, enhancement and recognition in digital video. Compared with optical character recognition (OCR) from document images, text extraction and recognition in digital video presents several new challenges. First, the text in video is often embedded in complex backgrounds, making text extraction and separation difficult. Second, image data contained in video frames is often digitized and/or subsampled at a much lower resolution than is typical for document images. As a result, most commercial OCR software can not recognize text extracted from video. We have implemented a hybrid wavelet/neural network segmenter to extract text regions and use a two stage enhancement scheme prior to recognition. First, we use Shannon interpolation to raise the image resolution, and second we postprocess the block with normal/inverse text classification and adaptive thresholding. Experimental results show that our text extraction scheme can extract both scene text and graphical text robustly and reasonable OCR results are achieved after enhancement.</div>
</front>
</TEI>
<affiliations><list><country><li>États-Unis</li>
</country>
<region><li>Maryland</li>
</region>
<settlement><li>College Park (Maryland)</li>
</settlement>
<orgName><li>Université du Maryland</li>
</orgName>
</list>
<tree><country name="États-Unis"><region name="Maryland"><name sortKey="Huiping Li" sort="Huiping Li" uniqKey="Huiping Li" last="Huiping Li">HUIPING LI</name>
</region>
<name sortKey="Doermann, D" sort="Doermann, D" uniqKey="Doermann D" first="D." last="Doermann">David Doermann</name>
<name sortKey="Kia, O" sort="Kia, O" uniqKey="Kia O" first="O." last="Kia">O. Kia</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/Main/Merge

HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 002138 | SxmlIndent | more

HfdSelect -h $EXPLOR_AREA/Data/Main/Merge/biblio.hfd -nk 002138 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    Main
   |étape=   Merge
   |type=    RBID
   |clé=     Pascal:99-0486115
   |texte=   Text extraction, enhancement and OCR in digital video
}}

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024

	Serveur d'exploration sur l'OCR
	Attention, ce site est en cours de développement ! Attention, site généré par des moyens informatiques à partir de corpus bruts. Les informations ne sont donc pas validées.

Serveur d'exploration sur l'OCR

Text extraction, enhancement and OCR in digital video

Text extraction, enhancement and OCR in digital video

Source :

Descripteurs français

English descriptors

Abstract

Links toward previous steps (curation, corpus...)

Links to Exploration step

Le document en format XML

Pour manipuler ce document sous Unix (Dilib)

Pour mettre un lien sur cette page dans le réseau Wicri