OcrV1, PascalFrancis, Corpus, bibRecord, 000495

The impact of OCR accuracy on automatic text classification

Identifieur interne : 000495 ( PascalFrancis/Corpus ); précédent : 000494; suivant : 000496

The impact of OCR accuracy on automatic text classification

Auteurs : Guowei Zu ; Mayo Murata ; Wataru Ohyama ; Tetsushi Wakabayashi ; Fumitaka Kimura

Source :

Lecture notes in computer science [ 0302-9743 ] ; 2004.

RBID : Pascal:05-0037779

Descripteurs français

Pascal (Inist)
- Réseau web, Système information, Reconnaissance caractère, Reconnaissance optique caractère, Classification automatique, Analyse contenu, Recherche information, Numérisation, Image numérique, Scanneur image, Faisabilité, Texte intégral, Analyse statistique, Approche probabiliste, Gestion contenu.

English descriptors

KwdEn :
- Automatic classification, Character recognition, Content analysis, Content management, Digital image, Digitizing, Feasibility, Full text, Image scanners, Information retrieval, Information system, Optical character recognition, Probabilistic approach, Statistical analysis, World wide web.

Abstract

Current general digitization approach of paper media is converting them into the digital images by a scanner, and then reading them by an OCR to generate ASCII text for full-text retrieval. However, it is impossible to recognize all characters with 100% accuracy by the present OCR technology. Therefore, it is important to know the impact of OCR accuracy on automatic text classification to reveal its technical feasibility. In this research we perform automatic text classification experiments for English newswire articles to study on the relationships between the accuracies of OCR and the text classification employing the statistical classification techniques.

Notice en format standard (ISO 2709)

Pour connaître la documentation sur le format Inist Standard.

A01	`01`	`1`		`@0 0302-9743`
A05				`@2 3309`
A08	`01`	`1`	`ENG`	`@1 The impact of OCR accuracy on automatic text classification`
A09	`01`	`1`	`ENG`	`@1 Content computing : ZhenJiang, JiangSu, 15-17 November 2004`
A11	`01`	`1`		`@1 ZU (Guowei)`
A11	`02`	`1`		`@1 MURATA (Mayo)`
A11	`03`	`1`		`@1 OHYAMA (Wataru)`
A11	`04`	`1`		`@1 WAKABAYASHI (Tetsushi)`
A11	`05`	`1`		`@1 KIMURA (Fumitaka)`
A12	`01`	`1`		`@1 CHI (Chi-Hung) @9 ed.`
A12	`02`	`1`		`@1 LAM (Kwok-Yan) @9 ed.`
A14	`01`			`@1 Mie University, Faculty of Engineering, 1515 Kamihama-cho @2 Tsu-shi, Mie, 5148507 @3 JPN @Z 1 aut. @Z 2 aut. @Z 3 aut. @Z 4 aut. @Z 5 aut.`
A14	`02`			`@1 Toshiba Solutions Corporation, Systems Integration Technology Center, Toshiba Building, 1-1, Shibaura 1-chome @2 Minato-ku, Tokyo 105-6691 @3 JPN @Z 1 aut.`
A20				`@1 403-409`
A21				`@1 2004`
A23	`01`			`@0 ENG`
A26	`01`			`@0 3-540-23898-0`
A43	`01`			`@1 INIST @2 16343 @5 354000124389830490`
A44				`@0 0000 @1 © 2005 INIST-CNRS. All rights reserved.`
A45				`@0 6 ref.`
A47	`01`	`1`		`@0 05-0037779`
A60				`@1 P @2 C`
A61				`@0 A`
A64	`01`	`1`		`@0 Lecture notes in computer science`
A66	`01`			`@0 DEU`
C01	`01`		`ENG`	@0 Current general digitization approach of paper media is converting them into the digital images by a scanner, and then reading them by an OCR to generate ASCII text for full-text retrieval. However, it is impossible to recognize all characters with 100% accuracy by the present OCR technology. Therefore, it is important to know the impact of OCR accuracy on automatic text classification to reveal its technical feasibility. In this research we perform automatic text classification experiments for English newswire articles to study on the relationships between the accuracies of OCR and the text classification employing the statistical classification techniques.
C02	`01`	`X`		`@0 001D02B07D`
C03	`01`	`X`	`FRE`	`@0 Réseau web @5 01`
C03	`01`	`X`	`ENG`	`@0 World wide web @5 01`
C03	`01`	`X`	`SPA`	`@0 Red WWW @5 01`
C03	`02`	`X`	`FRE`	`@0 Système information @5 02`
C03	`02`	`X`	`ENG`	`@0 Information system @5 02`
C03	`02`	`X`	`SPA`	`@0 Sistema información @5 02`
C03	`03`	`X`	`FRE`	`@0 Reconnaissance caractère @5 06`
C03	`03`	`X`	`ENG`	`@0 Character recognition @5 06`
C03	`03`	`X`	`SPA`	`@0 Reconocimiento carácter @5 06`
C03	`04`	`X`	`FRE`	`@0 Reconnaissance optique caractère @5 07`
C03	`04`	`X`	`ENG`	`@0 Optical character recognition @5 07`
C03	`04`	`X`	`SPA`	`@0 Reconocimento óptico de caracteres @5 07`
C03	`05`	`X`	`FRE`	`@0 Classification automatique @5 08`
C03	`05`	`X`	`ENG`	`@0 Automatic classification @5 08`
C03	`05`	`X`	`SPA`	`@0 Clasificación automática @5 08`
C03	`06`	`X`	`FRE`	`@0 Analyse contenu @5 09`
C03	`06`	`X`	`ENG`	`@0 Content analysis @5 09`
C03	`06`	`X`	`SPA`	`@0 Análisis contenido @5 09`
C03	`07`	`X`	`FRE`	`@0 Recherche information @5 10`
C03	`07`	`X`	`ENG`	`@0 Information retrieval @5 10`
C03	`07`	`X`	`SPA`	`@0 Búsqueda información @5 10`
C03	`08`	`X`	`FRE`	`@0 Numérisation @5 11`
C03	`08`	`X`	`ENG`	`@0 Digitizing @5 11`
C03	`08`	`X`	`SPA`	`@0 Numerización @5 11`
C03	`09`	`X`	`FRE`	`@0 Image numérique @5 12`
C03	`09`	`X`	`ENG`	`@0 Digital image @5 12`
C03	`09`	`X`	`SPA`	`@0 Imagen numérica @5 12`
C03	`10`	`3`	`FRE`	`@0 Scanneur image @5 13`
C03	`10`	`3`	`ENG`	`@0 Image scanners @5 13`
C03	`11`	`X`	`FRE`	`@0 Faisabilité @5 14`
C03	`11`	`X`	`ENG`	`@0 Feasibility @5 14`
C03	`11`	`X`	`SPA`	`@0 Practicabilidad @5 14`
C03	`12`	`X`	`FRE`	`@0 Texte intégral @5 18`
C03	`12`	`X`	`ENG`	`@0 Full text @5 18`
C03	`12`	`X`	`SPA`	`@0 Texto completo @5 18`
C03	`13`	`X`	`FRE`	`@0 Analyse statistique @5 23`
C03	`13`	`X`	`ENG`	`@0 Statistical analysis @5 23`
C03	`13`	`X`	`SPA`	`@0 Análisis estadístico @5 23`
C03	`14`	`X`	`FRE`	`@0 Approche probabiliste @5 24`
C03	`14`	`X`	`ENG`	`@0 Probabilistic approach @5 24`
C03	`14`	`X`	`SPA`	`@0 Enfoque probabilista @5 24`
C03	`15`	`X`	`FRE`	`@0 Gestion contenu @4 CD @5 96`
C03	`15`	`X`	`ENG`	`@0 Content management @4 CD @5 96`
C03	`15`	`X`	`SPA`	`@0 Gestión contenido @4 CD @5 96`
N21				`@1 017`
N44	`01`			`@1 OTO`
N82				`@1 OTO`

A30	`01`	`1`	`ENG`	`@1 AWCC 2004 : advanced workshop on content computing @3 ZhenJiang CHN @4 2004-11-15`

Format Inist (serveur)

NO :	PASCAL 05-0037779 INIST
ET :	The impact of OCR accuracy on automatic text classification
AU :	ZU (Guowei); MURATA (Mayo); OHYAMA (Wataru); WAKABAYASHI (Tetsushi); KIMURA (Fumitaka); CHI (Chi-Hung); LAM (Kwok-Yan)
AF :	Mie University, Faculty of Engineering, 1515 Kamihama-cho/Tsu-shi, Mie, 5148507/Japon (1 aut., 2 aut., 3 aut., 4 aut., 5 aut.); Toshiba Solutions Corporation, Systems Integration Technology Center, Toshiba Building, 1-1, Shibaura 1-chome/Minato-ku, Tokyo 105-6691/Japon (1 aut.)
DT :	Publication en série; Congrès; Niveau analytique
SO :	Lecture notes in computer science; ISSN 0302-9743; Allemagne; Da. 2004; Vol. 3309; Pp. 403-409; Bibl. 6 ref.
LA :	Anglais
EA :	Current general digitization approach of paper media is converting them into the digital images by a scanner, and then reading them by an OCR to generate ASCII text for full-text retrieval. However, it is impossible to recognize all characters with 100% accuracy by the present OCR technology. Therefore, it is important to know the impact of OCR accuracy on automatic text classification to reveal its technical feasibility. In this research we perform automatic text classification experiments for English newswire articles to study on the relationships between the accuracies of OCR and the text classification employing the statistical classification techniques.
CC :	001D02B07D
FD :	Réseau web; Système information; Reconnaissance caractère; Reconnaissance optique caractère; Classification automatique; Analyse contenu; Recherche information; Numérisation; Image numérique; Scanneur image; Faisabilité; Texte intégral; Analyse statistique; Approche probabiliste; Gestion contenu
ED :	World wide web; Information system; Character recognition; Optical character recognition; Automatic classification; Content analysis; Information retrieval; Digitizing; Digital image; Image scanners; Feasibility; Full text; Statistical analysis; Probabilistic approach; Content management
SD :	Red WWW; Sistema información; Reconocimiento carácter; Reconocimento óptico de caracteres; Clasificación automática; Análisis contenido; Búsqueda información; Numerización; Imagen numérica; Practicabilidad; Texto completo; Análisis estadístico; Enfoque probabilista; Gestión contenido
LO :	INIST-16343.354000124389830490
ID :	05-0037779

Links to Exploration step

Pascal:05-0037779

Le document en format XML

<record><TEI><teiHeader><fileDesc><titleStmt><title xml:lang="en" level="a">The impact of OCR accuracy on automatic text classification</title>
<author><name sortKey="Zu, Guowei" sort="Zu, Guowei" uniqKey="Zu G" first="Guowei" last="Zu">Guowei Zu</name>
<affiliation><inist:fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
<affiliation><inist:fA14 i1="02"><s1>Toshiba Solutions Corporation, Systems Integration Technology Center, Toshiba Building, 1-1, Shibaura 1-chome</s1>
<s2>Minato-ku, Tokyo 105-6691</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Murata, Mayo" sort="Murata, Mayo" uniqKey="Murata M" first="Mayo" last="Murata">Mayo Murata</name>
<affiliation><inist:fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Ohyama, Wataru" sort="Ohyama, Wataru" uniqKey="Ohyama W" first="Wataru" last="Ohyama">Wataru Ohyama</name>
<affiliation><inist:fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Wakabayashi, Tetsushi" sort="Wakabayashi, Tetsushi" uniqKey="Wakabayashi T" first="Tetsushi" last="Wakabayashi">Tetsushi Wakabayashi</name>
<affiliation><inist:fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Kimura, Fumitaka" sort="Kimura, Fumitaka" uniqKey="Kimura F" first="Fumitaka" last="Kimura">Fumitaka Kimura</name>
<affiliation><inist:fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">INIST</idno>
<idno type="inist">05-0037779</idno>
<date when="2004">2004</date>
<idno type="stanalyst">PASCAL 05-0037779 INIST</idno>
<idno type="RBID">Pascal:05-0037779</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000495</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title xml:lang="en" level="a">The impact of OCR accuracy on automatic text classification</title>
<author><name sortKey="Zu, Guowei" sort="Zu, Guowei" uniqKey="Zu G" first="Guowei" last="Zu">Guowei Zu</name>
<affiliation><inist:fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
<affiliation><inist:fA14 i1="02"><s1>Toshiba Solutions Corporation, Systems Integration Technology Center, Toshiba Building, 1-1, Shibaura 1-chome</s1>
<s2>Minato-ku, Tokyo 105-6691</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Murata, Mayo" sort="Murata, Mayo" uniqKey="Murata M" first="Mayo" last="Murata">Mayo Murata</name>
<affiliation><inist:fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Ohyama, Wataru" sort="Ohyama, Wataru" uniqKey="Ohyama W" first="Wataru" last="Ohyama">Wataru Ohyama</name>
<affiliation><inist:fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Wakabayashi, Tetsushi" sort="Wakabayashi, Tetsushi" uniqKey="Wakabayashi T" first="Tetsushi" last="Wakabayashi">Tetsushi Wakabayashi</name>
<affiliation><inist:fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
<author><name sortKey="Kimura, Fumitaka" sort="Kimura, Fumitaka" uniqKey="Kimura F" first="Fumitaka" last="Kimura">Fumitaka Kimura</name>
<affiliation><inist:fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</inist:fA14>
</affiliation>
</author>
</analytic>
<series><title level="j" type="main">Lecture notes in computer science</title>
<idno type="ISSN">0302-9743</idno>
<imprint><date when="2004">2004</date>
</imprint>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt><title level="j" type="main">Lecture notes in computer science</title>
<idno type="ISSN">0302-9743</idno>
</seriesStmt>
</fileDesc>
<profileDesc><textClass><keywords scheme="KwdEn" xml:lang="en"><term>Automatic classification</term>
<term>Character recognition</term>
<term>Content analysis</term>
<term>Content management</term>
<term>Digital image</term>
<term>Digitizing</term>
<term>Feasibility</term>
<term>Full text</term>
<term>Image scanners</term>
<term>Information retrieval</term>
<term>Information system</term>
<term>Optical character recognition</term>
<term>Probabilistic approach</term>
<term>Statistical analysis</term>
<term>World wide web</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr"><term>Réseau web</term>
<term>Système information</term>
<term>Reconnaissance caractère</term>
<term>Reconnaissance optique caractère</term>
<term>Classification automatique</term>
<term>Analyse contenu</term>
<term>Recherche information</term>
<term>Numérisation</term>
<term>Image numérique</term>
<term>Scanneur image</term>
<term>Faisabilité</term>
<term>Texte intégral</term>
<term>Analyse statistique</term>
<term>Approche probabiliste</term>
<term>Gestion contenu</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="en">Current general digitization approach of paper media is converting them into the digital images by a scanner, and then reading them by an OCR to generate ASCII text for full-text retrieval. However, it is impossible to recognize all characters with 100% accuracy by the present OCR technology. Therefore, it is important to know the impact of OCR accuracy on automatic text classification to reveal its technical feasibility. In this research we perform automatic text classification experiments for English newswire articles to study on the relationships between the accuracies of OCR and the text classification employing the statistical classification techniques.</div>
</front>
</TEI>
<inist><standard h6="B"><pA><fA01 i1="01" i2="1"><s0>0302-9743</s0>
</fA01>
<fA05><s2>3309</s2>
</fA05>
<fA08 i1="01" i2="1" l="ENG"><s1>The impact of OCR accuracy on automatic text classification</s1>
</fA08>
<fA09 i1="01" i2="1" l="ENG"><s1>Content computing : ZhenJiang, JiangSu, 15-17 November 2004</s1>
</fA09>
<fA11 i1="01" i2="1"><s1>ZU (Guowei)</s1>
</fA11>
<fA11 i1="02" i2="1"><s1>MURATA (Mayo)</s1>
</fA11>
<fA11 i1="03" i2="1"><s1>OHYAMA (Wataru)</s1>
</fA11>
<fA11 i1="04" i2="1"><s1>WAKABAYASHI (Tetsushi)</s1>
</fA11>
<fA11 i1="05" i2="1"><s1>KIMURA (Fumitaka)</s1>
</fA11>
<fA12 i1="01" i2="1"><s1>CHI (Chi-Hung)</s1>
<s9>ed.</s9>
</fA12>
<fA12 i1="02" i2="1"><s1>LAM (Kwok-Yan)</s1>
<s9>ed.</s9>
</fA12>
<fA14 i1="01"><s1>Mie University, Faculty of Engineering, 1515 Kamihama-cho</s1>
<s2>Tsu-shi, Mie, 5148507</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
<sZ>5 aut.</sZ>
</fA14>
<fA14 i1="02"><s1>Toshiba Solutions Corporation, Systems Integration Technology Center, Toshiba Building, 1-1, Shibaura 1-chome</s1>
<s2>Minato-ku, Tokyo 105-6691</s2>
<s3>JPN</s3>
<sZ>1 aut.</sZ>
</fA14>
<fA20><s1>403-409</s1>
</fA20>
<fA21><s1>2004</s1>
</fA21>
<fA23 i1="01"><s0>ENG</s0>
</fA23>
<fA26 i1="01"><s0>3-540-23898-0</s0>
</fA26>
<fA43 i1="01"><s1>INIST</s1>
<s2>16343</s2>
<s5>354000124389830490</s5>
</fA43>
<fA44><s0>0000</s0>
<s1>© 2005 INIST-CNRS. All rights reserved.</s1>
</fA44>
<fA45><s0>6 ref.</s0>
</fA45>
<fA47 i1="01" i2="1"><s0>05-0037779</s0>
</fA47>
<fA60><s1>P</s1>
<s2>C</s2>
</fA60>
<fA61><s0>A</s0>
</fA61>
<fA64 i1="01" i2="1"><s0>Lecture notes in computer science</s0>
</fA64>
<fA66 i1="01"><s0>DEU</s0>
</fA66>
<fC01 i1="01" l="ENG"><s0>Current general digitization approach of paper media is converting them into the digital images by a scanner, and then reading them by an OCR to generate ASCII text for full-text retrieval. However, it is impossible to recognize all characters with 100% accuracy by the present OCR technology. Therefore, it is important to know the impact of OCR accuracy on automatic text classification to reveal its technical feasibility. In this research we perform automatic text classification experiments for English newswire articles to study on the relationships between the accuracies of OCR and the text classification employing the statistical classification techniques.</s0>
</fC01>
<fC02 i1="01" i2="X"><s0>001D02B07D</s0>
</fC02>
<fC03 i1="01" i2="X" l="FRE"><s0>Réseau web</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="ENG"><s0>World wide web</s0>
<s5>01</s5>
</fC03>
<fC03 i1="01" i2="X" l="SPA"><s0>Red WWW</s0>
<s5>01</s5>
</fC03>
<fC03 i1="02" i2="X" l="FRE"><s0>Système information</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="ENG"><s0>Information system</s0>
<s5>02</s5>
</fC03>
<fC03 i1="02" i2="X" l="SPA"><s0>Sistema información</s0>
<s5>02</s5>
</fC03>
<fC03 i1="03" i2="X" l="FRE"><s0>Reconnaissance caractère</s0>
<s5>06</s5>
</fC03>
<fC03 i1="03" i2="X" l="ENG"><s0>Character recognition</s0>
<s5>06</s5>
</fC03>
<fC03 i1="03" i2="X" l="SPA"><s0>Reconocimiento carácter</s0>
<s5>06</s5>
</fC03>
<fC03 i1="04" i2="X" l="FRE"><s0>Reconnaissance optique caractère</s0>
<s5>07</s5>
</fC03>
<fC03 i1="04" i2="X" l="ENG"><s0>Optical character recognition</s0>
<s5>07</s5>
</fC03>
<fC03 i1="04" i2="X" l="SPA"><s0>Reconocimento óptico de caracteres</s0>
<s5>07</s5>
</fC03>
<fC03 i1="05" i2="X" l="FRE"><s0>Classification automatique</s0>
<s5>08</s5>
</fC03>
<fC03 i1="05" i2="X" l="ENG"><s0>Automatic classification</s0>
<s5>08</s5>
</fC03>
<fC03 i1="05" i2="X" l="SPA"><s0>Clasificación automática</s0>
<s5>08</s5>
</fC03>
<fC03 i1="06" i2="X" l="FRE"><s0>Analyse contenu</s0>
<s5>09</s5>
</fC03>
<fC03 i1="06" i2="X" l="ENG"><s0>Content analysis</s0>
<s5>09</s5>
</fC03>
<fC03 i1="06" i2="X" l="SPA"><s0>Análisis contenido</s0>
<s5>09</s5>
</fC03>
<fC03 i1="07" i2="X" l="FRE"><s0>Recherche information</s0>
<s5>10</s5>
</fC03>
<fC03 i1="07" i2="X" l="ENG"><s0>Information retrieval</s0>
<s5>10</s5>
</fC03>
<fC03 i1="07" i2="X" l="SPA"><s0>Búsqueda información</s0>
<s5>10</s5>
</fC03>
<fC03 i1="08" i2="X" l="FRE"><s0>Numérisation</s0>
<s5>11</s5>
</fC03>
<fC03 i1="08" i2="X" l="ENG"><s0>Digitizing</s0>
<s5>11</s5>
</fC03>
<fC03 i1="08" i2="X" l="SPA"><s0>Numerización</s0>
<s5>11</s5>
</fC03>
<fC03 i1="09" i2="X" l="FRE"><s0>Image numérique</s0>
<s5>12</s5>
</fC03>
<fC03 i1="09" i2="X" l="ENG"><s0>Digital image</s0>
<s5>12</s5>
</fC03>
<fC03 i1="09" i2="X" l="SPA"><s0>Imagen numérica</s0>
<s5>12</s5>
</fC03>
<fC03 i1="10" i2="3" l="FRE"><s0>Scanneur image</s0>
<s5>13</s5>
</fC03>
<fC03 i1="10" i2="3" l="ENG"><s0>Image scanners</s0>
<s5>13</s5>
</fC03>
<fC03 i1="11" i2="X" l="FRE"><s0>Faisabilité</s0>
<s5>14</s5>
</fC03>
<fC03 i1="11" i2="X" l="ENG"><s0>Feasibility</s0>
<s5>14</s5>
</fC03>
<fC03 i1="11" i2="X" l="SPA"><s0>Practicabilidad</s0>
<s5>14</s5>
</fC03>
<fC03 i1="12" i2="X" l="FRE"><s0>Texte intégral</s0>
<s5>18</s5>
</fC03>
<fC03 i1="12" i2="X" l="ENG"><s0>Full text</s0>
<s5>18</s5>
</fC03>
<fC03 i1="12" i2="X" l="SPA"><s0>Texto completo</s0>
<s5>18</s5>
</fC03>
<fC03 i1="13" i2="X" l="FRE"><s0>Analyse statistique</s0>
<s5>23</s5>
</fC03>
<fC03 i1="13" i2="X" l="ENG"><s0>Statistical analysis</s0>
<s5>23</s5>
</fC03>
<fC03 i1="13" i2="X" l="SPA"><s0>Análisis estadístico</s0>
<s5>23</s5>
</fC03>
<fC03 i1="14" i2="X" l="FRE"><s0>Approche probabiliste</s0>
<s5>24</s5>
</fC03>
<fC03 i1="14" i2="X" l="ENG"><s0>Probabilistic approach</s0>
<s5>24</s5>
</fC03>
<fC03 i1="14" i2="X" l="SPA"><s0>Enfoque probabilista</s0>
<s5>24</s5>
</fC03>
<fC03 i1="15" i2="X" l="FRE"><s0>Gestion contenu</s0>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fC03 i1="15" i2="X" l="ENG"><s0>Content management</s0>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fC03 i1="15" i2="X" l="SPA"><s0>Gestión contenido</s0>
<s4>CD</s4>
<s5>96</s5>
</fC03>
<fN21><s1>017</s1>
</fN21>
<fN44 i1="01"><s1>OTO</s1>
</fN44>
<fN82><s1>OTO</s1>
</fN82>
</pA>
<pR><fA30 i1="01" i2="1" l="ENG"><s1>AWCC 2004 : advanced workshop on content computing</s1>
<s3>ZhenJiang CHN</s3>
<s4>2004-11-15</s4>
</fA30>
</pR>
</standard>
<server><NO>PASCAL 05-0037779 INIST</NO>
<ET>The impact of OCR accuracy on automatic text classification</ET>
<AU>ZU (Guowei); MURATA (Mayo); OHYAMA (Wataru); WAKABAYASHI (Tetsushi); KIMURA (Fumitaka); CHI (Chi-Hung); LAM (Kwok-Yan)</AU>
<AF>Mie University, Faculty of Engineering, 1515 Kamihama-cho/Tsu-shi, Mie, 5148507/Japon (1 aut., 2 aut., 3 aut., 4 aut., 5 aut.); Toshiba Solutions Corporation, Systems Integration Technology Center, Toshiba Building, 1-1, Shibaura 1-chome/Minato-ku, Tokyo 105-6691/Japon (1 aut.)</AF>
<DT>Publication en série; Congrès; Niveau analytique</DT>
<SO>Lecture notes in computer science; ISSN 0302-9743; Allemagne; Da. 2004; Vol. 3309; Pp. 403-409; Bibl. 6 ref.</SO>
<LA>Anglais</LA>
<EA>Current general digitization approach of paper media is converting them into the digital images by a scanner, and then reading them by an OCR to generate ASCII text for full-text retrieval. However, it is impossible to recognize all characters with 100% accuracy by the present OCR technology. Therefore, it is important to know the impact of OCR accuracy on automatic text classification to reveal its technical feasibility. In this research we perform automatic text classification experiments for English newswire articles to study on the relationships between the accuracies of OCR and the text classification employing the statistical classification techniques.</EA>
<CC>001D02B07D</CC>
<FD>Réseau web; Système information; Reconnaissance caractère; Reconnaissance optique caractère; Classification automatique; Analyse contenu; Recherche information; Numérisation; Image numérique; Scanneur image; Faisabilité; Texte intégral; Analyse statistique; Approche probabiliste; Gestion contenu</FD>
<ED>World wide web; Information system; Character recognition; Optical character recognition; Automatic classification; Content analysis; Information retrieval; Digitizing; Digital image; Image scanners; Feasibility; Full text; Statistical analysis; Probabilistic approach; Content management</ED>
<SD>Red WWW; Sistema información; Reconocimiento carácter; Reconocimento óptico de caracteres; Clasificación automática; Análisis contenido; Búsqueda información; Numerización; Imagen numérica; Practicabilidad; Texto completo; Análisis estadístico; Enfoque probabilista; Gestión contenido</SD>
<LO>INIST-16343.354000124389830490</LO>
<ID>05-0037779</ID>
</server>
</inist>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/PascalFrancis/Corpus

HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000495 | SxmlIndent | more

HfdSelect -h $EXPLOR_AREA/Data/PascalFrancis/Corpus/biblio.hfd -nk 000495 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    PascalFrancis
   |étape=   Corpus
   |type=    RBID
   |clé=     Pascal:05-0037779
   |texte=   The impact of OCR accuracy on automatic text classification
}}

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024

	Serveur d'exploration sur l'OCR
	Attention, ce site est en cours de développement ! Attention, site généré par des moyens informatiques à partir de corpus bruts. Les informations ne sont donc pas validées.

Serveur d'exploration sur l'OCR

The impact of OCR accuracy on automatic text classification

The impact of OCR accuracy on automatic text classification

Source :

Descripteurs français

English descriptors

Abstract

Notice en format standard (ISO 2709)

Format Inist (serveur)

Links to Exploration step

Le document en format XML

Pour manipuler ce document sous Unix (Dilib)

Pour mettre un lien sur cette page dans le réseau Wicri