CIDE (2009) Ouwayed : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
imported>Abdelhakim Aidene
Ligne 20 : Ligne 20 :
 
   |titre=English description
 
   |titre=English description
 
   |contenu=
 
   |contenu=
;Abstract: This paper presents a novel approach for the multi-oriented text line extraction from historical handwritten Arabic documents. Because of the multi- orientation of lines and their dispersion in the page, we use an image paving allowing us to progressively and locally determine the lines. The paving is initialized with a small window and then its size is corrected by extension until enough lines and connected components were found. We use the Snake for line extraction. Once the paving is established, the orientation is determined using the Wigner-Ville distribution (WVD) on the histogram projection profile. This local
+
;Abstract: This paper presents a novel approach for the multi-oriented text line extraction from historical handwritten Arabic documents. Because of the multi- orientation of lines and their dispersion in the page, we use an image paving allowing us to progressively and locally determine the lines. The paving is initialized with a small window and then its size is corrected by extension until enough lines and connected components were found. We use the Snake for line extraction. Once the paving is established, the orientation is determined using the Wigner-Ville distribution (WVD) on the histogram projection profile. This local orientation is then enlarged to limit the orientation in the neighbourhood. Afterwards, the text lines are extracted locally in each zone basing on the follow- up of the baselines and the proximity of connected components. Finally, the connected components that overlap and touch in adjacent lines are separated. The morphology analysis of the terminal letters of Arabic words is here considered. The proposed approach has been experimented on 100 documents reaching an accuracy of about 97.6%.
 
 
 
orientation is then enlarged to limit the orientation in the neighbourhood. Afterwards, the text lines are extracted locally in each zone basing on the follow- up of the baselines and the proximity of connected components. Finally, the connected components that overlap and touch in adjacent lines are separated. The morphology analysis of the terminal letters of Arabic words is here considered. The proposed approach has been experimented on 100 documents reaching an accuracy of about 97.6%.
 
  
 
}}
 
}}

Version du 15 juin 2016 à 10:30

Une approche générale pour l’extraction de lignes des documents Arabes anciens multi-orientés


 
 

 
titre
Une approche générale pour l’extraction de lignes des documents Arabes anciens multi-orientés
auteurs
Nazih Ouwayed et Abdel Belaïd.
Affiliations
Université Nancy 2, LORIA, Équipe READ,Vandœuvre-Lès-Nancy, France
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Ouwayed.pdf
Mots-clés 
Documents Arabes manuscrits, extraction de lignes, estimation de l’orientation, Snake, distribution de Wigner-Ville, chevauchement et connexion de lignes.
Keywords
Handwritten Arabic documents, text line extraction, orientation estimation, Snake, Wigner-Ville distribution, overlapping and touching lines.
Résumé
Dans cet article, nous présentons une nouvelle approche pour l’extraction de lignes des documents Arabes anciens multi-orientés. En raison de la multi-orientation de lignes et de leur dispersion dans l’image, nous utilisons un maillage automatique de l’image qui nous permet de déterminer progressivement et localement les lignes. Le maillage est initialisé avec une petite fenêtre où sa taille est corrigée par extension jusqu'à ce que suffisamment de lignes et de composantes connexes ont été trouvées. Nous utilisons le Snake pour l’extraction de lignes. Une fois le document est divisé en fenêtres, l’orientation est déterminée en utilisant la distribution de Wigner Ville (DWV) sur l'histogramme de projection. Ensuite, cette orientation locale est élargie pour limiter l'orientation dans les fenêtres voisines. Ensuite, les lignes de texte sont extraites localement dans chaque zone en se basant sur le suivi des lignes de base et la proximité des composantes connexes. Enfin, les composantes connexes qui se chevauchent et se connectent dans les lignes adjacentes sont séparées en considérant la morphologie des lettres terminales des mots Arabes. L'approche proposée a été expérimentée sur 100 documents atteignant une précision d’environ 97.6%.