More references
This commit is contained in:
@@ -17,30 +17,30 @@ Da Tesseract auf klare und scharfe Kontraste angewiesen ist, um Text korrekt zu
|
||||
\begin{figure}[ht]
|
||||
\centering
|
||||
\subcaptionbox
|
||||
{Original}
|
||||
{\fbox{\includegraphics[width=0.15\textwidth]{include/resampling/source.png}}}
|
||||
{Original}
|
||||
{\fbox{\includegraphics[width=0.15\textwidth]{include/resampling/source.png}}}
|
||||
\hspace{0.005\textwidth}
|
||||
\subcaptionbox
|
||||
{Nearest-Neighbor}
|
||||
{\fbox{\includegraphics[width=0.24\textwidth]{include/resampling/Nearest.png}}}
|
||||
{Nearest-Neighbor}
|
||||
{\fbox{\includegraphics[width=0.24\textwidth]{include/resampling/Nearest.png}}}
|
||||
\hspace{0.005\textwidth}
|
||||
\subcaptionbox
|
||||
{Hermite}
|
||||
{\fbox{\includegraphics[width=0.24\textwidth]{include/resampling/Hermite.png}}}
|
||||
{Hermite}
|
||||
{\fbox{\includegraphics[width=0.24\textwidth]{include/resampling/Hermite.png}}}
|
||||
\hspace{0.005\textwidth}
|
||||
\subcaptionbox
|
||||
{Lanczos}
|
||||
{\fbox{\includegraphics[width=0.24\textwidth]{include/resampling/Lanczos.png}}}
|
||||
{Lanczos}
|
||||
{\fbox{\includegraphics[width=0.24\textwidth]{include/resampling/Lanczos.png}}}
|
||||
\caption{Ein Vergleich unterschiedlicher Resampling-Filter. Durch die Aufteilung der Fehler auf mehrere Pixel bleiben Details und Konturen bei Anwendung des Lanczos-Filters vergleichsweise gut erhalten und der Text ist gut lesbar.}
|
||||
\label{fig:algorithmen_resampling_vergleich}
|
||||
\end{figure}
|
||||
|
||||
Nach einigen Tests fällt auf, dass Bilder, die mittels des Spline-Verfahrens \mcite{spline} oder der Hermite-Interpolation \mcite{hermite} skaliert wurden, weiche Konturen ohne harte Farbübergänge aufweisen. Tesseract profitiert jedoch stark von klaren Texten und hohen Kontrasten, weswegen diese Art des Resamplings keine ideale Basis für das Preprocessing bietet. Deswegen wird für die weiteren Schritte die Interpolation nach Lanczos \mcite{lanczos} für das Resampling verwendet.
|
||||
Nach einigen Tests fällt auf, dass Bilder, die mittels des Spline-Verfahrens \mcite{briand2018theory,unser1999splines} oder der Hermite-Interpolation \mcite{seta2009digital} skaliert wurden, weiche Konturen ohne harte Farbübergänge aufweisen. Tesseract profitiert jedoch stark von klaren Texten und hohen Kontrasten, weswegen diese Art des Resamplings keine ideale Basis für das Preprocessing bietet. Deswegen wird für die weiteren Schritte die Interpolation nach Lanczos \mcite{fadnavis2014image} für das Resampling verwendet.
|
||||
|
||||
\subsubsection{Rahmen}
|
||||
\label{algorithmen_rahmen}
|
||||
|
||||
Befindet sich Text zu nah am Rand des Bildes, kommt es vor, dass dieser nicht richtig erkannt wird. Ebenso kann auch ein zu großer einfärbiger Rahmen am Rand des Bildes die Texterkennung stören. Bei Rahmengrößen wie in \autoref{fig:rahmen_groß} kommt es vor, dass Bildsektionen fälschlicherweise als "leer" erkannt und übersprungen werden, wodurch der zu erkennende Text nicht in die Ergebnisdaten mit aufgenommen wird.
|
||||
Befindet sich Text zu nah am Rand des Bildes, wird dieser nicht immer richtig erkannt. Ebenso kann auch ein zu großer einfärbiger Rahmen am Rand des Bildes die Texterkennung stören. Bei Rahmengrößen wie in \autoref{fig:rahmen_groß} kommt es vor, dass Bildsektionen fälschlicherweise als "leer" erkannt und übersprungen werden, wodurch der zu erkennende Text nicht in die Ergebnisdaten mit aufgenommen wird.
|
||||
|
||||
\begin{figure}[ht]
|
||||
\centering
|
||||
@@ -97,7 +97,7 @@ Die adaptive Schwellenwertmethode gehört zu den halbautomatischen Schwellenwert
|
||||
\fbox{\includegraphics[width=0.49\textwidth]{include/screenshots/zrs_REPORTS_EfficencyClass_009.png}}
|
||||
\hfill
|
||||
\fbox{\includegraphics[width=0.49\textwidth]{\detokenize{include/results/ThresholdAdaptiveProcessor(20_20).00.zrs_REPORTS_EfficencyClass_009.png}}}
|
||||
|
||||
|
||||
\caption{Anwendung der adaptiven Schwellenwertmethode auf einen Beispielscreenshot. Die Blockgröße ist gut an den Bildinhalt angepasst und alle Details bleiben erhalten. Dieses Verfahren punktet hier besonders bei den farbigen "Energy Labels", deren Textinhalte sonst mittels keinem anderen Verfahren komplett erkannt wurden.}
|
||||
\label{thresholding_adaptive_vergleich_gut}
|
||||
\end{figure}
|
||||
|
||||
@@ -246,7 +246,7 @@ Die OCR-Bibliothek beinhaltet elementare Funktionen für die Texterkennung. Sie
|
||||
\subsubsection{Automatische Berichterstellung}
|
||||
\label{components_reportgenerator}
|
||||
|
||||
Mithilfe des ReportGenerator-Frameworks wird die automatische Berichterstellung für unterschiedlichste Ausgabeformate abstrahiert. Durch die mitgelieferten Schnittstellendefinitionen ist es möglich, eigene Ausgabeformate zu definieren. Der gesamte Funktionsumfang des ReportGenerators, beispielsweise das Erstellen von Tabellen oder das Anlegen und Überschriften, kann durch die Implementerung von Interfaces wie Programm \ref{prg:reportgenerator_interface} an die jeweilige Syntax und Dokumentstruktur angepasst werden.
|
||||
Mithilfe des ReportGenerator-Frameworks wird die automatische Berichterstellung für unterschiedlichste Ausgabeformate abstrahiert. Durch die mitgelieferten Schnittstellendefinitionen ist es möglich, eigene Ausgabeformate zu definieren. Der gesamte Funktionsumfang des ReportGenerators, beispielsweise das Erstellen von Tabellen oder das Anlegen und Überschriften, kann durch die Implementierung von Interfaces wie Programm \ref{prg:reportgenerator_interface} an die jeweilige Syntax und Dokumentstruktur angepasst werden.
|
||||
|
||||
\begin{program}[!ht]
|
||||
\begin{CsCode}[numbers=none]
|
||||
|
||||
+65
-31
@@ -120,9 +120,9 @@
|
||||
@article{islam2017survey,
|
||||
title = {A survey on optical character recognition systems},
|
||||
author = {Islam, Noman and Islam, Zeeshan and Noor, Nazia},
|
||||
url = {https://doi.org/10.48550/arXiv.1710.05703},
|
||||
year = 2017,
|
||||
journal = {arXiv preprint}
|
||||
journal = {arXiv preprint},
|
||||
url = {https://doi.org/10.48550/arXiv.1710.05703}
|
||||
}
|
||||
@article{kalyanathaya2019advances,
|
||||
title = {Advances in natural language processing: a survey of current research trends, development tools and industry applications},
|
||||
@@ -149,14 +149,14 @@
|
||||
url = {https://inria.hal.science/hal-01981731}
|
||||
}
|
||||
@inproceedings{levenshtein1966binary,
|
||||
title = {Binary codes capable of correcting deletions, insertions, and reversals},
|
||||
author = {Levenshtein, Vladimir I and others},
|
||||
booktitle = {Soviet physics doklady},
|
||||
volume = 10,
|
||||
number = 8,
|
||||
pages = {707--710},
|
||||
year = 1966,
|
||||
organization = {Soviet Union}
|
||||
title = {Binary codes capable of correcting deletions, insertions, and reversals},
|
||||
author = {Levenshtein, Vladimir I and others},
|
||||
year = 1966,
|
||||
booktitle = {Soviet physics doklady},
|
||||
volume = 10,
|
||||
number = 8,
|
||||
pages = {707--710},
|
||||
organization = {Soviet Union}
|
||||
}
|
||||
@article{mursari2021effectiveness,
|
||||
title = {The effectiveness of image preprocessing on digital handwritten scripts recognition with the implementation of OCR Tesseract},
|
||||
@@ -172,17 +172,17 @@
|
||||
year = 1979,
|
||||
journal = {IEEE transactions on systems, man, and cybernetics},
|
||||
publisher = {IEEE},
|
||||
doi = {10.1109/TSMC.1979.4310076},
|
||||
url = {https://ieeexplore.ieee.org/document/4310076},
|
||||
volume = 9,
|
||||
number = 1
|
||||
number = 1,
|
||||
doi = {10.1109/TSMC.1979.4310076},
|
||||
url = {https://ieeexplore.ieee.org/document/4310076}
|
||||
}
|
||||
@inproceedings{park2008empirical,
|
||||
title = {An empirical analysis of word error rate and keyword error rate.},
|
||||
author = {Park, Youngja and Patwardhan, Siddharth and Visweswariah, Karthik and Gates, Stephen C},
|
||||
year = 2008,
|
||||
month = 9,
|
||||
doi = {10.21437/Interspeech.2008-537}
|
||||
doi = {10.21437/Interspeech.2008-537}
|
||||
}
|
||||
@article{sahoo1988survey,
|
||||
title = {A survey of thresholding techniques},
|
||||
@@ -196,12 +196,12 @@
|
||||
@inproceedings{Smith2007,
|
||||
title = {An Overview of the Tesseract OCR Engine},
|
||||
author = {Smith, Ray},
|
||||
booktitle = {Ninth international conference on document analysis and recognition (ICDAR 2007)},
|
||||
booktitle = {Ninth international conference on document analysis and recognition (ICDAR 2007)},
|
||||
volume = 2,
|
||||
url = {https://ieeexplore.ieee.org/document/4376991},
|
||||
urldate = {2024-02-12},
|
||||
date = 2007,
|
||||
organization = {IEEE},
|
||||
volume = 2,
|
||||
organization = {IEEE},
|
||||
langid = {ngerman}
|
||||
}
|
||||
@article{sporici2020improving,
|
||||
@@ -230,16 +230,16 @@
|
||||
}
|
||||
@online{textract_home,
|
||||
title = {Amazon Textract - Homepage},
|
||||
url = {https://aws.amazon.com/textract},
|
||||
author = {Amazon Web Services, Inc.},
|
||||
url = {https://aws.amazon.com/textract},
|
||||
urldate = {2024-02-12},
|
||||
date = {2023-05-23},
|
||||
language = {eng}
|
||||
}
|
||||
@online{textract_pricing,
|
||||
title = {Amazon Textract - Pricing},
|
||||
url = {https://aws.amazon.com/textract/pricing/},
|
||||
author = {Amazon Web Services, Inc.},
|
||||
url = {https://aws.amazon.com/textract/pricing/},
|
||||
urldate = {2024-02-12},
|
||||
date = {2023-05-23},
|
||||
language = {eng}
|
||||
@@ -255,18 +255,17 @@
|
||||
keywords = {Amazon Web Services, Google Cloud Platform, Historical Documents, Microsoft Azure, Old Bailey, Optical Character Recognition},
|
||||
language = {English (US)}
|
||||
}
|
||||
@inproceedings{tong1996statistical
|
||||
title = {A Statistical Approach to Automatic OCR Error Correction in Context},
|
||||
author = {Tong, Xiang and Evans, David A.},
|
||||
editor = {Scott, Donia},
|
||||
booktitle = {Fourth Workshop on Very Large Corpora},
|
||||
month = {jun},
|
||||
year = 1996,
|
||||
address = {Herstmonceux Castle, Sussex, UK},
|
||||
publisher = {Association for Computational Linguistics},
|
||||
url = {https://aclanthology.org/W96-0108},
|
||||
@inproceedings{tong1996statistical,
|
||||
title = {A Statistical Approach to Automatic OCR Error Correction in Context},
|
||||
author = {Tong, Xiang and Evans, David A.},
|
||||
year = 1996,
|
||||
month = {jun},
|
||||
booktitle = {Fourth Workshop on Very Large Corpora},
|
||||
publisher = {Association for Computational Linguistics},
|
||||
address = {Herstmonceux Castle, Sussex, UK},
|
||||
url = {https://aclanthology.org/W96-0108},
|
||||
editor = {Scott, Donia}
|
||||
}
|
||||
|
||||
@image{unimodal-histogram,
|
||||
title = {Histogram of tips given in a restaurant},
|
||||
author = {Wikimedia Commons},
|
||||
@@ -279,7 +278,7 @@
|
||||
author = {Wang, Ye-Yi and Acero, Alex and Chelba, Ciprian},
|
||||
year = 2003,
|
||||
booktitle = {2003 IEEE workshop on automatic speech recognition and understanding (IEEE Cat. No. 03EX721)},
|
||||
pages = {577--582},
|
||||
pages = {577--582},
|
||||
organization = {IEEE}
|
||||
}
|
||||
@article{wilbur1992automatic,
|
||||
@@ -300,3 +299,38 @@
|
||||
volume = 25,
|
||||
number = 7
|
||||
}
|
||||
@inproceedings{seta2009digital,
|
||||
title={Digital image interpolation method using higher-order Hermite interpolating polynomials with compact finite-difference},
|
||||
author={Seta, Ryo and Okubo, Kan and Tagawa, Norio},
|
||||
booktitle={Proceedings: APSIPA ASC 2009: Asia-Pacific Signal and Information Processing Association, 2009 Annual Summit and Conference},
|
||||
pages={406--409},
|
||||
year={2009},
|
||||
organization={Asia-Pacific Signal and Information Processing Association}
|
||||
}
|
||||
@article{briand2018theory,
|
||||
title={Theory and practice of image B-spline interpolation},
|
||||
author={Briand, Thibaud and Monasse, Pascal},
|
||||
journal={Image Processing On Line},
|
||||
volume={8},
|
||||
pages={99--141},
|
||||
year={2018}
|
||||
}
|
||||
@article{unser1999splines,
|
||||
title={Splines: A perfect fit for signal and image processing},
|
||||
author={Unser, Michael},
|
||||
journal={IEEE Signal processing magazine},
|
||||
volume={16},
|
||||
number={6},
|
||||
pages={22--38},
|
||||
year={1999},
|
||||
publisher={IEEE}
|
||||
}
|
||||
@article{fadnavis2014image,
|
||||
title={Image interpolation techniques in digital image processing: an overview},
|
||||
author={Fadnavis, Shreyas},
|
||||
journal={International Journal of Engineering Research and Applications},
|
||||
volume={4},
|
||||
number={10},
|
||||
pages={70--73},
|
||||
year={2014}
|
||||
}
|
||||
|
||||
Reference in New Issue
Block a user