thesis/chapters/c40_durchführung/analyse.tex

\section{Evaluierung}
\label{analyse}

Nachdem die vorbereiteten Bilddaten an das Texterkennungssystem gemäß \autoref{implementierung} übergeben und die Ergebnisse ermittelt wurden, werden die extrahierten Textdaten nun mit den manuell erstellten "Soll-Daten" verglichen. Anhand der Statistik kann festgestellt werden, welche Vorgehensweise zu der besten Qualität führt. Um die Ergebnisse zu visualisieren, erstellt der in \autoref{components_reportgenerator} beschriebene "ReportGenerator" auf Basis der Bilddateinamen automatisch einen Bericht mit den Vergleichsdaten in Tabellenform. Der erstellte Bericht wird in verschiedene Kategorien unterteilt.

\subsection{Vergleich im Detail}
\label{report_detailed}

\subsubsection{Processor Stats}

In der Sektion "Processor Stats", siehe \autoref{tbl:report_detailed_processorstats}, wird die Gesamtwortfehlerrate pro Bild mit dem jeweiligen Prozessor in Verhältnis gesetzt. Anhand der Metriken ist zu erkennen, dass gewisse Bilder aufgrund ihrer Eigenschaften (niedrige Auflösung, schwierige Farbgebung, etc.) von allen Prozessoren gleichermaßen schlecht erkannt werden. Jedoch fallen auch Spezialfälle auf: So werden beispielsweise die Textdaten in den Dialog-Knöpfen des Bilds "worldview\_zoom\_steps\_001" Dank eines falsch gewählten Schwellenwerts unkenntlich gemacht. Die Texterkennung schlägt fehl.

\begin{table}[!ht]
  \centering
  \input{include/figures/fig_AutoThresholdProcessor(Kapur)_1.tex}
  \caption{Auszug aus der "Processor Stats" Tabelle im generierten Bericht. Die Eigenschaften der Originalbilder im Vergleich zu den verarbeiteten Bildern geben Aufschluss über die Arbeitsweise und Effektivität des Prozessors.}
  \label{tbl:report_detailed_processorstats}
\end{table}

\subsubsection{Scan Results}

Die Sektion "Scan Results" bildet den Abschluss des Detailvergleichs. Hier werden alle Verfahrenskombinationen einzeln und mit allen verfügbaren Daten aufgeführt.

\begin{table}[!ht]
  \centering
  \input{include/figures_modified/fig_command-processing_screentypes_controlgroup_005_1.I.tex}
  \caption{Auszug aus der "Scan Results" Tabelle im generierten Bericht. Für jede Ausgabedatei werden sämtliche Statistiken aufgelistet.}
  \label{tbl:report_detailed_scanresults_stats}
\end{table}

\begin{table}[!ht]
  \centering
  \input{include/figures_modified/fig_command-processing_screentypes_controlgroup_005_1.II.tex}
  \caption{Auszug aus der "Scan Results" Tabelle im generierten Bericht. Neben der numerischen Statistik erfolgt zudem ein Vergleich der tatsächlichen Inhalte mit den erkannten Wörtern. "-" steht hierbei für ein nicht erkanntes Wort.}
  \label{tbl:report_detailed_scanresults_words}
\end{table}

\subsection{Prozessoren im Überblick}
\label{report_processingsummary}

Neben dem Detailvergleich beinhaltet der generierte Bericht auch die "Processing Summary". Diese Kategorie zeigt eine kurze Übersicht aller Ergebnisse. Je nach Rubrik wird jeweils der Median \bzw Durchschnitt der \hyperref[metriken_cer]{Character Error Rate} und \hyperref[metriken_wer]{Word Error Rate} berechnet.

Auf Basis der Daten in \autoref{tbl:report_summary_wer}, \autoref{tbl:report_summary_cer} und \autoref{tbl:report_summary_time} lässt sich der Gesamterfolg der Bildvorbereitung \bzw der darauf folgenden Filterung feststellen.

Beispielsweise eignet sich die Dreiecks-Schwellenwertmethode, wie in \autoref{thresholding_triangle} vermutet, nicht für die Texterkennung. In der Detailübersicht zeigt sich, dass für die Bilder oft ein Schwellenwert gewählt wurde, der die Texterkennung unmöglich macht. Bei Anwendung des fixen Schwellenwertverfahrens werden mit dem richtigen Schwellenwert durchschnittlich sehr gute Ergebnisse erzielt \bzw beim Verfahren nach Otsu oft ein geeigneter Schwellenwert gewählt, wodurch ein gutes Ausgangsbild für die Texterkennung entsteht.

Während die Fehlerquoten der Texterkennung mit Vorbereitung der Daten die der Texterkennung ohne Vorbereitung in den meisten Fällen unterbieten, ist das Ergebnis insgesamt unzufriedenstellend. Selbst bei Verwendung des fixen Thresholdingverfahrens mit einem Schwellenwert von 40 \% werden durchschnittlich Ergebnisse mit einer Wortfehlerrate von mindestens 46 \% \bzw 1,5 falsch erkannten Zeichen pro Wort erreicht. Die relativ hohe Standardabweichung von 26 \% lässt auf eine hohe Streuung der Ergebnisdaten, also unregelmäßig gute Erfolge schließen.

\begin{table}[!ht]
  \centering
  \input{include/figures/fig_WER_1}
  \caption{Auszug aus der "Processing Summary" Tabelle im generierten Bericht: Auflistung der Verfahren mit den durchschnittlich besten und schlechtesten Ergebnissen auf Basis der Word Error Rate. Die jeweilige Verarbeitungsmethode ist in der Spalte "Processor" zu finden, die Wortfehlerrate und die Standardabweichung in "Time" und "Deviation".}
  \label{tbl:report_summary_wer}
\end{table}

\begin{table}[!ht]
  \centering
  \input{include/figures/fig_CER_1}
  \caption{Auszug aus der "Processing Summary" Tabelle im generierten Bericht: Auflistung der Verfahren mit den durchschnittlich besten und schlechtesten Ergebnissen auf Basis der Character Error Rate. Die jeweilige Verarbeitungsmethode ist in der Spalte "Processor" zu finden, die Zeichenfehlerrate und die Standardabweichung in "Time" und "Deviation".}
  \label{tbl:report_summary_cer}
\end{table}

\begin{table}[!ht]
  \centering
  \input{include/figures/fig_Time_1}
  \caption{Auszug aus der "Processing Summary" Tabelle im generierten Bericht: Auflistung der Verfahren mit den durchschnittlich besten und schlechtesten Ergebnissen auf Basis der Laufzeit. Die jeweilige Verarbeitungsmethode ist in der Spalte "Processor" zu finden, die Laufzeit und die Standardabweichung in "Time" und "Deviation".}
  \label{tbl:report_summary_time}
\end{table}