thesis/chapters/c30_konzept/vergleich/metriken.tex

% TODO merge

\subsection{Metriken}
\label{metriken}

Um die erkannten Ergebnisse unter Verwendung der verschiedenen Pre- und Postprocessing Schritte mittels eines einheitlichen Systems vergleichen zu können, wird auf die in der optischen Texterkennung gängigen Metriken "Character Metric", auch bekannt als "Character Error Rate" und "Word metric" oder "Word Error Rate" (\kurz{WER})\mcite{karpinski2018metrics}, basierend auf der Levenshtein-Distanz \mcite{levenshtein1966binary} zurückgegriffen.

Sowohl die Character- als auch die Word Error Rate sind beliebte Vergleichswerte, die ihren Ursprung in der computergestützten Sprachverarbeitung \bzw automatischen Spracherkennung haben \mcite{wang2003word}. Da die optische Texterkennung und die automatische Spracherkennung jeweils darauf abzielen, maschinenlesbaren Text aus nicht-strukturierten Daten zu extrahieren, sind die Prinzipien dieser Metriken auch auf die optische Texterkennung anwendbar \mcite{tong1996statistical}.

\subsubsection{Word Error Rate}
\label{metriken_wer}

Die Word Error Rate (\kurz{WER}) beschreibt den prozentualen Anteil der falsch erkannten oder fehlenden Wörter eines Textes im Vergleich zu einer Referenz, welche im Falle der folgenden Vergleiche immer alle sichtbaren Texte im Bild repräsentiert. Je niedriger die WER, desto genauer ist der OCR-Vorgang. Um die WER zu berechnen, bildet man die Summe aller notwendigen Ersetzungen, Entfernungen und Einfügungen, um aus dem erkannten Text den Referenztext bilden zu können und setzt sie mit der Gesamtwortanzahl im Referenztext in Verhältnis \mcite{park2008empirical}.

\subsubsubsection{Berechnung}

Die mathematische Formel für die Word Error Rate lautet somit wie folgt:
\begin{center}
  \[
    \text{WER} = \frac{S + D + I}{N}
  \]
  \label{formula:wer}
\end{center}
wobei die einzelnen Komponenten folgende Größen darstellen:
\begin{itemize}
  \item \(S\) beschreibt die Anzahl der falsch erkannten Wörter (\engl{Substitutions})
  \item \(D\) beschreibt die Anzahl der im Resultat fehlenden Wörter (\engl{Deletions})
  \item \(I\) beschreibt die Anzahl der im Resultat fälschlicherweise eingefügte Wörter (\engl{Insertions})
  \item \(N\) beschreibt die Gesamtanzahl der Wörter in der Referenz
\end{itemize}

\subsubsubsection{Vorteile und Nachteile}

Die WER spiegelt ohne großen Rechenaufwand direkt wider, wie stark die erkannten Texte der Referenz gleichen. Hierbei werden fehlerhafte Einsetzungen, Löschungen und falsch erkannte Wörter \bzw Teilwörter gleichermaßen gewichtet. Es ist jedoch nicht möglich, die korrekte Reihenfolge der erkannten Wörter darzustellen oder bestimmte wichtige Stellen im Text höher zu gewichten als andere. Auch werden fehlerhaft erkannte Wörter, auch wenn nur ein einzelner Buchstabe falsch ist, als vollwertige Ersetzung wahrgenommen, wodurch die WER selbst bei bis auf wenige Zeichen gut erkannte Texte stark beeinflusst werden kann.

Um also ein umfassendes Bild von der Genauigkeit des Texterkennungssystems zu erhalten, ist es sinnvoll, die Ergebnisse nicht nur anhand der WER, sondern auch noch mindestens anhand einer weiteren Fehlermetrik, wie beispielsweise der CER, zu vergleichen.

\subsubsection{Character Error Rate}
\label{metriken_cer}

Die Character Error Rate (CER) beschreibt die Anzahl der falsch erkannten oder fehlenden Zeichen im Vergleich zu einem Referenzwort und basiert auf der Levenshtein-Distanz \mcite{levenshtein1966binary}. Je niedriger die CER, desto genauer ist der OCR-Vorgang. Ähnlich wie die WER wird die CER aus der Summe aller notwendigen Ersetzungen, Entfernungen und Einfügungen, um aus dem erkannten Wort die Referenz bilden zu können, geteilt durch die Zeichenanzahl des Referenzwortes, gebildet.

\subsubsubsection{Berechnung}

Die mathematische Formel für die Character Error Rate lautet somit wie folgt:
\begin{center}
  \[
    \text{CER} = \frac{S + D + I}{N}
  \]
  \label{formula:cer}
\end{center}
wobei die einzelnen Komponenten folgende Größen darstellen:
\begin{itemize}
  \item \(S\) beschreibt die Anzahl der falsch erkannten Wörter (Substitutions)
  \item \(D\) beschreibt die Anzahl der im Resultat fehlenden Wörter (Deletions)
  \item \(I\) beschreibt die Anzahl der im Resultat fälschlicherweise eingefügte Wörter (Insertions)
  \item \(N\) beschreibt die Gesamtanzahl der Wörter in der Referenz
\end{itemize}

\subsubsubsection{Vorteile und Nachteile}

Die CER fasst in einem Wert zusammen, wie viele Änderungen auf Zeichenebene notwendig sind, um aus dem erkannten Wort das Referenzwort zu bilden. Es ist dabei wie bei der WER nicht relevant, in welcher Reihenfolge diese Zeichen auftreten. Ebenso gibt es keine gesonderte Gewichtung für Ersetzungen, Löschungen oder Einfügungen, wodurch besonders bei kurzen Wörtern auch kleinere Abweichungen bereits zu einer hohen CER führen können.

Durch den detaillierten Vergleich der einzelnen Wörter auf Zeichenebene stellt die CER jedenfalls ein ausreichend gutes Komplement zur WER dar, um in den folgenden Vergleichen genutzt werden zu können.