thesis/chapters/c20_grundlagen/metriken.tex

\section{Metriken}
\label{metriken}

Um die erkannten Ergebnisse unter Verwendung der verschiedenen Pre- und Postprocessing Schritte mittels eines einheitlichen Systems vergleichen zu können, wird auf die in der optischen Texterkennung gängigen Metriken "Character Metric", auch bekannt als "Character Error Rate" und "Word metric" \bzw "Word Error Rate" \mcite{karpinski2018metrics}, basierend auf der Levenshtein-Distanz \mcite{levenshtein1966binary} zurückgegriffen.

Sowohl die Character- als auch die Word Error Rate sind häufig genutzte Vergleichswerte, die ihren Ursprung in der computergestützten Sprachverarbeitung \bzw automatischen Spracherkennung haben \mcite{wang2003word}. Da die optische Texterkennung und die automatische Spracherkennung jeweils darauf abzielen, maschinenlesbaren Text aus nicht-strukturierten Daten zu extrahieren, sind die Prinzipien dieser Metriken auch auf die optische Texterkennung anwendbar \mcite{tong1996statistical}.

\subsection{Word Error Rate}
\label{metriken_wer}

Die Wortfehlerrate (\engl{Word Error Rate}, \kurz{WER}) beschreibt den prozentualen Anteil der falsch erkannten oder fehlenden Wörter eines Textes im Vergleich zu einer Referenz, welche im Falle der folgenden Vergleiche immer alle sichtbaren Texte im Bild repräsentiert. Je niedriger die WER, desto genauer ist der OCR-Vorgang. Um die WER zu berechnen, bildet man die Summe aller notwendigen Ersetzungen, Entfernungen und Einfügungen, um aus dem erkannten Text den Referenztext bilden zu können und setzt sie mit der Gesamtwortanzahl im Referenztext in Verhältnis. \mcite{levenshtein1966binary, park2008empirical, karpinski2018metrics}

\subsubsection{Berechnung}

Die mathematische Formel für die Word Error Rate lautet wie folgt \mcite{karpinski2018metrics}:

\begin{center}
  \[
    \text{WER} = \frac{S + D + I}{N}
  \]
  \label{formula:wer}
\end{center}
wobei die einzelnen Komponenten folgende Größen darstellen:
\begin{itemize}
  \item \(S\) beschreibt die Anzahl der falsch erkannten Wörter (\engl{Substitutions})
  \item \(D\) beschreibt die Anzahl der im Resultat fehlenden Wörter (\engl{Deletions})
  \item \(I\) beschreibt die Anzahl der im Resultat fälschlicherweise eingefügte Wörter (\engl{Insertions})
  \item \(N\) beschreibt die Gesamtanzahl der Wörter in der Referenz
\end{itemize}

\subsubsection{Vorteile und Nachteile}

Die WER spiegelt ohne großen Rechenaufwand direkt wider, wie stark die erkannten Texte der Referenz gleichen. Hierbei werden fehlerhafte Einsetzungen, Löschungen und falsch erkannte Wörter \bzw Teilwörter gleichermaßen gewichtet. Es ist jedoch nicht möglich, die korrekte Reihenfolge der erkannten Wörter darzustellen oder bestimmte wichtige Stellen im Text höher zu gewichten als andere. Zudem werden fehlerhaft erkannte Wörter als vollwertige Ersetzung wahrgenommen, auch wenn nur ein einzelnes Zeichen falsch ist. Dadurch wird das Ergebnis stark beeinflusst.

Um die Verfälschung der Ergebniswerte durch die WER möglichst gering zu halten, muss mindestens eine weitere Fehlermetrik, beispielsweise die \hyperref[metriken_cer]{Character Error Rate}, zum Vergleich verwendet werden.

\subsection{Character Error Rate}
\label{metriken_cer}

Die Zeichenfehlerrate (\engl{Character Error Rate}, \kurz{CER}) beschreibt die Anzahl der falsch erkannten oder fehlenden Zeichen im Vergleich zu einem Referenzwort und basiert wie die \hyperref[metriken_wer]{Word Error Rate} auf der Levenshtein-Distanz \mcite{levenshtein1966binary}. Je niedriger die CER, desto genauer ist der OCR-Vorgang. Ähnlich wie die WER wird die CER aus der Summe aller Ersetzungen, Entfernungen und Einfügungen, notwendig um aus dem erkannten Wort die Referenz bilden zu können, gebildet \mcite{levenshtein1966binary}. Diese Summe wird anschließend durch die Zeichananzahl des Referenzwortes geteilt \mcite{park2008empirical, karpinski2018metrics}.

\subsubsection{Berechnung}

Das Verfahren zur Ermittlung der CER gleicht im Wesentlichen dem der WER, bezieht sich allerdings auf die einzelnen Zeichen eines Wortes. Die mathematische Formel lautet wie folgt \mcite{karpinski2018metrics}:

\begin{center}
  \[
    \text{CER} = \frac{S + D + I}{N}
  \]
  \label{formula:cer}
\end{center}
wobei die einzelnen Komponenten folgende Größen darstellen:
\begin{itemize}
  \item \(S\) beschreibt die Anzahl der falsch erkannten Zeichen (Substitutions)
  \item \(D\) beschreibt die Anzahl der im Resultat fehlenden Zeichen (Deletions)
  \item \(I\) beschreibt die Anzahl der im Resultat fälschlicherweise eingefügte Zeichen (Insertions)
  \item \(N\) beschreibt die Gesamtanzahl der Zeichen in der Referenz
\end{itemize}

\subsubsection{Vorteile und Nachteile}

Die CER fasst in einem Wert zusammen, wie viele Änderungen auf Zeichenebene notwendig sind, um aus dem erkannten Wort das Referenzwort zu bilden. Es ist dabei wie bei der WER nicht relevant, in welcher Reihenfolge diese Zeichen auftreten. Ebenso gibt es keine gesonderte Gewichtung für Ersetzungen, Löschungen oder Einfügungen, wodurch besonders bei kurzen Wörtern auch kleinere Abweichungen bereits zu einer hohen CER führen können.

Durch den detaillierten Vergleich der einzelnen Wörter auf Zeichenebene stellt die CER ein ausreichend gutes Komplement zur WER dar und wird in den folgenden Vergleichen ebenfalls verwendet werden.