Feedback

2024-01-15 08:44:26 +01:00
parent 842acb32b4
commit 26faa0207b
4 changed files with 8 additions and 6 deletions
@@ -9,7 +9,7 @@ Um die Texterkennung mittels Tesseract und die anschließende Filterung der Erge
 \subsubsection*{Eigenschaften von Screenshots}
 \label{annahmen_bild_eigenschaften}
-Im Falle dieser Bachelorarbeit handelt es sich bei den zu verarbeitenden Bildern ausschließlich um digitale Bildschirmaufnahmen von grafischen Benutzeroberflächen. Da die  Es kann also angenommen werden, dass die Screenshots keine Transparenz aufweisen, die Perspektive der Aufnahme nicht verzerrt ist und der Kontrast in den meisten Fällen ausreicht, um die relevanten Inhalte zu erkennen. Weiters ist bei der Bildverarbeitung auf farbige Hintergrundflächen zu achten, mit deren Unterstützung Bildschirmelemente in modernen grafischen Oberflächen oft  gruppiert oder getrennt werden. Nach Sichtung des zu verarbeitenden Bilddatensatzes fällt zudem auf, dass die manche Screenshots durch das Selektieren mit der Maus sehr eng abgeschnitten wurden. Auch das ist bei der Vorverarbeitung zu berücksichtigen.
+Im Falle dieser Bachelorarbeit handelt es sich bei den zu verarbeitenden Bildern ausschließlich um digitale Bildschirmaufnahmen von grafischen Benutzeroberflächen. Es kann also angenommen werden, dass die Screenshots keine Transparenz aufweisen, die Perspektive der Aufnahme nicht verzerrt ist und der Kontrast in den meisten Fällen ausreicht, um die relevanten Inhalte zu erkennen. Weiters ist bei der Bildverarbeitung auf farbige Hintergrundflächen zu achten, mit deren Unterstützung Bildschirmelemente in modernen grafischen Oberflächen oft  gruppiert oder getrennt werden. Nach Sichtung des zu verarbeitenden Bilddatensatzes fällt außerdem auf, dass manche Screenshots durch das Selektieren mit der Maus sehr eng abgeschnitten wurden. Auch das ist bei der Vorverarbeitung zu berücksichtigen.
 \begin{figure}[ht]
  \centering
@@ -33,7 +33,7 @@ Im Falle dieser Bachelorarbeit handelt es sich bei den zu verarbeitenden Bildern
 \subsubsection*{Optimieren von Daten für Tesseract}
 \label{annahmen_bild_optimal}
-Für die Verwendung von Tesseract ist es wichtig, unabhängig von der Diversität der Ausgangsdaten möglichst einheitliche Bilder zu generieren, die den Trainingsdaten des neuronalen Netzes ähnlich sehen. Während störende Elemente wie Bildrauschen aus dem Bild entfernt werden sollen, sollen Texte unabhängig von der Hinter- bzw. Vordergrundfarbe gut zu erkennen und leicht von Formen oder grafischen Symbolen abzugrenzen sein \mcite{sporici2020improving} \mcite{mursari2021effectiveness}.
+Für die Verwendung von Tesseract ist es wichtig, unabhängig von der Diversität der Ausgangsdaten möglichst einheitliche Bilder zu erzeugen. Während störende Elemente wie Bildrauschen aus dem Bild entfernt werden sollen, sollen Texte unabhängig von der Hinter- bzw. Vordergrundfarbe gut zu erkennen und leicht von Formen oder grafischen Symbolen abzugrenzen sein \mcite{sporici2020improving} \mcite{mursari2021effectiveness}. 
 \begin{figure}[ht]
  \begin{minipage}{0.4\textwidth}
@@ -52,7 +52,7 @@ Für die Verwendung von Tesseract ist es wichtig, unabhängig von der Diversitä
 \subsubsection*{Filtern von Symbolen}
-Bei der Texterkennung kommt es manchmal vor, dass grafische Elemente als Unicode-Symbole erkannt werden. Beispielsweise finden sich in den ungefilterten Ergebnisdaten oft Aufzählungszeichen "•" oder diverse Varianten von Bindestrichen "‒". Diese Zeichen sind gemäß Anwendungsanforderungen nicht relevant für die Schlagwortsuche und können somit entfernt \bzw ignoriert werden.
+Bei der Texterkennung kommt es vor, dass grafische Elemente als Unicode-Symbole erkannt werden. Beispielsweise finden sich in den ungefilterten Ergebnisdaten oft Aufzählungszeichen "•" oder diverse Varianten von Bindestrichen "‒". Diese Zeichen sind gemäß Anwendungsanforderungen nicht relevant für die Schlagwortsuche und können somit entfernt \bzw ignoriert werden.
 \begin{figure}[t]
  \centering
@@ -70,7 +70,7 @@ Bei der Texterkennung kommt es manchmal vor, dass grafische Elemente als Unicode
 \subsubsection*{Mehrsprachigkeit}
 \label{annahmen_mehrsprachigkeit}
-Eine weitere Anforderung an das Textverarbeitungssystem ist außerdem das Einlesen und Interpretieren mehrsprachiger Bilddateien. So sollen beispielsweise Bilder mit englischen, deutschen oder italienischen Inhalten zugeführt und die Ergebnisdaten richtig verarbeitet werden können. Um eine Filterung für verschiedene Zeichensätze zu ermöglichen und eine Unterstützung für Sprachen mit nicht-lateinischen Schriften zu gewährleisten, werden dynamische Sprachfilter verwendet, die individuell an die jeweilige Sprache angepasst werden können. Um die Ergebnisdaten nicht unnötig zu verkomplizieren, werden für die initialen Tests und die Beschreibung der generellen Vorgehensweise im Rahmen dieser Bachelorarbeit jedoch nur deutsche oder englische Inhalte verarbeitet.
+Eine weitere Anforderung an das Textverarbeitungssystem ist das Einlesen und Interpretieren mehrsprachiger Bilddateien. So sollen beispielsweise Bilder mit englischen, deutschen oder italienischen Inhalten zugeführt und die Ergebnisdaten richtig verarbeitet werden können. Um eine Filterung für verschiedene Zeichensätze zu ermöglichen und eine Unterstützung für Sprachen mit nicht-lateinischen Schriften zu gewährleisten, werden dynamische Sprachfilter verwendet, die individuell an die jeweilige Sprache angepasst werden können. Um die Ergebnisdaten nicht unnötig zu verkomplizieren, werden für die initialen Tests und die Beschreibung der generellen Vorgehensweise im Rahmen dieser Bachelorarbeit jedoch nur deutsche oder englische Inhalte verarbeitet.
 \subsubsection*{Schlagworte}
 \label{annahmen_schlagworte}
@@ -1,3 +1,5 @@
 % TODO merge
 \subsection{Metriken}
 \label{metriken}
@@ -40,7 +42,7 @@ Die Character Error Rate (CER) beschreibt die Anzahl der falsch erkannten oder f
 \subsubsubsection{Berechnung}
-Die mathematische Formel für die Word Error Rate lautet somit wie folgt:
+Die mathematische Formel für die Character Error Rate lautet somit wie folgt:
 \begin{center}
  \[
    \text{CER} = \frac{S + D + I}{N}
@@ -1,4 +1,4 @@
 \subsection{Testaufbau}
 \label{testaufbau}
-Der Testaufbau im Rahmen der Implementierung, beschrieben in \autoref{implementierung}, erlaubt ein dynamisches Verketten von verschiedenen Bildverarbeitungs- und Textfilterungsschritten. Für einen objektiven Vergleich zwischen den unterschiedlichen Vorgehensweisen und Algorithmen wird eine Grundabfolge der jeweiligen Schritte in einer "Processing-Pipeline" definiert. Die Ergebnisse können schließlich anhand der in \autoref{metriken} beschriebenen Fehlermetriken mit einer durch den Menschen verschlagworteten Vergleichsmenge abgeglichen werden.
+Der Testaufbau im Rahmen der Implementierung, beschrieben in \autoref{implementierung}, erlaubt ein dynamisches Verketten von unterschiedlichen Bildverarbeitungs- und Textfilterungsschritten. Für einen objektiven Vergleich zwischen den verschiedenen Vorgehensweisen und Algorithmen wird eine Grundabfolge der jeweiligen Schritte in einer "Processing-Pipeline" definiert. Die Ergebnisse können schließlich anhand der in \autoref{metriken} beschriebenen Fehlermetriken mit einer durch den Menschen verschlagworteten Vergleichsmenge abgeglichen werden.