diff --git a/chapters/c30_konzept/algorithmen/postprocessing.tex b/chapters/c30_konzept/algorithmen/postprocessing.tex index 12a2529..b498e00 100644 --- a/chapters/c30_konzept/algorithmen/postprocessing.tex +++ b/chapters/c30_konzept/algorithmen/postprocessing.tex @@ -82,7 +82,7 @@ Zusätzlich kann dieser Filter an die Anforderung des Zielsystems angepasst werd \subsection{Sprachabhängige Filterung mittels Regular Expressions} \label{algorithmen_regex} -Nachdem die zu filternden Textdaten durch vorherige Schritte vorverarbeitet wurden, werden die Ergebnisdaten ein letztes Mal mithilfe von regulären Ausdrücken (\engl{Regular Expressions}) durchsucht. Aufgrund der dynamischen Erweiterbarkeit der Regular Expressions kann für jede Sprache ein individueller Filter angelegt werden, der den jeweiligen Zeichensatz beschriftet und unbekannte Sonderzeichen oder Symbole entfernt. So sind beispielsweise im Deutschen Umlaute erlaubt, während häufig auftretende, jedoch unerwünschte Symbole wie das phonetische Zeichen "æ" oder mehrere hintereinandergereihte Leerzeichen explizit entfernt werden können. Die Anwendung des deutschen Sprachfilters wird in \autoref{fig:screenshot_postprocessing_regex} gezeigt. +Nachdem die zu filternden Textdaten durch vorherige Schritte vorverarbeitet wurden, werden die Ergebnisdaten ein letztes Mal mithilfe von regulären Ausdrücken (\engl{Regular Expressions}) durchsucht. Aufgrund der dynamischen Erweiterbarkeit der Regular Expressions kann für jede Sprache ein individueller Filter angelegt werden, der den jeweiligen Zeichensatz beschriftet und unbekannte Sonderzeichen oder Symbole entfernt. So sind beispielsweise im Deutschen Umlaute erlaubt, während häufig auftretende, jedoch unerwünschte Symbole wie das phonetische Zeichen "æ" oder mehrere hintereinandergereihte Leerzeichen explizit entfernt werden können. Die Anwendung eines simplen deutschen Sprachfilters (\lstinline|[\w'\-äöüÄÖÜß]{2,}|) wird in \autoref{fig:screenshot_postprocessing_regex} gezeigt. \begin{figure}[ht] \centering diff --git a/main.pdf b/main.pdf index d60195b..c281030 100644 Binary files a/main.pdf and b/main.pdf differ