added regex

This commit is contained in:
Simon
2024-02-28 21:37:46 +01:00
parent 4c7860e332
commit 46e4fcaa04
2 changed files with 1 additions and 1 deletions
@@ -82,7 +82,7 @@ Zusätzlich kann dieser Filter an die Anforderung des Zielsystems angepasst werd
\subsection{Sprachabhängige Filterung mittels Regular Expressions} \subsection{Sprachabhängige Filterung mittels Regular Expressions}
\label{algorithmen_regex} \label{algorithmen_regex}
Nachdem die zu filternden Textdaten durch vorherige Schritte vorverarbeitet wurden, werden die Ergebnisdaten ein letztes Mal mithilfe von regulären Ausdrücken (\engl{Regular Expressions}) durchsucht. Aufgrund der dynamischen Erweiterbarkeit der Regular Expressions kann für jede Sprache ein individueller Filter angelegt werden, der den jeweiligen Zeichensatz beschriftet und unbekannte Sonderzeichen oder Symbole entfernt. So sind beispielsweise im Deutschen Umlaute erlaubt, während häufig auftretende, jedoch unerwünschte Symbole wie das phonetische Zeichen "æ" oder mehrere hintereinandergereihte Leerzeichen explizit entfernt werden können. Die Anwendung des deutschen Sprachfilters wird in \autoref{fig:screenshot_postprocessing_regex} gezeigt. Nachdem die zu filternden Textdaten durch vorherige Schritte vorverarbeitet wurden, werden die Ergebnisdaten ein letztes Mal mithilfe von regulären Ausdrücken (\engl{Regular Expressions}) durchsucht. Aufgrund der dynamischen Erweiterbarkeit der Regular Expressions kann für jede Sprache ein individueller Filter angelegt werden, der den jeweiligen Zeichensatz beschriftet und unbekannte Sonderzeichen oder Symbole entfernt. So sind beispielsweise im Deutschen Umlaute erlaubt, während häufig auftretende, jedoch unerwünschte Symbole wie das phonetische Zeichen "æ" oder mehrere hintereinandergereihte Leerzeichen explizit entfernt werden können. Die Anwendung eines simplen deutschen Sprachfilters (\lstinline|[\w'\-äöüÄÖÜß]{2,}|) wird in \autoref{fig:screenshot_postprocessing_regex} gezeigt.
\begin{figure}[ht] \begin{figure}[ht]
\centering \centering
BIN
View File
Binary file not shown.