9 lines
2.2 KiB
TeX
9 lines
2.2 KiB
TeX
\chapter{Kurzfassung}
|
|
|
|
Diese Bachelorarbeit konzentriert sich auf eines der vielen Anwendungsgebiete der optischen Texterkennung: Extraktion von Textdaten aus digitalen Screenshots. Das Ziel ist es, die Menge und Qualität der gewonnenen Daten zu maximieren, um die Verwaltung von grafischen Ressourcen für die Produktdokumentation von COPA-DATA zu vereinfachen.
|
|
|
|
Dazu wird eine Auswahl von Bildverarbeitungsmethoden wie Resampling oder Binarisierung für die Aufbereitung der Bilder getroffen. Ebenso werden die Filterungsschritte für die Ergebnisdaten der Texterkennung mittels Techniken aus dem Bereich des Natural Language Processings, beispielsweise Normalisierung oder einfache sprachspezifische Filter, ausgewählt. Die Algorithmen werden in ihrer Grundfunktion erklärt und ihr Einfluss auf die Ergebnisse der Texterkennung anhand gängiger Metriken für die Sprach- und Texterkennung objektiv miteinander verglichen.
|
|
|
|
Die Analyse verschiedener Bilder mit nur einem Verfahren führt nicht immer zu optimalen Ergebnissen. Besonders bei Anwendung der unterschiedlichen Schwellenwertverfahren müssen die Parameter individuell auf die unterschiedlichen Bildmerkmale angepasst werden, um keine wichtigen Details zu verlieren. Basierend auf den in dieser Bachelorarbeit angestellten Vergleichen kann das Texterkennungssystem für die COPA-DATA Produktdokumentation so parametriert werden, dass bei Verarbeitung unterschiedlicher Eingangsbilder möglichst viele Details eingefangen werden und das Endergebnis der Texterkennung innerhalb des Bildes optimiert werden kann.
|
|
|
|
Für weitere Forschung oder Anpassung an spezifische Anforderungen kann die prototypische Implementierung \bzw deren Komponenten wiederverwendet werden. Durch den modularen Aufbau ist es möglich, neue Funktionalität hinzuzufügen oder bestehende zu verändern. Somit kann selbst nach Änderung der Anzeigesprache oder einer farblichen Neugestaltung der grafischen Oberfläche stets mit wenig Aufwand die ideale Vorgehensweise zur Texterkennung ermittelt werden. Auch weitere Schritte zur Verbesserung der Texterkennung, beispielsweise Kantendetektion in der Bildverarbeitung oder "Fuzzy Matching" zur Erfassung der Ergebnisdaten sind aufgrund der flexiblen Struktur realisierbar. |