Added abstract
This commit is contained in:
@@ -1,10 +0,0 @@
|
||||
\chapter{Kurzfassung}
|
||||
|
||||
Kurzfassung in Deutsch und Abstract in Englisch (Abstract ist die 1:1-Übersetzung der Kurzfassung ins Englische), Umfang jeweils ca. eine Seite.
|
||||
|
||||
\chapter{Abstract}
|
||||
\begin{english}
|
||||
|
||||
Kurzfassung in German and abstract in English (abstract is the 1:1 translation of the Kurzfassung into English), approx. one page each.
|
||||
|
||||
\end{english}
|
||||
11
chapters/c00_frontmatter/abstract/de.tex
Normal file
11
chapters/c00_frontmatter/abstract/de.tex
Normal file
@@ -0,0 +1,11 @@
|
||||
\chapter{Kurzfassung}
|
||||
|
||||
Optische Texterkennung ist in der heutigen Zeit von immer größerer Bedeutung und wird in vielen Industrien dafür genutzt, effizient textuelle Informationen aus Fotos und digitalen Bildern zu gewinnen. Diese Bachelorarbeit widmet sich einem der Anwendungsgebiete von optischer Texterkennung, der Erkennung von Textdaten in Oberflächenscreenshots, und versucht, die Menge und Qualität der gewonnenen Daten zu maximieren. Dazu werden verschiedene Vorgehensweisen zur Aufbereitung der Bilder, sowie der Nachbearbeitung der erkannten Textdaten exemplarisch miteinander verglichen und anhand festgelegter Qualitätskriterien analysiert.
|
||||
|
||||
Die zentrale Fragestellung der Arbeit zielt darauf ab, die beste Methodik für die Texterkennung zu identifizieren und die Resultate zu optimieren. Somit wird die Verwaltung der Produktdokumentation von COPA-DATA vereinfacht und gleichzeitig ein Beitrag zur Forschung im Bereich der Texterkennung in grafischen Oberflächen geleistet.
|
||||
|
||||
Um die Forschungsfrage zu beantworten, wird eine Auswahl von Algorithmen für die Bild- und Textbearbeitung getroffen. Diese Algorithmen werden in ihrer Grundfunktion erklärt und die Ergebnisse der Texterkennung anhand einer Stichprobe untersucht. Durch die Anwendung gängiger Metriken für die Sprach- und Texterkennung werden die jeweiligen Algorithmen objektiv miteinander verglichen und in einen automatisch generierten Bericht eingetragen. Dieser beinhaltet eine detaillierte Übersicht aller Ergebnisse der Texterkennung und bildet die Grundlage für die Auswertung.
|
||||
|
||||
Die Analyse aller Ergebnisdaten im Bericht erteilt Aufschluss darüber, welche Algorithmen in welchen Szenarien die besten Ergebnisse liefern. Die größte Auswirkung auf die Ergebnisdaten hat der Austausch des Thresholding- \bzw Binarisierungsverfahrens: Werden unpassende Parameter oder Verfahren genutzt, wird nur ein Bruchteil des verfügbaren Texts erkannt. Wird das passende Verfahren gewählt, wird ein Großteil der Daten korrekt vom Texterkennungssystem erkannt.
|
||||
|
||||
Für weitere Forschung oder Anpassung an spezifische Anforderungen kann die protoypischen Implementierung \bzw die jeweiligen Komponenten wiederverwendet werden. Durch den modularen Aufbau des automatischen Vergleichssystems kann selbst nach Änderung der Anzeigesprache oder einer farblichen Neugestaltung der grafischen Oberfläche stets mit wenig Aufwand die ideale Vorgehensweise zur Texterkennung ermittelt werden.
|
||||
12
chapters/c00_frontmatter/abstract/en.tex
Normal file
12
chapters/c00_frontmatter/abstract/en.tex
Normal file
@@ -0,0 +1,12 @@
|
||||
\chapter{Abstract}
|
||||
\begin{english}
|
||||
Optical text recognition is becoming increasingly important in today's world and is used in many industries to efficiently extract textual information from photos and digital images. This bachelor thesis is dedicated to one of the application areas of optical text recognition, the recognition of text data in user-interface screenshots, and attempts to maximize the quantity and quality of the data obtained. For this purpose, different procedures for the preparation of the images, as well as the post-processing of the recognized text data are compared with each other and analyzed based on defined quality criteria.
|
||||
|
||||
The central question of the thesis aims to identify the best methodology for text recognition and optimize the results. The management of of COPA-DATA's product documentation will be simplified and at the same time a contribution to research in the field of text recognition in graphical user interfaces is being made.
|
||||
|
||||
In order to answer the central question, a selection of algorithms for image and text processing is made. The basic function of these algorithms is explained and the results of text recognition are examined using a sample. By applying common metrics for speech and text recognition, the respective algorithms are objectively compared with each other and entered into an automatically generated report. This report contains a detailed overview of all text recognition results and forms the basis for the evaluation.
|
||||
|
||||
The analysis of all result data in the report provides information, showing which algorithms deliver the best results in which scenarios. The greatest impact on the result data is the replacement of the thresholding or binarization method: If unsuitable parameters or methods are being used, only a fraction of the available text is recognized. If the appropriate method is selected on the other hand, the majority of the data is correctly recognized by the text recognition system.
|
||||
|
||||
For further research or adaptation to specific requirements, the prototypical implementation and the respective components can be reused. Thanks to the modular structure of the automatic comparison system, the ideal procedure for text recognition can always be determined with little effort, even after changing the display language or redesigning the color of the graphical user interface.
|
||||
\end{english}
|
||||
2
chapters/c00_frontmatter/abstract/index.tex
Normal file
2
chapters/c00_frontmatter/abstract/index.tex
Normal file
@@ -0,0 +1,2 @@
|
||||
\input{chapters/c00_frontmatter/abstract/de}
|
||||
\input{chapters/c00_frontmatter/abstract/en}
|
||||
@@ -700,29 +700,6 @@
|
||||
\verb https://tesseract-ocr.github.io/
|
||||
\endverb
|
||||
\endentry
|
||||
\entry{todo}{online}{}
|
||||
\list{language}{1}{%
|
||||
{eng}%
|
||||
}
|
||||
\field{sortinit}{T}
|
||||
\field{sortinithash}{9af77f0292593c26bde9a56e688eaee9}
|
||||
\field{labeltitlesource}{title}
|
||||
\field{day}{23}
|
||||
\field{month}{5}
|
||||
\field{title}{TODO: MISSING SOURCE}
|
||||
\field{urlday}{4}
|
||||
\field{urlmonth}{1}
|
||||
\field{urlyear}{2024}
|
||||
\field{year}{2023}
|
||||
\field{dateera}{ce}
|
||||
\field{urldateera}{ce}
|
||||
\verb{urlraw}
|
||||
\verb https://example.com/todo
|
||||
\endverb
|
||||
\verb{url}
|
||||
\verb https://example.com/todo
|
||||
\endverb
|
||||
\endentry
|
||||
\enddatalist
|
||||
\endrefsection
|
||||
\endinput
|
||||
|
||||
2
main.tex
2
main.tex
@@ -92,7 +92,7 @@
|
||||
|
||||
\includepdf[pages=1-2]{include/title.pdf}
|
||||
\tableofcontents
|
||||
\include{chapters/abstract}
|
||||
\include{chapters/c00_frontmatter/abstract/index}
|
||||
|
||||
%%%-----------------------------------------------------------------------------
|
||||
\mainmatter % Hauptteil (ab hier arab. Seitenzahlen)
|
||||
|
||||
Reference in New Issue
Block a user