0

Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren

Erschienen am 09.10.2022, 1. Auflage 2022
Bibliografische Daten
ISBN/EAN: 9783346740823
Sprache: Deutsch
Umfang: 104 S.
Format (T/L/B): 0.8 x 21 x 14.8 cm
Einband: kartoniertes Buch

Beschreibung

Masterarbeit aus dem Jahr 2022 im Fachbereich BWL - Sonstiges, Note: 1,3, Universität Regensburg, Sprache: Deutsch, Abstract: Welche Methoden gibt es in der Literatur, Datenqualitätsdefekte in maschinellen Lernverfahren zu adressieren, wie können diese Methoden strukturiert werden und welche weiteren Studien sollten dahingehend unternommen werden? Im Laufe der vergangenen Jahre haben die Fortschritte im Bereich des Maschinellen Lernens einen beachtlichen Beitrag zur Weiterentwicklung von Künstlicher Intelligenz und kognitiven Systemen geleistet. Künftig wird es kaum Bereiche geben, die nicht durch Technologien basierend auf Machine Learning und KI entscheidend verbessert werden. Insbesondere die Bereiche Medizin, Industrie 4.0, Internet-of-Things, Robotik, autonomes Fahren, aber auch viele weitere Anwendungsgebiete erwarten durch Machine Learning und Künstliche Intelligenz weitreichende Transformationen. Bei Machine Learning-Verfahren werden Daten verarbeitet und verwertet, sodass wichtige Erkenntnisse generiert und erhebliche Wettbewerbsvorteile für Unternehmen erlangt werden können. Um sinnvolle Erkenntnisse aus den Daten generieren zu können und effektive, faktenbasierte Entscheidungen zu treffen, ist eine hohe Datenqualität essenzielle Voraussetzung. Entscheidungen und Empfehlungen können nur so gut sein wie die Daten, aus denen sie abgeleitet werden. Zudem müssen Machine Learning-Verfahren den aktuellen Entwicklungen aus dem Big Data Umfeld gerecht werden, deren Herausforderungen auch konventionelle Machine Learning-Verfahren nicht genügen. Datenqualität wird in der Literatur jedoch als vielseitiges Konstrukt beschrieben und unter Zuhilfenahme verschiedener Datenqualitätsdimensionen weiter untergliedert. In der vorliegenden Arbeit werden die vier in der Literatur am häufigsten untersuchten Datenqualitätsdimensionen Genauigkeit (Accuracy), Vollständigkeit (Completeness), Konsistenz (Consistency) sowie Aktualität/ Zeitnähe (Currency bzw. Timeliness) betrachtet. Mithilfe einer strukturierten Literaturrecherche werden Datenqualitätsdefekte, die sich den zuvor genannten DQ-Dimensionen zuordnen lassen, strukturiert, zugehörige Adressierungsmethoden beschrieben und Implikationen für weitere Forschung gegeben. Die Ergebnisse basieren auf einer Untersuchung von mehr als 1.500 von Fachleuten untersuchten (peer-reviewed) Journals und Tagungsberichten.