Die verborgene Macht der Daten: Saubere Datensätze als elementarer Erfolgsfaktor für KI-Anwendungen

Die verborgene Macht der Daten: Saubere Datensätze als elementarer Erfolgsfaktor für KI-Anwendungen

Unternehmen reden viel über die möglichen Auswirkungen von KI- und ML-Lösungen, aber zu wenig über deren Qualität. Und die hängt in erster Linie vom Dateninput ab. APARAVI erklärt, warum die Diskussion vom Kopf auf die Füße gestellt werden muss, und wieso ein hochwertiges Dateninventar die Voraussetzung für eine sinn- und wertvolle KI- oder ML-Lösung ist.

Der Hype rund um generative AI konzentriert sich in erster Linie auf ethisch-moralische und sicherheitstechnische Aspekte. Doch das greift viel zu kurz. Beide drehen sich um Probleme der richtigen Anwendung von KI- und ML-Apps, unterschlagen dabei aber die alles entscheidende Frage ihrer Qualität. Und die wiederum hängt in erster Linie von der Qualität der Daten ab, mit denen die Algorithmen gefüttert und trainiert werden. Doch genau daran hapert es viel zu oft, weil üblicherweise bis zu 80 Prozent der dafür in Frage kommenden Daten unstrukturiert sind. Dort verstecken sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern eben auch wichtige, hochwertige Informationen. Daher ist es sinnvoll und notwendig, diese Datenbestände vorab zu klassifizieren, zu bereinigen und zu strukturieren. APARAVI, Anbieter von Lösungen zur Verwaltung unstrukturierter Daten, erklärt, warum eine saubere Data Collection (Clean & Lean Data) für die Entwicklung von KI-Apps essenziell ist:
 

  1. Schlechter Input – schlechter Output: Die Qualität des Outputs hängt, wie so oft, auch bei der KI-Entwicklung von der Qualität des Inputs ab. Je gepflegter also die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind transparente, klassifizierte, strukturierte und priorisierte Daten (und auch Metadaten!), frei von Dubletten.
  2. Ausgefilterte Risiken – weniger Fallstricke: In jedem Datenbestand lauern kritische Daten und Dokumente, die aus diversen rechtlichen Gründen nicht verwendet werden dürfen. Das können beispielsweise personenbezogene Daten oder Inhalte sein, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Diese müssen vorab unbedingt herausgefiltert werden, um Verfälschungen, Risiken und Strafzahlungen von vorneherein zu vermeiden.
  3. Synthetische Daten – echte Daten: Wie groß die Unzufriedenheit der Data Scientists mit dem Datenmaterial oft ist, zeigt sich an der wachsenden Nutzung synthetischer Daten. Dumm ist nur: Mit Originaldaten können Algorithmen und Anwendungen in der Praxis schneller und effizienter entwickelt werden. 
  4. Lange Entwicklungszeiten – hohe Kosten: KI-Entwicklung ist ein iterativer Prozess mit hohem Ressourcenbedarf – und damit ein teures Geschäft. Je schlechter der Dateninput ist, desto länger und kostenintensiver ist die Entwicklungszeit. Ein sauberer Datenbestand dagegen ist auf die relevanten, sinnvollen Daten kondensiert. Das beschleunigt die Anwendungsentwicklung, reduziert so die Kosten und ermöglicht zudem eine kürzere Time-to-Market. Und die kann für Erfolg oder Misserfolg entscheidend sein.

„Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, erklärt Adrian Knapp, CEO bei APARAVI. „Du bist, was Du isst: Der erste Schritt muss es daher sein, die wirklich relevanten Daten herauszufiltern und zu strukturieren, die Datenqualität zu steigern und so das perfekte Futter für das Training der Algorithmen zu liefern. An dieser Stelle entscheidet sich, ob eine KI-Anwendung erfolgreich wird.“

Dieses Listicle kann auch unter https://pr-com.de/companies/aparavi/ abgerufen werden.

Über die APARAVI Software Europe GmbH

Mit weltweit rund 80 Mitarbeitern entwickelt und vertreibt das Schweizer Unternehmen APARAVI seine Data-Intelligence- & Automation-Plattform in Europa und den USA. APARAVI unterstützt Unternehmen und Behörden dabei, den Wert ihrer unstrukturierten Daten zu entdecken – wo auch immer diese sich befinden. Mit APARAVI finden, verstehen, bearbeiten Unternehmen und Behörden ihre unstrukturierten Daten und können diese in automatisierten Data-Lifecycle Prozessen effizient managen.

APARAVI wurde von Adrian Knapp 2018 in Zug (Schweiz) gegründet, wo sich auch der Hauptsitz des Unternehmens befindet. Weitere Standorte sind München und Santa Monica, USA.

Firmenkontakt und Herausgeber der Meldung:

APARAVI Software Europe GmbH
Lothstraße 5
80335 München
Telefon: +49 (89) 74062578
http://aparavi.eu

Ansprechpartner:
Andrea Groß
Pressekontakt
Telefon: +49 (89) 59997-803
E-Mail: andrea.gross@pr-com.de
Christian Mueller
Director Marketing & Alliances EMEA
E-Mail: christian.mueller@aparavi.com
Für die oben stehende Story ist allein der jeweils angegebene Herausgeber (siehe Firmenkontakt oben) verantwortlich. Dieser ist in der Regel auch Urheber des Pressetextes, sowie der angehängten Bild-, Ton-, Video-, Medien- und Informationsmaterialien. Die United News Network GmbH übernimmt keine Haftung für die Korrektheit oder Vollständigkeit der dargestellten Meldung. Auch bei Übertragungsfehlern oder anderen Störungen haftet sie nur im Fall von Vorsatz oder grober Fahrlässigkeit. Die Nutzung von hier archivierten Informationen zur Eigeninformation und redaktionellen Weiterverarbeitung ist in der Regel kostenfrei. Bitte klären Sie vor einer Weiterverwendung urheberrechtliche Fragen mit dem angegebenen Herausgeber. Eine systematische Speicherung dieser Daten sowie die Verwendung auch von Teilen dieses Datenbankwerks sind nur mit schriftlicher Genehmigung durch die United News Network GmbH gestattet.

counterpixel

Comments are closed.

Für die oben stehenden Pressemitteilungen, das angezeigte Event bzw. das Stellenangebot sowie für das angezeigte Bild- und Tonmaterial ist allein der jeweils angegebene Herausgeber verantwortlich. Dieser ist in der Regel auch Urheber der Pressetexte sowie der angehängten Bild-, Ton- und Informationsmaterialien. Die Nutzung von hier veröffentlichten Informationen zur Eigeninformation und redaktionellen Weiterverarbeitung ist in der Regel kostenfrei. Bitte klären Sie vor einer Weiterverwendung urheberrechtliche Fragen mit dem angegebenen Herausgeber.