Wie lässt sich die Qualität von KI-Trainingsdaten bewerten? (KITQAR)
KI-Trainings-, Test- und Validierungsdaten sind ein immer lukrativer werdendes Geschäft mit rasant wachsender Nachfrage. KI-Modelle benötigen Beispieldaten wie Bild-, Video- oder Textdaten, um zu lernen, bestimmte Muster zu erkennen und zu klassifizieren. Wenn ein KI-basiertes System z.B. aus hunderten Lebensläufen vielversprechende Bewerber:innen für einen bestimmten Job auswählen soll, muss es zunächst einmal anhand existierender Lebensläufe von hochqualifizierten Kandidat:innen lernen zu erkennen, welche Merkmale – Schlagwörter, Eigenschaften, Fähigkeiten – Potential vorhersagen. Doch Fälle wie Amazons sexistisches KI-Tool, das weibliche Bewerberinnen unverhältnismäßig häufig aussortiert hat, zeigen, dass solche Anwendungen gesellschaftliche Unterdrückungsmechanismen reproduzieren können. In Amazons Fall lag dies an den Trainingsdaten: Bestehen diese hauptsächlich aus den Lebensläufen erfolgreicher Männer, lernt das System bestehende Diskriminierungen in der Tech-Industrie gleich mit.
KI-Anwendungen sind also ungemein abhängig von der Verfügbarkeit geeigneter, qualitativ hochwertiger Trainingsdaten. Es gilt das Prinzip garbage in, garbage out – Systeme, die mit minderwertigen Daten trainiert wurden, werden minderwertige Ergebnisse liefern. Zudem wird KI zunehmend reguliert; der KI-Verordnungsentwurf der EU schlägt diverse Anforderungen an die Qualität entsprechender Systeme, inklusive ihrer Trainingsdaten, vor. Dennoch existieren bisher keine einheitlichen Qualitätsstandards für diese Daten, was viele Fragen offenlässt: Welche Dimensionen von Datenqualität sind relevant für KI? Welche Aspekte müssen bei der Charakterisierung und Evaluierung von KI-Trainingsdatenqualität berücksichtigt werden? Genau hier setzt das Forschungsprojekt KITQAR (KI-Test- und Trainingsdatenqualität in der digitalen Arbeitsgesellschaft) an, das ein wissenschaftlich fundiertes und praktisch anwendbares Modell zur KI-Test-, Validierungs- und Trainingsdatenqualität entwickeln will.
Das entstehende Framework wird anhand verschiedener Anwendungsszenarien der digitalen Arbeits- und Wissensgesellschaft verfeinert. Ein solches Szenario ist die Anwendung im Personalwesen, bei der KI-Systeme zur Sortierung von Lebensläufen, aber z.B. auch zur Durchführung und Analyse von automatisierten Bewerbungsgesprächen verwendet werden können. Ganz verschiedene Faktoren können hier zur Qualität von Trainingsdaten beitragen:
- Wo wurden die Daten gesammelt?
- Wie wurde die Datenbereinigung dokumentiert?
- Für wen sind die Daten zugänglich?
- Wer hat sie annotiert und mit welchem Vorwissen?
- Für welche Gruppen, Industrien und Berufe sind die Datensätze repräsentativ?
Es zeigt sich schnell, dass die Evaluierung von Datenqualität keine einfache Aufgabe ist. Qualitätsdimensionen können subjektiv oder objektiv sein, sind teils quantitativ messbar und teils qualitativ-beschreibend bewertbar. Anstatt Datenqualität pauschal als fitness for use, also als die Eignung von Daten für einen bestimmten Anwendungszweck, zu definieren, berücksichtigt KITQAR informatische, ethische, rechtliche, normungstechnische und praktische Perspektiven.
Dafür wurde ein wissenschaftlich-technisches Konsortium gebildet, das vom VDE geleitet wird. Neben dem IZEW sind außerdem die Universität zu Köln und das Hasso-Plattner-Institut der Universität Potsdam beteiligt. Artefakte wie ein teilautomatisiertes Testkit und das kürzlich veröffentlichte Datenqualitätsglossar sollen dazu dienen, Datenqualität für Anwender:innen selbst überprüfbar zu machen. Ein breit aufgestellter Stakeholderkreis aus Industrie, Zivilgesellschaft und Regulierung sichert dabei den Praxisbezug und den Transfer von Ergebnissen. So soll möglichst verhindert werden, dass KI-Anwendungen aufgrund mangelnder Datenqualität u.a. ungenaue Ergebnisse liefern, diskriminierend wirken oder Datenschutzrichtlinien verletzen.
Das Projekt wird gefördert durch die Denkfabrik Digitale Arbeitsgesellschaft des Bundesministeriums für Arbeit und Soziales (BMAS).