KI-Test- und Trainingsdatenqualität in der digitalen Arbeitsgesellschaft (KITQAR)
Gefördert durch das BMAS (Bundesministerium für Arbeit und Soziales) erarbeitet das Verbundprojekt KITQAR Qualitätsanforderungen an KI-Trainingsdaten in der digitalen Arbeits- und Wissensgesellschaft. Zusammen mit Partnern aus Informatik, Rechtswissenschaften, Normungstechnik und Praxis erarbeitet das IZEW ethische Standards für KI-Trainingsdaten. Ziel des Projektes ist die Entwicklung eines wissenschaftlichen fundierten und praktisch anwendbaren Frameworks zur Test-, Validierungs- und Trainingsdatenqualität für Künstliche Intelligenz.
IZEW-Team
- PD Dr. Jessica Heesen, Dr. Wulf Loh (Leitung)
- Dr. Simon David Hirsbrunner (Operative Leitung)
- Dr. Lou Therese Brandner (Wissenschaftliche Mitarbeiterin)
Laufzeit
01.12.2021 – 31.12.2023
Partner
VDE Verband der Elektrotechnik, Elektronik und Informationstechnik (Projektleitung)
Dr. Sebastian Hallensleben & Team:
https://www.dke.de/de/arbeitsfelder/core-safety/kuenstliche-intelligenz
Hasso-Plattner-Institut/Information Systems
Prof. Dr. Felix Naumann & Team:
https://hpi.de/naumann/people/felix-naumann.html
Europa Universität Viadrina in Frankfurt (Oder)/Recht und Ethik digitaler Gesellschaft
https://www.europa-uni.de/de/struktur/unileitung/projekte/ens/ens-team/index.html
Das Projekt
Qualitativ hochwertige Trainingsdaten sind zentral für die Etablierung vertrauenswürdiger KI-Systeme, da diese auf große Mengen hochwertiger Trainingsdaten angewiesen sind. Doch was bedeutet ‚Qualität‘ in diesem Zusammenhang? Welche Dimensionen von Qualität sind relevant im Kontext von KI? Und welche Anforderungen ergeben sich spezifisch für den betrieblichen Verwendungskontext KI-gesteuerter Systeme?
Verzerrte Trainingsdaten werden als eine der Ursachen algorithmischer Diskriminierung ausgemacht. Die Qualität von Trainingsdaten stellt daher eine der wichtigsten Voraussetzungen für eine ethisch und rechtlich einwandfreie Anwendung von KI dar, die weder Grundrechte beeinträchtigt noch Sicherheitsrisiken verursacht.
Im Projekt beschäftigt sich das IZEW insbesondere mit ethischen Perspektiven auf das Thema Trainingsdatenqualität. Dabei geht es beispielsweise um die Problematik algorithmischer Diskriminierung, um die Etablierung von Transparenz und Erklärbarkeit, um Fragen der Haftung für fehlerhafte oder diskriminierende Trainingsdaten oder des freien Zugangs zu Daten. Weitere Themen sind der Stellenwert von Mit- und Selbstbestimmung, Datenschutz und Privatsphäre.
Die hiermit einhergehenden Ziel- bzw. Wertkonflikte betreffen nicht nur die Abwägung zwischen der Erhöhung der Trainingsdatenqualität und den Rechten von Betroffenen (z. B. Arbeitnehmer*innen oder Verbraucher*innen) etwa auf Privatheit und informationelle Selbstbestimmung. Sie stellen auch eine Herausforderung für die Operationalisierung ethischer Grundsätze im betrieblichen Alltag dar. Um einen deutlichen Anwendungsbezug herzustellen, werden Datensätze aus verschiedenen Kontexten als auch synthetische Daten verwendet. Das im Projekt zu entwickelnde Rahmenkonzept wird so verschiedene Aspekte von Datenqualität messbar und prüfbar machen. Als Vorbild für das KITQAR-Framework dient unter anderem der Bericht der AI Ethics Impact Group (AIEIG), im Rahmen dessen das IZEW und Partnerinstitutionen das erste praktisch anwendbare Konzept zur Operationalisierung von KI-Ethik vorgelegt haben. KITQAR wird vom VDE (Verband der Elektrotechnik Elektronik und Informationstechnik e.V.) geleitet und vom IZEW zusammen mit Partnern aus der Rechtswissenschaft (Europa-Universität Viadrina) und der Informatik (Hasso-Plattner-Institut) umgesetzt.
Veröffentlichungen
Glossar für KI-Datenqualität veröffentlicht!
Wir haben den Versuch unternommen, verschiedene Datenqualitätsdimensionen in einem Glossar zu versammeln. Darin enthalten sind technisch messbare Dimensionen wie Korrektheit, Konsistenz und Vollständigkeit, aber auch KI-spezifische Aspekte wie Ausgewogenheit, Diversität und Verlässlichkeit. Das Glossar ist ein Zwischenergebnis des Forschungsprojekts Kitqar, in welchem KI-Trainingsdatenqualität aus interdisziplinärer Sicht beleuchtet wird.