LEAD Graduate School & Research Network

26.01.2026

KI im Klassenzimmer

Kann ein Algorithmus qualitativ hochwertigen Unterricht erkennen?

Seit Jahren gilt die Qualität des Unterrichts als entscheidender Faktor für den Lernerfolg von Schülerinnen und Schülern. Aber wie lässt sich die Qualität des Unterrichts im Berufsalltag so erfassen, dass Lehrkräfte zeitnahes Feedback erhalten? Bisher setzen Forschende auf Schülerbefragungen, Lehrerurteile oder Beobachtungen. Diese Verfahren sind teuer, zeitaufwendig und nicht immer verlässlich. Eine internationale Studie, an der auch Dr. Tim Fütterer und Prof. Dr. Ulrich Trautwein vom Hector-Institut für Empirische Bildungsforschung beteiligt sind, untersucht deshalb eine neue Möglichkeit: Können KI-Algorithmen den Unterricht automatisch bewerten?

Die Idee klingt verlockend: Statt menschlicher Beobachter sollen Algorithmen Unterrichtsvideos analysieren und deren Qualität einschätzen. „Automatisierte Verfahren bieten das Potenzial, die Analyse des Unterrichts nicht nur effizienter, sondern auch objektiver zu machen“, sagt Studienerstautor Tim Fütterer. Grundlage der Untersuchung waren Daten aus der internationalen TALIS Video-Studie. Sie umfasst Videoaufnahmen aus dem Mathematikunterricht in Deutschland, die von geschulten Beobachtern bewertet wurden. Diese Bewertungen dienten als Vergleichsmaßstab für die KI-Modelle.

Die Forscher:innen nutzten multimodale Daten: Video, Audio und Transkripte. Mit Hilfe von KI-Algorithmen wurden 18 Unterdimensionen der Unterrichtsqualität vorhergesagt, die sich den drei Basisdimensionen der Unterrichtsqualität Klassenführung, Schülerunterstützung und kognitive Aktivierung zuordnen lassen. Anschließend prüfte das Team, wie zuverlässig die automatisierten Bewertungen im Vergleich zu menschlichen Urteilen waren und ob sie sich als plausibel und vorhersagekräftig erwiesen.

KI punktet bei Sprache

Insgesamt erreichten die KI-Algorithmen eine Genauigkeit, die mit menschlichen Bewertungen vergleichbar war. In 11 von 18 Unterdimensionen lagen die automatisierten Scores näher am „richtigen“ Wert als die menschlichen Urteile. Besonders gut schnitten text- und audiobasierte Modelle bei Aspekten wie der Diskursqualität oder dem Lehrkräftefeedback ab. Hier konnten die Algorithmen offenbar feine sprachliche Muster erkennen, die Menschen leicht übersehen, etwa die Struktur von Fragen oder die Tiefe von Erklärungen. Auch die inhaltliche Plausibilität der KI-Bewertungen wurde getestet. Interessanter Befund: Expert:innen hielten die automatisierten Scores oft für ebenso plausibel wie die menschlichen – teils sogar für plausibler. Bei der Vorhersage von Schülerleistungen zeigte sich ein gemischtes Bild. Weder menschliche noch maschinelle Bewertungen lieferten durchgehend klare Zusammenhänge mit den fachlichen Leistungen, die Schüler:innen zeigten. Die Unterrichtsqualität bewerteten KI und menschliche Rater:innen für denselben Unterricht unterschiedlich. Interessant ist: Für einzelne Bereiche der Unterrichtsqualität schätzte die KI die Unterrichtsqualität höher ein als die menschlichen Bewerter:innen. Entscheidend ist jedoch: Nur die KI-Bewertungen standen in einem systematischen Zusammenhang mit den Mathematikleistungen der Schüler:innen. Die Einschätzungen der menschlichen Bewerter:innen zeigten keinen solchen Zusammenhang. Zudem beurteilten unabhängige Expert:innen die KI-Bewertungen als plausibler als die menschlichen Einschätzungen.

Was bedeutet das für die Praxis?

Die Studie zeigt, dass automatisierte Analysen grundsätzlich machbar sind und klassische Verfahren ergänzen könnten, zum Beispiel in der Forschung, wo große Datenmengen bislang nur mit hohem Aufwand ausgewertet werden konnten. Der nächste Schritt ist nun, die KI-Algorithmen zu optimieren und Lehrkräften zeitnah eine App an die Hand zu geben, die sie kostenfrei nutzen können, um Feedback zu ihrer Unterrichtsqualität zu erhalten. Dieses Vorhaben setzen Tim Fütterer und Kolleg:innen aktuell im Projekt ETQ-AI um, in dem ab Anfang Februar die erste Testversion im Unterricht pilotiert wird. Parallel zur Entwicklung der App werden aber auch einige offene Fragen angegangen, die bspw. die Erklärbarkeit der KI-Urteile oder auch die Qualität der Daten (z.B. Qualität der Audiodaten) und der „Ground Truth“ betreffen, also der menschlichen Bewertungen, auf denen die Modelle derzeit basieren. „Unser KI-Ansatz ist vielversprechend, und wir setzen aktuell alles daran, ihn zur Anwendungsreife zu führen, damit alle Lehrkräfte von privatem, individualisiertem Feedback profitieren können“, betont Tim Fütterer.

Insgesamt markiert die Studie einen wichtigen Schritt: Sie zeigt, dass KI-basierte Verfahren nicht nur theoretisch möglich sind, sondern in Teilen bereits die Genauigkeit menschlicher Beobachter erreichen. Nicht nur für die Praxis, sondern auch für die Bildungsforschung eröffnet es neue Perspektiven, etwa auf die Machbarkeit groß angelegter Studien oder bessere Einblicke in die Entwicklung der Unterrichtsqualität.

 

Publikation

Fütterer, T., Hou, R., Bühler, B., Bozkir, E., Bell, C., Kasneci, E., Gerjets, P., & Trautwein, U. (2026). Validating automated assessments of teaching effectiveness using multimodal data. Learning and Instruction, 101, 102264. https://doi.org/10.1016/j.learninstruc.2025.102264

Siehe auch:

Fütterer, T., Goldberg, P., Bühler, B., Sikimić, V., Trautwein, U., Gerjets, P., Stürmer, K., & Kasneci, E. (2025). Artificial intelligence in classroom management: A systematic review on educational purposes, technical implementations, and ethical considerations. Computers and Education: Artificial Intelligence, 100483. https://doi.org/10.1016/j.caeai.2025.100483


Pressekontakt:

Philipp Sigle
pressespam prevention@lead.uni-tuebingen.de