The Evidence Base on AI in K-12: A 2026 Review
Stanford SCALE Initiative (Stanford Graduate School of Education)
Abstract
Eigene Zusammenfassung: Der Report der Stanford SCALE Initiative analysiert systematisch die Evidenzbasis für den Einsatz von KI-Werkzeugen im schulischen Bereich (K-12). Ausgangspunkt ist ein Repositorium von über 800 wissenschaftlichen Publikationen zu KI und Schule. Davon erfüllen nur 20 die methodischen Mindestanforderungen für kausale Rückschlüsse auf Wirksamkeit. Aus diesen 20 Studien werden drei zentrale Befunde destilliert: Erstens zeigen Schüler:innen mit Zugang zu KI-Tools Leistungsverbesserungen beim Lösen von Aufgaben mit KI-Unterstützung — aber die Evidenz für Lerngewinne ohne KI-Nutzung bleibt uneinheitlich. Zweitens liefern spezialisierte, didaktisch eingebettete KI-Systeme («mit pädagogischen Leitplanken») bessere Lernergebnisse als General-Purpose-Chatbots. Drittens kann KI die Vorbereitungsarbeit von Lehrpersonen reduzieren, ohne die Unterrichtsqualität einzubüssen. Das gravierendste Versäumnis der bisherigen Forschung: Es existiert keine einzige methodisch belastbare Kausal-Studie aus dem realen US-Schulalltag. Der Bericht schliesst mit einem Appell, in praxisnahe, methodisch hochwertige Feldforschung zu investieren.
Einordnung
Dieser Report nimmt im KI-Bildungsdiskurs eine Schlüsselposition ein, die weder die kritisch-theoretische Linie (Selwyn, Macgilchrist, Pangrazio) noch die praxisorientierte Rezeptionslinie (Crompton/Burke, Brägger/Rolff) allein besetzen kann: Er übersetzt den Standard der evidenzbasierten Bildungsforschung — wie er etwa von der Campbell Collaboration oder dem What Works Clearinghouse gesetzt wird — konsequent auf den EdTech-Bereich. Das Ergebnis ist methodisch ernüchternd, aber sachlich: Nicht KI generell ist evidenzarm, sondern der unstrukturierte Einsatz von Allzweck-Chatbots. Diese Differenzierung ist bildungspolitisch hochrelevant, weil sie «KI im Unterricht» als undifferenzierte Kategorie auflöst.
Entscheidend ist die Unterscheidung «Performance mit KI» vs. «Lernen ohne KI»: KI-Tools können kurzfristig Testergebnisse verbessern, ohne dabei nachhaltiges Lernen zu fördern — ein Befund, der parallel im OECD Digital Education Outlook 2026 erscheint und dort als zentrales bildungspolitisches Warnsignal formuliert wird. Der Stanford-Report liefert die methodisch striktere Begründung für dasselbe Argument.
Im Vergleich zur BMBF-Handreichung (Scheiter et al. 2025) ist der Stanford-Report expliziter in seiner Methodenbeurteilung: Er sagt nicht nur «die Forschung ist noch jung», sondern «die grosse Mehrheit der vorliegenden Studien ist methodisch nicht belastbar». Für Beschaffungsentscheide und EdTech-Evaluationen ist dieser Unterschied praxisrelevant — er verschiebt die Beweislast zu den Anbietern. Für den DACH-Kontext gilt: Die Studie ist US-zentriert, ihr methodologischer Massstab aber universell anwendbar. Bildungsdirektionen und Schulleitungen können den Bericht als Prüfliste verwenden — «Gibt es für dieses Produkt, das uns angeboten wird, methodisch belastbare Wirknachweise?» — und werden in den meisten Fällen feststellen, dass die Antwort nein lautet.
Leseempfehlung
Für Schulleitungen, Bildungsdirektionen, PH-Forschende und EdTech-Beschaffer:innen, die KI-Angebote für den Schulbereich beurteilen müssen und eine empirisch fundierte Referenz für Evidenzanforderungen suchen. Als methodologischer Kontrapunkt zum technologie-optimistischen Teil des Diskurses und als Komplementär zum OECD Digital Education Outlook 2026: Wo der OECD-Report die Policy-Empfehlungen setzt, liefert Stanford die methodologische Begründung, warum vorsichtige Einführung das Gebot der Stunde ist.