De impact van ChatGPT op leeruitkomsten (bespreking meta-analyse)
ChatGPT heeft een matig positief effect op leeruitkomsten van lerenden. Dat effect verschilt echter aanzienlijk afhankelijk van het vakgebied, de duur van de inzet en de gehanteerde instructievorm. Dat leert een meta-analyse van Wu et al. (2026). Meer onderzoek is nodig, want deze studie heeft ook beperkingen.
De onderzoekers beschrijven hun bevindingen in “ChatGPT’s impact on student learning outcomes: a meta-analysis of 35 experimental studies”.
Voor dit onderzoek analyseerden de auteurs 35 experimentele en quasi-experimentele studies gepubliceerd tussen 2022 en 2024, met in totaal 4.193 deelnemers en 134 effectgroottes. De gecombineerde effectgrootte bedraagt g = 0,670 en is statistisch significant. Dit wijst erop dat ChatGPT leeruitkomsten bij een experimentele groep positief beïnvloedt in vergelijking met een controlegroep.
Wu en collega’s onderscheiden cognitieve en niet-cognitieve leeruitkomsten. Cognitieve leeruitkomsten -waaronder kritisch denken, probleemoplossend vermogen en leerresultaten- verbeteren duidelijk sterker (g = 0,872) dan niet-cognitieve uitkomsten zoals motivatie, betrokkenheid en zelfeffectiviteit (g = 0,539); het verschil tussen beide dimensies is statistisch significant. Binnen de cognitieve dimensie springt kritisch denken het meest in het oog met een effectgrootte van 1,008, gevolgd door probleemoplossend vermogen (g = 0,933) en leerresultaten in brede zin (g = 0,876). Creatief denken en sociale vaardigheden laten kleinere maar nog altijd positieve en statistisch significante effecten zien. Wat de niet-cognitieve uitkomsten betreft, heeft ChatGPT het sterkste effect op betrokkenheid bij leren (g = 0,660); leerinteresse, zelfeffectiviteit en leermotivatie volgen op enige afstand.
De onderzoekers analyseerden vervolgens vijf modererende variabelen. Dat zijn factoren die verklaren onder welke omstandigheden ChatGPT meer of minder effectief is. Je wilt namelijk weten onder welke omstandigheden, binnen welke context, voor wie, hoe lang en in welk didactisch kader goed werkt.
Wat het vakgebied betreft, zijn de effecten het grootst bij natuurkunde (g = 1,951), scheikunde (g = 1,276) en Engels (g = 0,994). Voor wiskunde, informatica en literatuur gelden matig positieve effecten. Bij interdisciplinaire vakken en exacte wetenschappen zijn de effecten statistisch niet significant, wat de onderzoekers mede toeschrijven aan de beperkte steekproefomvang in die categorieën. Uit de heterogeniteitsanalyse blijkt dat het effect van ChatGPT significant verschilt per vakgebied.
De duur van de inzet maakt eveneens een aanzienlijk verschil. Bij een interventie korter dan één maand bedraagt de effectgrootte g = 0,456; bij één tot drie maanden stijgt dit naar g = 0,669; en bij meer dan drie maanden naar g = 1,033. De onderzoekers verbinden dit aan het gegeven dat kortdurend gebruik vaker leidt tot oppervlakkige interactie, terwijl lerenden bij langere inzet de tijd hebben om AI-vaardigheden te ontwikkelen en verdieping te bereiken. Zij wijzen er tegelijk op dat de definitie van ‘langdurig gebruik’ per studie sterk verschilt en dat culturele factoren de aanpassingssnelheid mede bepalen.
Het onderwijsniveau blijkt geen significante modererende factor. Zowel in het voortgezet onderwijs (g = 0,847) als in het hoger onderwijs (g = 0,744) is sprake van een positief effect, zonder statistisch significante onderlinge verschillen. Dit suggereert dat ChatGPT op meerdere niveaus inzetbaar is.
De instructievorm is wél een significante modererende variabele. De onderzoekers onderscheiden twee manieren waarop ChatGPT in lessen wordt ingezet: traditionele, docentgecentreerde vormen zoals hoorcolleges, en innovatieve, studentgecentreerde vormen zoals probleemgestuurd leren, de flipped classroom en blended learning. ChatGPT is effectiever bij traditionele, docentgecentreerde werkvormen (g = 0,928) dan bij meer studentgecentreerde aanpakken (g = 0,623). Volgens de onderzoekers sluit ChatGPT goed aan bij gestructureerde instructie, als aanvulling op docentsturing. Bij open, exploratieve werkvormen kan de AI-toepassing de inhoudelijke sturing van een docent niet vervangen, omdat lerenden in die context meer behoefte hebben aan begeleiding dan ChatGPT kan bieden.
Ten slotte is er het onderscheid naar kennistype. Bij declaratieve kennis -het begrijpen van feiten en concepten- bedraagt de effectgrootte g = 0,903; bij procedurele kennis, gericht op vaardigheden en handelingen, is dat g = 0,705. Het verschil is statistisch niet significant, maar de onderzoekers wijzen erop dat ChatGPT beter is toegerust voor conceptuele inhoud dan voor praktijkvaardigheden, die hands-on oefening vereisen.
Bron: Wu, X., Zhu, P., Zhang, J. et al. ChatGPT’s impact on student learning outcomes: a meta-analysis of 35 experimental studies. Humanit Soc Sci Commun (2026). https://doi.org/10.1057/s41599-026-07019-z
Mijn opmerkingen
Een relevante kanttekening is dat alle 35 geanalyseerde studies uitsluitend ChatGPT betreffen (ook nog oudere versies). Het ging dus om een generieke AI-toepassing die niet speciaal voor het onderwijs is ontwikkeld. Er is dus niet gekeken naar AI-toepassingen die met een doordacht pedagogisch-didactisch ontwerp zijn gebouwd. Op basis van ander onderzoek weten we dat zowel het pedagogisch-didactisch ontwerp als de wijze waarop AI-toepassingen worden ingezet van invloed zijn op de effecten. De bevindingen van deze meta-analyse zijn daardoor niet zonder meer te vertalen naar de inzet van meer gespecialiseerde AI-tools in het onderwijs.
Verder richt de meta-analyse zich vrijwel uitsluitend op leeruitkomsten in de klassieke zin: kennis, vaardigheden, motivatie en betrokkenheid. Andere effecten van AI-gebruik in het onderwijs -zoals gevolgen voor het welzijn van lerenden, voor hun gevoel van autonomie of voor afhankelijkheidsgedrag- komen in de opgenomen studies nauwelijks aan bod. Dat zijn eveneens relevante uitkomsten, die mede bepalen of AI-inzet op langere termijn wenselijk is.
De 35 studies hebben leerresultaten op drie manieren gemeten: via objectieve toets- en examenscores, via vragenlijsten waarin studenten hun eigen leerproces beoordeelden, en via de prestaties op specifieke opdrachten. Bij dat laatste ging het onder meer om schrijfkwaliteit, taakvoltooiingssnelheid, creativiteit en probleemoplossend vermogen. Ze hebben dus niet gekeken naar de effecten op langere termijn, en op de vraag of lerenden het geleerde ook konden toepassen. We weten dat lerenden ook afhankelijk kunnen worden van AI-toepassingen.
De auteurs brengen instructievormen terug tot twee varianten. Dat is wat kort door de bocht. ChatGPT kan bovendien inderdaad prima -niet altijd goede- output genereren. Dat sluit aan bij kennisoverdracht (een soort hoorcollege), maar is niet heel effectief als het gaat om echt leren. Het kan leiden tot kopiëren en plakken en tot een “illusie van leren”. De onderzoekers wijzen erop dat ChatGPT minder goed in staat is om lerenden bijvoorbeeld bij probleemgestuurd leren te begeleiden. Specifiek voor het onderwijs ontwikkelde AI-applicaties zijn daar beter toe in staat. Juist daarom zou je ook meer onderzoek moeten doen naar dit type applicaties.
De auteurs noemen zelf overigens ook diverse beperkingen van hun meta-analyse: de kans op publicatiebias doordat uitsluitend gepubliceerde studies zijn meegenomen, het feit dat niet alle relevante factoren als moderator zijn onderzocht -zoals de concrete rol van de docent, de taakinrichting of de mate van begeleiding- en de beperkte steekproefomvang in sommige subcategorieën. Zij erkennen ook dat de smalle definitie van leeruitkomsten een volledig beeld belemmert, onder meer wat betreft effecten op AI-geletterdheid en hogere-orde denken. Door deze beperkingen expliciet te benoemen, nemen de onderzoekers critici deels de wind uit de zeilen.
Mijn bronnen over (generatieve) artificiële intelligentie
Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie.
Lees het hele
artikel