Over onderzoek naar het gebruik van AI voor leren, opleiden en onderwijs
Er wordt steeds meer onderzoek gedaan naar AI voor leren, opleiden en onderwijs. Toch lijkt de feitelijke kennisbasis dunner te zijn dan veel enthousiaste berichten doen vermoeden. Er zijn echter ook uitzonderingen. Maar er zijn vooral veel factoren die dit onderzoek complex uitvoerbaar en generaliseerbaar maken.
Onlangs heeft Pedro De Bruyckere twee blogposts over onderzoek en AI en onderwijs geschreven, die de moeite waard zijn. In de eerste, Wat weten we tot nu toe uit onderzoek over AI en onderwijs?, bespreekt hij het rapport The Evidence Base on AI in K-12: A 2026 Review. Daaruit blijkt dat er inmiddels meer dan 800 studies over AI in onderwijs zijn, maar dat slechts een twintigtal een sterke causale evidentie laat zien. Dat betekent dat in de meeste gevallen niet vaststaat wat AI feitelijk veroorzaakt, alleen wat ermee samenhangt. Bovendien zijn veel studies van korte duur, uitgevoerd in kunstmatige settings en gericht op directe effecten.
Toch laat het rapport volgens Pedro, ondanks die beperkingen, een vrij consistent patroon zien. Als lerenden toegang hebben tot AI, presteren ze beter bij wiskunde, programmeren en schrijven. Op het moment van gebruik werkt het. Maar zodra de ondersteuning wegvalt, wordt het verhaal veel minder duidelijk. Soms blijft er iets hangen, maar dat is eerder uitzondering dan regel. Het verschil tussen presteren mét een tool en leren zónder die tool wordt hier zichtbaar.
Dat is volgens hem geen verrassende bevinding voor wie bekend is met leerpsychologie. AI verlaagt de cognitieve belasting: taken voelen makkelijker, lerenden ervaren minder frictie en soms ook meer motivatie. Maar precies die frictie is soms nodig om daadwerkelijk iets te leren. Pedro stelt:
Wat Bjork ooit “desirable difficulties” noemde, verdwijnt deels wanneer een systeem het denkwerk overneemt. Makkelijker is niet automatisch beter.
Dat gegeven kleurt ook hoe AI ontworpen is. Tools die simpelweg antwoorden geven, lijken minder effectief dan systemen die sturen, vragen stellen of stap voor stap begeleiden. AI als spiekbriefje werkt anders dan AI als tutor. Dat sluit aan bij het begrip zone van naaste ontwikkeling: ondersteuning werkt het beste wanneer ze net niet te veel doet.
Voor docenten ligt het verhaal anders. AI kan tijd besparen bij lesvoorbereiding en het geven van feedback. In één studie ging het om ongeveer een half uur per week minder werk, zonder kwaliteitsverlies. Bij een hoge werkdruk is dat geen verwaarloosbaar voordeel, meent Pedro. Er zijn ook signalen dat AI de kwaliteit van instructie kan ondersteunen, met name voor minder ervaren docenten. Dat opent perspectieven rond professionalisering en ongelijkheid tussen scholen. Tijdswinst betekent overigens niet automatisch minder werkuren; sommige docenten gebruiken de vrijgekomen tijd juist om meer of meer verdiepende feedback te geven.
Wat opvallend afwezig blijft in het onderzoek, zijn effecten op langere termijn: wat doet AI met verdiepend leren, metacognitie, zelfstandigheid, welzijn of ongelijkheid? Dat zijn precies de vragen die het maatschappelijke debat domineren, maar de onderzoeksbasis is hier nog erg smal. De kernboodschap van het rapport is volgens Pedro dan ook niet of AI werkt of niet werkt, maar dat het antwoord altijd afhankelijk is van hoe, wanneer en voor wie het wordt ingezet.
De tweede blogpost, Een van de betere AI-studies in onderwijs? ChatGPT-feedback versus docentfeedback bij leraren in opleiding, bespreekt een studie van Ding en collega’s, gepubliceerd in Teaching and Teacher Education. De auteurs onderzochten of ChatGPT-4-feedback leraren in opleiding kon helpen bij het verbeteren van hun lesontwerp. Studenten maakten een lesvoorbereiding en kregen vervolgens feedback. De ene groep van ChatGPT-4, de andere van ervaren docenten. Op basis daarvan maakten zij hun ontwerp opnieuw.
De studie maakt een onderscheid dat volgens Pedro in AI-discussies vaak ontbreekt: beter presteren op een specifieke taak versus bredere competenties ontwikkelen. Een taak beter uitvoeren is immers niet hetzelfde als duurzamere expertise opbouwen. Het onderzoek laat zien dat beide groepen significant betere taken uitvoerden, en er was geen significant verschil tussen AI-feedback en docentfeedback voor deze specifieke taak. Maar wanneer de onderzoekers keken naar bredere ontwerpcompetenties, veranderde er bij geen van beide groepen iets significant. Studenten leverden betere producten af, maar ontwikkelden niet noodzakelijk diepere of meer overdraagbare expertise.
Verder viel op hoe studenten met de feedback omgingen. Studenten die AI-feedback ontvingen, namen die minder letterlijk over en pasten haar vaker aan hun eigen context aan (“adaptive implementation“). Dat kan te maken hebben met actieve verwerking, al wijzen de interviews op een andere verklaring: de AI-feedback bleef vaak generiek. Goed voor structuur en standaard pedagogische principes, maar minder concreet over klasmanagement, haalbaarheid of specifieke overgangen in een les. Docenten gaven dat soort contextspecifieke feedback wel.
Methodologisch steekt deze studie volgens Pedro gunstig af bij veel onderzoek naar AI en onderwijs: er is een controlegroep, een pre-post design en zowel kwalitatieve als kwantitatieve analyses, terwijl de auteurs opvallend terughoudend blijven in hun conclusies. De beperkingen zijn er evenwel: 42 deelnemers, een interventie van zes weken en een specifieke context binnen een Chinese lerarenopleiding.
Mijn opmerkingen
Beide blogposts illustreren m.i. hoe complex onderzoek naar de effecten van AI op leren, opleiden en onderwijs is. Wat wil je meten? Kijk je naar leerresultaten of naar ‘performance‘? En binnen welke context -denk aan vakgebied, onderwijssoort, didactische inbedding en doelgroep- leidt welke inzet tot welke effecten? En moeten we alleen ook hebben voor leerresultaten of bekwaamheden op langere termijn, of moeten we ook kijken naar andere effecten (zoals welbevinden van lerenden, werkdruk of werkplezier van docenten)? Hoe betekenisvol is de context van de experimentele en controlegroep?
Onderzoek -ook dat van Ding cs- kijkt vaak naar interventies (zoals feedback) door een docent versus interventies met AI. In werkelijkheid zal er meestal sprake zijn van een combinatie. Bijvoorbeeld een docent die feedback geeft met behulp van een AI-tool. Of een lerende die eerst feedback vraagt aan een AI-tool en vervolgens aan een docent. Binnen veel onderzoeken wordt met de wisselwerking tussen mens en ‘AI’ geen rekening gehouden. Hoe realistisch is dat?
Pedro merkt ook terecht op dat het nogal wat uitmaakt hoe een tool ontworpen is. Applicaties als ChatGPT of Google Gemini zijn niet ontworpen voor leren, opleiden en onderwijs. Gebruikers -ook ik- kijken echter al snel hoe we deze ‘duizend dingendoekjes’ hiervoor kunnen inzetten. In de praktijk loop je dan al snel tegen mogelijkheden en beperkingen aan. Tegelijkertijd kun je deze applicaties ook instrueren om als een tutor te fungeren, in plaats van als een pseudo-alwetende generator van antwoorden. Het gaat erom deze applicaties pedagogisch-didactische doordacht te gebruiken. Bovendien zijn er ook specifiek voor leren, opleiden en onderwijs ontworpen AI-tools. Het maakt dus nogal wat uit voor de effecten wat voor AI-technologie je gebruikt. Bovendien verhoudt de doorlooptijd van onderwijsonderzoek zich bijzonder slecht tot de ontwikkeling van AI-technologie. Het gevolg is dat gepubliceerde onderzoeksresultaten betrekking hebben op verouderde technologie. Het onderzoek van Ding cs, waar Pedro over te spreken is, heeft bijvoorbeeld betrekking op ChatGPT-4, terwijl de afgelopen week versie 5.5 is uitgekomen (krachtiger en met andere mogelijkheden).
Betekent dit dat het weinig zinvol is om onderzoek naar AI en leren, opleiden en onderwijs te doen? Zeker niet. Er is zelfs meer onderzoek nodig, bijvoorbeeld naar lange termijn effecten en andere effecten dan leerresultaten. We moeten wel terughoudend zijn in het trekken van vergaande en generaliserende conclusies. Meer onderzoek leidt tot een bredere kennisbasis. Kijk echter vooral naar de context waarbinnen het onderzoek is uitgevoerd. De vraag is niet zozeer of AI werkt, maar onder welke (pedagogisch-didactische) voorwaarden, op basis van welke technologie, voor welk type leeruitkomsten en voor wie. Dat de onderzoeksbasis op precies die vragen nog smal is, maakt bescheidenheid in de conclusies geboden.
Mijn bronnen over (generatieve) artificiële intelligentie
Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie.