Onderzoek naar AI en leren: hoe cijfers een eigen leven gaan leiden
Onderzoeken naar de effecten van generatieve AI op leren trekken veel aandacht, maar de onderbouwing blijkt vaak minder stevig dan de headlines doen vermoeden. Ben Williamson laat in Enumerating AI effects in education zien waarom we voorzichtig moeten omgaan met de gepresenteerde cijfers en conclusies.
Recente onderzoeken beweren dat AI-toepassingen zoals ChatGPT het leren meetbaar verbetert. Twee meta-analyses en een studie van de Wereldbank vormden volgens Williamson de basis voor deze bewering. De onderzoeken trokken veel aandacht: de meest recente meta-analyse bereikte binnen drie weken bijna 400.000 lezers. De studie van de Wereldbank over een naschools programma met Microsoft Copilot in Nigeria concludeerde dat lerenden in zes weken een ‘leerwinst’ vergelijkbaar met twee jaar boekten. Dit opvallende resultaat haalde wereldwijd de media.
De snelle verspreiding van dergelijke uitkomsten laat volgens de auteur zien hoe statistisch onderzoek viraal kan gaan. Cijfers worden vaak gezien als objectief en betrouwbaar, ondersteund door effectgroottes en statistische significantie. Het Wereldbank-onderzoek beweerde bijvoorbeeld dat het gebruik van de AI-tool tweemaal het effect van enkele meest effectieve onderwijsinterventie zou hebben. Dergelijke numerieke uitspraken lijken objectief en gezaghebbend. Ben Williamson merkt overigens op dat ook onderzoeken gepubliceerd zijn die wijzen op de negatieve gevolgen van het gebruik van AI-toepassingen voor het leren. Ook hierbij worden ogenschijnlijk objectieve en betrouwbare cijfers gebruikt als bewijsvoering.
De auteur wijst er echter op dat verschillende wetenschappers de kwaliteit van deze onderzoeken bekritiseren. Hij verwijst naar Tim Fawns die erop wijst dat onderzoek naar technologie-effecten vaak tekortschiet omdat het de context negeert waarin technologie wordt gebruikt. AI-tutoring heeft bijvoorbeeld geen uniform effect. De effectiviteit hangt af van doelen, methoden en de bredere leeromgeving.
Het onderzoeksveld kampt volgens Williamson met zwakke kwaliteitsstandaarden. Veel studies over AI in onderwijs verschenen in 2,5 jaar sinds ChatGPT’s lancering. Dat is voor onderzoeksartikelen erg snel. De onderzoeken zijn vaak gepubliceerd in tijdschriften met gebrekkige beoordeling door andere onderzoekers. Hij stelt:
This means research of extremely dubious quality and provenance is being published with industrial frequency.
Het onderzoek heeft volgens hem zwakke kwaliteitsnormen. Studies met een gebrekkige opzet worden gepubliceerd in tijdschriften met slechte beoordeling, vervolgens gebundeld in meta-analyses van gerenommeerde publicaties. Wess Trabelski toonde aan dat veel literatuur experimentele fouten bevat, speculatieve conclusies trekt en wetenschappelijke integriteit schendt ondanks peer review. Ilkka Tuomi beschrijft dit volgens de auteur als “garbage in, gold out”. Het gaat om zwak bewijs dat geloofwaardig lijkt door verpakking in belangrijke tijdschriften.
De Wereldbankstudie illustreert volgens Williamson deze problemen. Het onderzoek vergeleek een groep die extra onderwijs kreeg (inclusief Microsoft Copilot) met een controlegroep die niets extra’s ontving. Michael Pershan benadrukt hierover dat deze opzet alleen kan aantonen dat het programma “niet letterlijk tijdverspilling” was, omdat de interventiegroep simpelweg meer onderwijs kreeg.
Betsy Wolf identificeerde andere problemen: een van de uitkomstmaten (“kennis van AI en digitale vaardigheden”) was sterk gerelateerd aan Copilot zelf. Daardoor waren betere scores voorspelbaar. Het effect van zes weken onderzoek werd misleidend gepresenteerd als “jaarlijkse leerwinst.”
Cijfers lijken volgens Ben Williamsen objectief, maar zijn altijd sociale en technische constructies. Bij elke stap worden keuzes gemaakt: wat tellen, hoe analyseren, onder welke omstandigheden. Sociale factoren beïnvloeden statistieken vanaf ontwerp tot publicatie en verspreiding. Cijfers zijn volgens hem gemakkelijk overdraagbaar en kunnen ver buiten hun oorspronkelijke context worden gebruikt, waarbij de achterliggende omstandigheden worden weggelaten. De Wereldbank-studie illustreert dit volgens hem: de resultaten werden vereenvoudigd in grafieken die online viraal gingen, terwijl belangrijke details over de onderzoeksopzet ondergesneeuwd raakten.
Deze statistieken over AI-effecten moesten worden gemaakt, geïnterpreteerd, gedecontextualiseerd en universeel gemaakt voor platforms die viraliteit bevorderen. Dit geeft voordelen aan onderzoekers die “beleidsrelevant” bewijs claimen te leveren.
De studies krijgen mogelijk grote sociale en politieke invloed in contexten die “evidence-based beleid” waarderen. Dit “snelle” bewijs contrasteert echter met kwalitatief onderzoek dat contextuele factoren benadrukt, maar dat communiceert minder gemakkelijk dan overdraagbare statistische resultaten.
Mijn opmerkingen
De behoefte aan wetenschappelijke onderbouwing naar de effecten en gevolgen van AI-toepassingen voor leren, opleiden en onderwijs zijn groot. Voordat je op grote schaal kiest voor het gebruik hiervan wil je aannemelijk kunnen maken dat deze applicaties bijdragen aan efficiënt, effectief en motiverend leren, opleiden en onderwijs. Onderzoek is daarbij van belang.
De wijze waarop wetenschappelijk empirisch onderzoek wordt uitgevoerd, verhoudt zich maar slecht tot de opmars en verspreiding van AI-technologie en ook tot de snelle ontwikkeling van deze technologie (onderzoekers maken bijna per definitie gebruik van verouderde versies). Het is belangrijk dat we niet alleen kijken naar de uitkomsten van onderzoeken, maar dat we ons ook bewust zijn van de context, methodologie en beperkingen van deze onderzoeken. Conclusies over effecten van AI-toepassingen voor leren, opleiden en onderwijs moeten momenteel met voorzichtigheid worden geïnterpreteerd. Zoals onderzoekers bijna standaard in hun publicaties stellen: meer onderzoek is nodig.
Dat onderzoek zal tegelijkertijd zorgvuldig moeten worden opgezet en uitgevoerd. Op korte termijn moeten we dan ook geduld hebben als het gaat om het verkrijgen van wetenschappelijke onderbouwingen waaraan we conclusies kunnen verbinden over de effecten van AI-toepassingen op ons vakgebied. Op langere termijn zou de wijze waarop en het tempo waarin gedegen onderzoek wordt gedaan naar de impact van in ontwikkeling zijnde digitale technologieën zoals ‘AI’ moeten veranderen. Het duurt bijvoorbeeld weken tot maanden voordat je feedback ontvangt van een beoordelaar.
Op dit moment is het in elk val zo dat de snelle verspreiding van (voorlopige) cijfers, gecombineerd met de drang om eenduidige conclusies te trekken, kan leiden tot oversimplificatie van complexe processen op het gebied leren, opleiden en onderwijs, en averechts kan werken.
Mijn bronnen over (generatieve) artificiële intelligentie
Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.
The post
Onderzoek naar AI en leren: hoe cijfers een eigen leven gaan leiden first appeared on
WilfredRubens.com over leren en ICT.
Lees het hele
artikel