Feedback van large language models: behulpzaam maar beperkt wat betreft diepgang
AI-feedback op schrijfopdrachten kan lerenden helpen bij taalcorrectie en revisie. Tegelijkertijd maar mist feedback van de bekende large language models nog de diepgang die docenten bieden bij argumentatie en context. Dat is een belangrijke conclusie van de systematische review “Large language models for formative feedback in writing instruction” van Yuling Jiao en Qiuli Wang.
De onderzoekers hebben 34 onderzoeken naar AI-gestuurde feedback op schrijven geanalyseerd.
Volgens de auteurs is schrijven een complexe vaardigheid die afstemming vereist van taalkundige en metacognitieve processen, zoals plannen, opstellen, herzien en monitoren. Veel lerenden bereiken niet het gewenste niveau van schrijfvaardigheid, mede omdat docenten door tijdsdruk niet alle teksten even uitgebreid kunnen beoordelen. De auteurs verwijzen daarbij naar het bekende werk van Hattie en Timperley, die formatieve feedback beschouwen als een van de krachtigste factoren voor leerprestaties, mits deze tijdig, taakgericht en revisiegericht is. Een eerdere meta-analyse liet een gemiddeld effect zien van automatische feedback op schrijfprestaties (g = 0,55), met aanzienlijke variatie tussen interventies. Traditionele systemen voor automatische schrijfbeoordeling richtten zich vooral op gestructureerde, algoritmische analyse van taalkundige kenmerken, met beperkte ruimte voor dialogische feedback. De opkomst van large language models (LLM’s) zoals Claude of Google Gemini verandert dat. De onderzoekers schrijven dat deze modellen feedback kunnen geven die aansluit op principes van ‘scaffolding’ en cognitieve belasting. De modellen zijn namelijk in staat de complexiteit van hun reacties aan te passen aan de input van de lerende. Tegelijk noemen de auteurs zorgen over overmatige afhankelijkheid, bias, eerlijkheid en privacy als aandachtspunten.
Voor deze review zijn volgens de PRISMA 2020-richtlijnen de databases Scopus, IEEE Xplore en ERIC doorzocht op peer-reviewed onderzoek tussen november 2022 en februari 2026. In totaal zijn 1.401 records gevonden. Na verwijdering van duplicaten en screening op titel, samenvatting en volledige tekst bleven 34 publicaties over.
De 34 onderzoeken zijn uitgevoerd in 19 landen, met de meeste studies in China (6), gevolgd door Saudi-Arabië en de Verenigde Staten (4 elk). Het grootste deel (29 van de 34 studies) betreft het hoger onderwijs. Volgens de auteurs werd in de meeste situatie gebruikgemaakt van ChatGPT of vergelijkbare GPT-gebaseerde systemen, aangeboden via chatbotinterfaces of geïntegreerde leerplatformen. De review laat zien dat feedback van een AI-toepassing bijdraagt aan schrijfproductiviteit, taalkundige nauwkeurigheid, betrokkenheid en feedbackgeletterdheid, vooral doordat lerenden snel en herhaaldelijk kunnen reviseren. Feedback van docenten blijft echter sterker op punten als argumentatieopbouw, contextuele interpretatie, het prioriteren van revisiebehoeften en dialogische begeleiding. Aan de hand van het feedbackmodel van Hattie en Timperley laten de auteurs zien dat feedback door een grote taalmodel vooral sterk is op het niveau van ‘feed back’ (waar staat de lerende ten opzichte van het doel), en zwakker op ‘feed forward’ en zelfregulatie. De methodologische kwaliteit van de studies varieert overigens : vijf scoren hoog, dertien matig tot hoog, negen matig en twee lager.
In de discussie vatten de auteurs samen dat AI-systemen zoals ChatGPT, Copilot AI en Wordtune waarde toevoegen aan schrijfonderwijs door real-time feedback, taalcorrectie en consistente revisiemogelijkheden. Zo vonden Polakova en Ivenz verbeteringen in grammatica, beknoptheid en volledigheid van informatie. Alanazi en collega’s deden verslag van hogere scores op een nameting na ChatGPT-feedback dan na traditioneel onderwijs. Andere studies, zoals die van Rad en collega’s en Oktarin en collega’s, laten positieve effecten zien op betrokkenheid en feedbackgeletterdheid. Tegelijk benoemen de auteurs beperkingen: Steiss en collega’s vonden dat menselijke feedback beter scoorde op duidelijkheid en prioritering, terwijl Mah en collega’s concludeerden dat AI-feedback zich vooral richt op zinsniveau, terwijl docentfeedback meer het karakter van een dialoog heeft. Jovic en collega’s zagen dat ChatGPT-4.5 en Claude sterker waren in structuur en efficiëntie, maar dat menselijke beoordelaars beter waren in het verklaren van betekenis en het geven van uitgebreid advies.
De auteurs concluderen dat LLM’s nuttige hulpmiddelen zijn bij formatieve feedback op schrijfopdrachten: ze kunnen grammatica, structuur, duidelijkheid, schrijfvertrouwen, betrokkenheid en feedbackgeletterdheid versterken door tijdige en iteratieve ondersteuning bij revisie. Belangrijke beperkingen blijven echter bestaan: AI-feedback interpreteert context niet altijd goed, prioriteert revisiebehoeften minder goed en biedt weinig dialogische begeleiding bij argumentatieontwikkeling. Daarom blijft feedback van docenten volgens de auteurs centraal bij het ontwikkelen van hogere-ordevaardigheden in schrijven. De review pleit voor inzet van AI als aanvulling op, niet als vervanging van, de docent, gecombineerd met expliciete instructie in feedbackgeletterdheid en waarborgen rond privacy, fairness en overmatige afhankelijkheid. De auteurs benadrukken dat de meeste bevindingen voortkomen uit hoger onderwijs binnen EFL/ESL-context, waardoor je terughoudend moet zijn met toepassing in voortgezet en basisonderwijs. Onderzoek van da Silva, Mah, Steiss en Ezoe en Takagi biedt daar slechts beperkt eerste bewijs.
Mijn opmerkingen
Feedback van een AI-toepassing is sterk in het signaleren van taalfouten en structuuraspecten, maar mist de pedagogisch-didactische gevoeligheid en diepgang die nodig is om een lerende verder te helpen in het ontwikkelen van een argument. Dat is op zich een relevante bevinding, en goed nieuws voor mensen die pleiten voor het versterken van het werk van docenten met behulp van AI-toepassingen.
Alleen: ik krijg weinig zicht in de instructies die de AI-toepassingen hebben gekregen om feedback te geven. Dat maakt nogal wat uit. Hetzelfde geldt voor de kwaliteit van de feedback die docenten geven. Die kan ook erg variëren en daarmee verschil uitmaken. Verder lees ik dat de perceptie van de docent als expert ook van invloed is op de feedback. Zouden lerenden uit diverse culturen daar bijvoorbeeld verschillend tegenaan kijken?
Daarnaast zie ik dat niet alleen large language models zijn gebruikt, maar bijvoorbeeld ook een applicatie als Grammarly. Er zijn verder tal van specifiek voor het onderwijs ontwikkelde AI-tools beschikbaar. Deze tools zijn geen algemene large language models. Naar dit type toepassingen hebben de onderzoekers, voor zover ik kan zien, niet gekeken. Daar komt bij dat je AI-toepassingen hebt die feedback formuleren op basis van ingevoerde beoordelingscriteria en die vervolgens docenten de mogelijkheid geven om deze feedback te bewerken. Een dergelijke toepassing kan weleens tot heel andere resultaten leiden dan uit deze studie blijkt (omdat men uitgaat van AI-feedback of docent-feedback). Bovendien zou je ook met andere aspecten rekening moeten houden zoals met de impact van dit soort toepassingen op de relatie docent-student en met privacy van studenten (worden data van studenten wel anoniem opgeslagen?).
Deze kanttekeningen beperken de generealiseerdbaarheid van de bevindingen.
Wat opvalt, is dat de auteurs ‘feedbackgeletterdheid’ benoemen als onderbelicht thema: lerenden leren niet automatisch hoe ze feedback kritisch moeten interpreteren, en dat is een vaardigheid die in curricula expliciet aandacht verdient.
Jiao Y en Wang Q (2026) Large language models for formative feedback in writing instruction: a systematic review of classroom interventions, feedback quality, and student outcomes. Front. Educ. 11:1834085. doi: 10.3389/feduc.2026.1834085
Mijn bronnen over (generatieve) artificiële intelligentie
Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie.
Lees het hele
artikel