Generatieve AI bij feedback en begeleiding: mogelijkheden en beperkingen
Het geven van goede feedback en uitgebreide persoonlijke begeleiding is arbeidsintensief en daardoor lastig op echt grote schaal te realiseren. Intensieve, één-op-één begeleiding leidt tot betere leerresultaten, maar is in de praktijk voor de meeste lerenden niet beschikbaar. AI-toepassingen worden steeds vaker gezien als een manier om het bereik van gerichte feedback en tutoring te vergroten. De vraag daarbij is vooral onder welke voorwaarden deze toepassingen hiervoor kunnen worden ingezet en welke beperkingen daarbij het hoofd geboden moeten worden.
Ik heb sinds de lancering van ChatGPT (eind november 2022) veel blogposts geschreven over (generatieve) AI en leren, opleiden en onderwijs. Ik wil aan de hand van die bijdragen -en met behulp van Cowork van Claude- terugblikken op enkele thema’s. In deze bijdrage sta ik stil bij feedback en begeleiding.
Een van de meest genoemde voordelen van generatieve AI bij feedback is de mogelijkheid om snel en persoonlijk te reageren op het werk van een lerende. Een AI-toepassing kan op elk moment directe suggesties geven, afgestemd op wat de lerende heeft aangeleverd. Isabel Fischer, een van de auteurs die hierop wijst, ziet met name meerwaarde bij formatieve feedback. Deze feedback is gericht op verbetering tijdens het leerproces, niet op een eindbeoordeling. Ze benadrukt daarbij wel dat standaard generatieve tools zoals ChatGPT vaak generieke feedback geven zonder voldoende vakinhoudelijke diepgang. Om dat op te lossen adviseert ze gebruik te maken van een aanpak waarbij de AI werkt met specifieke documenten en eerder lesmateriaal, zodat de feedback beter aansluit bij de vakinhoud. Docenten kunnen bijvoorbeeld hun eigen lesmateriaal uploaden naar een AI-systeem, waarna dat systeem in staat is feedback te geven op basis van de eigen leerdoelen en criteria.
AI als tutor: wat onderzoek laat zien
Onderzoekers van Harvard publiceerden resultaten van een gerandomiseerd experiment (N=194) waarbij een zorgvuldig ontworpen AI-tutor werd vergeleken met actief klassikaal leren. Lerenden die met de AI-tutor werkten, bereikten een mediane score van 4,5 op een schaal van 1 tot 5, tegenover 3,5 voor de klassikale groep. De leerwinst was meer dan twee keer zo groot bij AI-gebruik, met effectgroottes tussen 0,63 en 1,3 standaarddeviatie. Daarnaast had 70% van de AI-groep minder dan 60 minuten nodig voor een les die klassikaal 60 minuten duurde, met een gemiddelde van 49 minuten. 83% van de lerenden beoordeelde de uitleg van de AI als minstens even goed als die van een docent.
Belangrijk aan deze bevindingen is hoe de AI-tutor in dit onderzoek was ontworpen. Het ging niet om een standaard chatbot, maar om een systeem dat werkte via stapsgewijze begeleiding, fouten actief voorkwam door gebruik te maken van door experts geschreven antwoorden, en lerenden op hun eigen tempo liet werken. Het ontwerp was gebaseerd op didactische principes, niet alleen op technische mogelijkheden. De onderzoekers benadrukken dat dit het verschil maakte.
Je moet bij dit onderzoek ook kijken naar de context. Het onderzoek vond plaats bij Harvard-studenten die werken met basisleerstof. De bevindingen zijn niet zonder meer overdraagbaar naar het voortgezet onderwijs of het middelbaar beroepsonderwijs. De metingen werden bovendien direct na de les uitgevoerd, niet op langere termijn. Of de leerwinst beklijft, en of een vergelijkbare aanpak werkt bij complexere leerdoelen zoals synthese of kritisch denken op hoog niveau, is niet aangetoond.
Schaal en bereikbaarheid
Een ander argument voor AI-tutoring is -zoals ik in de lead al schrijf- de mogelijkheid om persoonlijke begeleiding beschikbaar te maken voor wie dat normaal gesproken niet heeft. Mede op basis van een befaamde studie van Benjamin Bloom gaan we ervan uit dat intensieve tutoring -waarbij lerenden regelmatig en frequent begeleid worden- aantoonbaar effectief is. Maar een rapport van UChicago Education Lab en MDRC laat ook zien hoe moeilijk dit op grote schaal te realiseren is. In kleinschalige onderzoeken werden leerwinsten gemeten van 0,25 tot 0,3 standaarddeviatie. Grootschalige implementaties realiseerden slechts 0,06 tot 0,09 standaarddeviatie, wat overeenkomt met één tot twee maanden extra leren per jaar. De oorzaak lag niet in de methode zelf, maar in de uitvoering: lerenden ontvingen in de praktijk vaak maar 10 tot 38 uur tutoring per jaar, terwijl effectieve begeleiding in de onderzoekssetting uitkwam op 34 tot 82 uur.
AI kan in dat gat springen: de technologie is op elk moment beschikbaar, past het tempo aan aan de lerende en is schaalbaar zonder evenredige kostenstijging. Universiteiten in de Verenigde Staten maken bovendien al gebruik van AI voor een aangrenzend doel: het vroegtijdig signaleren van lerenden met risico op uitval. Georgia State University monitort dagelijks meer dan 800 risicofactoren per student en verstuurt automatisch meldingen naar adviseurs wanneer een lerende in de gevarenzone komt. Het resultaat is een 7% hoger afstuderingspercentage, met name onder lerenden uit achtergestelde groepen.
Beperkingen: kwaliteit, ontwerp, afhankelijkheid en inhoud
Tegenover de mogelijkheden staan aanzienlijke beperkingen. Tony Bates testte bijvoorbeeld het platform AI Tutor Pro uitgebreid en beschreef meerdere tekortkomingen. De begeleiding schoot tekort op het moment dat een lerende vastliep: het systeem bood meestal maar één of twee antwoorden per vraag. De socratische vraag-antwoordmethode die het systeem toepaste, bleek in de praktijk te beperkt. Motivatie daalde na korte tijd. Bovendien ontbraken afbeeldingen, wat voor sommige vakken een wezenlijk gemis is. Over de herkomst van informatie was het systeem weinig transparant: bronverwijzingen waren generiek en niet concreet.
Een groter probleem is dat veel AI-tools zijn geoptimaliseerd voor het snel opleveren van resultaten, niet voor het begeleiden van een leerproces. Robin Moffatt beschreef zijn eigen ervaring met Claude als persoonlijke tutor: het systeem viel herhaaldelijk terug op het schrijven van volledige oplossingen, terwijl hij had gevraagd om begeleiding. Ook verzon het systeem voorbeeldwaarden voor een databaseveld zonder die te verifiëren. Moffatt had voldoende vakkennis om dit op te merken, een minder ervaren lerende heeft dit veelal niet. Dat maakt duidelijk dat het gebruik van AI als tutor behoorlijk wat expertise van de lerende zelf vereist. Wie blind vertrouwt op de uitkomsten van een AI-systeem loopt het risico onjuiste informatie als juist te beschouwen.
Daarmee komen we ook op het risico van afhankelijkheid. Als lerenden gewend raken aan directe antwoorden en uitleg op maat, bestaat de kans dat ze minder geneigd zijn zelf te zoeken, te redeneren en fouten te verwerken. Phillip Dawson, die kritisch schrijft over de gevolgen van AI voor beoordeling, waarschuwt dat AI-gebruik zonder toezicht kan leiden tot “standaardinflatie”: het niveau van ingeleverd werk stijgt, maar dat zegt weinig meer over wat de lerende zelf begrijpt of kan. Dit is volgens hem een structureel vraagstuk, geen technisch probleem dat met betere tools op te lossen is.
Een andere beperking is dat begeleiding door een AI-tutor zich beperkt tot het cognitieve domein. Lerenden ontwikkelen zich echter niet alleen cognitief. Je wilt ook hen begeleiden op aspecten als samenwerken, communiceren of als het gaat om het welbevinden van de lerende. Daar schiet AI tekort, onder meer omdat AI-toepassingen vooralsnog niet in staat zijn om non-verbaal gedrag waar te nemen en te interpreteren. Volgens Tom Chatfield hebben grote taalmodellen geen betrokkenheid, geen belangen en geen begrip van de leefwereld van de lerende. Dat maakt menselijke interactie volgens hem juist onmisbaar, omdat AI-toepassingen niet tot een echte dialoog in staat zijn.
Eerlijkheid, privacy en ongelijkheid
Audrey Watters formuleert een principiëler bezwaar: technologieën die individualisering benadrukken kunnen onderwijsongelijkheid juist versterken in plaats van verminderen. Algoritmes bepalen welke lerenden toegang krijgen tot welke content en welke begeleiding, en daarin kunnen vooroordelen sluipen die niet altijd zichtbaar zijn. Wie een AI-systeem gebruikt dat getraind is op data van een bepaalde groep lerenden, krijgt begeleiding die op die groep is afgestemd.
Daar komt bij dat AI-systemen die persoonsgegevens verwerken — zoals gedetailleerde leerprofielen en risicoanalyses — juridische vragen oproepen over privacywetgeving, met name de AVG. Wie is verantwoordelijk voor de data? Hoe lang worden gegevens bewaard? Wat zijn de gevolgen als een lerende ten onrechte als risicogeval wordt aangemerkt? Deze vragen zijn nog lang niet allemaal beantwoord. Aangezien feedback en begeleiding een behoorlijke invloed kunnen hebben op het leren, kun je AI-tools het berste gebruiken in aanvulling op menselijke feedback. Om een grotere sociale ongelijkheid te voorkomen, is het van belang dat alle lerenden beschikken over dezelfde ‘AI-feedback’.
Samenvattend
AI bij feedback en begeleiding biedt reële mogelijkheden, met name voor formatieve feedback en voor het beschikbaar maken van begeleiding op momenten en in situaties waarin een docent niet aanwezig is. De Harvard-resultaten laten zien dat goed ontworpen AI-tutoring leerwinst kan opleveren die zelfs groter is dan kwalitatief goed ontworpen regulier onderwijs. Dat vereist echter een zorgvuldig ontworpen AI-systeem.
De beperkingen zijn eveneens reëel. Afhankelijkheid van AI-feedback kan ten koste gaan van echt leren. AI-systemen zijn doorgaans niet ontworpen met leren als primair doel, maar met het geven van antwoorden. Dat is een wezenlijk verschil. Docenten die AI inzetten voor feedback of begeleiding doen er goed aan daar duidelijke kaders voor te stellen: wanneer geeft AI feedback, op welk type taken, en hoe worden lerenden gestimuleerd om die feedback actief te verwerken in plaats van passief te ontvangen?
Het meest productieve gebruik lijkt te liggen in de combinatie: AI voor begeleiding bij introductie van nieuwe stof en directe formatieve feedback op inhoudelijke onderwerpen, waardoor docenten meer tijd hebben voor complexere taken als probleemoplossing, discussie en groepswerk.
Gebruikte blogposts
Mijn bronnen over (generatieve) artificiële intelligentie
Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie.
Lees het hele
artikel