Bloggers

Een overzicht van blogs geschreven door aanbieders die zich hebben aangesloten bij e-Learning.nl.


Van Wilfred Rubens (redactie) | 16-04-2026 | Article Rating | (0) reacties

Werken large language modellen anno 2026 anders dan toen ChatGPT werd gelanceerd?

In gesprekken over (generatieve) AI die ik voer met diverse mensen, onder wie professionals in onderwijs en L&D, merk ik dat velen nog steeds uitgaan van de werking van large language modellen zoals die eind 2022 beschikbaar kwamen. Om deze modellen goed te kunnen inzetten in onderwijs en L&D, is het nuttig te weten hoe ze inmiddels werken. En dat verschilt op een aantal punten van zo’n 3,5 jaar geleden.

Ontwikkeling LLMLarge language modellen (LLMs) als ChatGPT werkten bij hun introductie op één basisprincipe: het voorspellen van het volgende woord op basis van een grote hoeveelheid trainingsdata. Dat principe is niet verdwenen, maar er zijn in de afgelopen jaren belangrijke veranderingen aangebracht in de manier waarop modellen worden getraind en in de manier waarop ze antwoorden genereren.

De eerste grote verschuiving betreft de schaalgrootte. Tot 2024 draaide de ontwikkeling van LLMs grotendeels om meer parameters en meer data: grotere modellen presteerden beter. Die aanpak stuitte op praktische grenzen, door kosten en een afnemend aanbod van hoogwaardige trainingsdata. De focus verschoof daarna naar efficiëntie. Een voorbeeld is de architectuur die “Mixture-of-Experts” (MoE) heet: deze architectuur stelt modellen in staat om aanzienlijk groter te worden en meer kennis te bevatten, zonder dat dit leidt tot een evenredige toename in de benodigde rekenkracht tijdens het gebruik. DeepSeek, het Chinese model dat begin 2025 veel aandacht trok, maakt intensief gebruik van deze aanpak (zie: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning).

De tweede, voor gebruikers zichtbare verandering is de opkomst van redeneermodellen. Waar standaard LLMs een antwoord direct genereren, doorlopen redeneermodellen eerst een reeks tussenstappen. Dat is een interne “gedachtegang” voordat ze tot een conclusie komen. Dit wordt mogelijk gemaakt door reinforcement learning: het model wordt beloond voor correcte, stapsgewijze redenering. OpenAI introduceerde dit principe in september 2024 met o1; Anthropic volgde in februari 2025 met Claude 3.7 Sonnet en zijn “extended thinking”-modus; Google bracht dezelfde functionaliteit onder de naam “Deep Think” in Gemini 2.0 (zie: Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities.). Mistral bracht pas in juni 2025 zijn eerste redeneermodel uit, onder de naam Magistral (zie: Magistral paper).

Deze redeneermodellen presteren aanzienlijk beter op complexe taken als wiskunde, programmeren en logica in meerdere stappen. Zo steeg de score van OpenAI’s modellen op de wiskundeolympiade AIME van 12% bij GPT-4o naar meer dan 74%-93% bij o1 op verschillende taken (zie: LLM’s leren redeneren).

De derde verandering betreft de contextomvang. Vroege LLMs konden slechts een beperkte hoeveelheid tekst tegelijk verwerken (enkele duizenden tokens). Actuele modellen verwerken contextvensters van honderdduizenden tot een miljoen tokens, wat het mogelijk maakt om lange documenten, uitgebreide gesprekken of grote codebases in één keer te verwerken.

De vierde verandering heeft te maken met de diversiteit aan toepassingen die dankzij de ontwikkeling van LLM’s is toegenomen. Bij de lancering van ChatGPT, eind 2022, kon je tekst genereren. Inmiddels kun je met één en dezelfde applicatie (steeds betere) multimedia maken, coderen (ook zonder programmeerkennis), taken inplannen, projecten uitvoeren, enzovoorts. Niet elk grote taalmodel heeft overigens dezelfde mogelijkheden.

Hebben deze veranderingen ook geleid tot een betere kwaliteit van de output van LLM’s? De outputkwaliteit is op veel gebieden verbeterd, maar de zogenaamde ‘hallucinaties’ -het genereren van feitelijk onjuiste maar overtuigend klinkende informatie- zijn niet verdwenen. Dat geldt in het bijzonder voor de redeneermodellen. Onderzoek van Vectara laat zien dat DeepSeek-R1 een hallucination rate van 14,3% had, aanzienlijk hoger dan zijn niet-redenerende voorganger DeepSeek-V3 (zie: DeepSeek-R1 hallucinates more than DeepSeek-V3). Op de SimpleQA-benchmark -die algemene feitenvragen stelt- hallucineert OpenAI o3 51% van de tijd en o4-mini zelfs 79%, terwijl het oudere o1 op 44% uitkwam. OpenAI erkende dit en stelde actief te werken aan vermindering van deze hogere rates (zie: ChatGPT 4.5: Features, Access, GPT-4o Comparison, and More).

De verklaring ligt in de aard van het redeneerproces zelf: een fout die vroeg in een redeneerketen sluipt, wordt door het model gebruikt als basis voor de volgende stappen. Hoe langer de redeneerketen, hoe groter het risico dat een initiële fout uitvergroot wordt. En hoe overtuigender het eindantwoord alsnog klinkt. Een benchmarkonderzoek waarbij zes redeneermodellen werden getest op problemen met grafieken liet zien dat alle modellen elementen hallucineerden die niet in de opgave stonden (zie: Reasoning Large Language Model Errors Arise from Hallucinating Critical Problem Features).

De meest recente publicatie op basis van de Vectara Hallicunation Leaderboard laat echter zien dat modellen in april 2026 veel minder ‘hallucineren’. Vier modellen scoren op gestandaardiseerde benchmarks voor feitelijke nauwkeurigheid een hallucination rate onder de 1%. De auteurs schrijven dat het controleren van output relevant blijft bij werk met grote gevolgen, maar verschuift van “vang voortdurende fouten op” naar “verifieer randgevallen”.(zie AI Hallucination Rates Dropped 95%: Which Models You Can Actually Trust With High-Stakes Tasks).

Naast veranderingen aan de modellen zelf, is er een ontwikkeling die daarbovenop plaatsvindt: agentic AI. Een AI-agent gebruikt een LLM voor het redeneren, maar voegt daar een laag omheen die het model in staat stelt zelfstandig meerdere stappen te zetten, tools te gebruiken -zoals zoeken op het web, code uitvoeren of bestanden lezen- en door te gaan totdat een taak is afgerond, zonder dat een mens bij elke stap ingrijpt. Dit sluit direct aan op de eerder beschreven redeneermodellen: een model dat meerdere stappen kan doordenken is bruikbaarder als agent dan een model dat alleen direct antwoordt. De orkestratie van stappen, het geheugen tussen acties en de keuze welk gereedschap wanneer in te zetten, zijn geen eigenschappen van het taalmodel zelf, maar van de architectuur eromheen. Voor docenten en L&D-professionals betekent dit dat LLMs verschuiven van vraag-en-antwoordsystemen

Voor docenten en L&D-professionals die met deze modellen werken, zijn m.i. vijf dingen relevant:

  1. Actuele modellen werken anders dan de ChatGPT versie van eind 2022: ze kunnen langer nadenken over complexe vragen en leveren op bepaalde taken betere resultaten.
  2. De betrouwbaarheid verschilt sterk per taaktype. Op goed afgebakende taken zijn modellen betrouwbaarder geworden. Bij open, complexe vragen met veel impact blijft verificatie noodzakelijk.
  3. De ernst van hallucinaties is context-afhankelijk: in een schrijfoefening is een kleine feitelijke onnauwkeurigheid minder problematisch dan in een medisch of juridisch advies.
  4. LLM’s evolueren van toepassingen voor tekstgeneratie naar systemen die taken uitvoeren zoals een onderzoeksrapport opstellen, een leertraject samenstellen op basis van toetsresultaten, of een reeks communicatieve uitingen maken. Dat vraagt niet alleen om vaardigheid in het formuleren van prompts, maar ook om inzicht in wat je wel en niet aan een agent kunt delegeren (ook met het oog op privacy), en hoe je de uitkomst van een proces van meerdere stappen beoordeelt. Zie mijn opmerkingen over AI-fluency.
  5. De technologie is niet stil blijven staan. Blijf de ontwikkeling minstens globaal bijhouden en houd niet vast aan jouw kennis over LLM’s van drie jaar geleden.

Mijn bronnen over (generatieve) artificiële intelligentie

Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie.


Lees het hele artikel


Hoe waardeert u deze bijdrage?




Reacties

Plaats hieronder uw reactie.

Naam (verplicht)

E-mail (verplicht)

CAPTCHA Afbeelding
Voer de hierboven staande code in: