Zijn criteria voor het evalueren van websites ook relevant voor het evalueren van AI-content?
De Dalhousie University heeft een raamwerk ontwikkeld voor de evaluatie van websites, dat zich richt op zes kernaspecten die belangrijk zijn voor het bepalen van de betrouwbaarheid en bruikbaarheid van een website. Med Kharbach vat deze criteria samen. Kunnen deze criteria ook worden gebruikt voor de evaluatie van content die door generatieve AI-toepassingen is gemaakt?
De criteria dienen volgens Kharbach als een praktische gids om door het digitale domein te navigeren en helpen gebruikers om geloofwaardige informatie te onderscheiden in een tijdperk waarin gegevens in overvloed aanwezig zijn, maar kwaliteit niet altijd gegarandeerd is. Hij stelt dat door deze criteria toe te passen, gebruikers weloverwogen beslissingen kunnen nemen, inhoud van hoge kwaliteit onderscheiden en de valkuilen van verkeerde informatie vermijden. De criteria zijn:
- Autoriteit: Beoordeel de geloofwaardigheid van de bron. Wie is de auteur of maker van de website? Wat zijn hun kwalificaties? Is er duidelijke contactinformatie of een band met een gerenommeerde instelling?
- Doel: Identificeer de intentie achter de website. Is het primaire doel informeren, overtuigen, vermaken of verkopen? Is de inhoud afgestemd op een specifiek publiek?
- Dekking: Evalueer de diepgang en breedte van de inhoud. Hoe uitgebreid behandelt de site zijn onderwerpen? Hoe verhoudt de dekking zich tot vergelijkbare websites?
- Actualiteit: Beoordeel de tijdigheid en relevantie van de informatie. Wanneer is de inhoud voor het laatst bijgewerkt? Wordt de website regelmatig onderhouden?
- Objectiviteit: Onderzoek de onpartijdigheid van de inhoud. Wordt informatie op een evenwichtige manier gepresenteerd? Zijn er verschillende perspectieven vertegenwoordigd?
- Nauwkeurigheid: Controleer de correctheid van de informatie. Worden bronnen of referenties vermeld? Zijn er feitelijke fouten of ongecontroleerde beweringen?
Kun je deze criteria ook gebruiken voor het evalueren van content die door generatieve AI toepassingen zoals ChatGPT 4o, Google Gemini of Claude 3.5 Sonnet is gegenereerd? Laten we ze even langs lopen.
- Autoriteit. Generatieve AI-toepassingen als ChatGPT 4o en Claude 3.5 Sonnet komen niet vanzelf met bronnen, Google Gemini wel. Je kunt daar wel expliciet om vragen. Je kunt dus de geloofwaardigheid van een bron pas checken als de bron wordt gepresenteerd. Vervolgens moet je dus wel de bron checken. Dit vormt een hogere drempel in vergelijking met het bezoek aan een website (bijvoorbeeld via een zoekmachine). In dit laatste geval moet je namelijk een antwoord zelf construeren en check je eerst de bron voordat je dat gaat doen. Autoriteit is dus wel een bruikbaar criterium, mits je om bronnen vraagt en die bronnen checkt.
- Doel. Het doel kun je pas achterhalen als je de bron(nen) kent waarop de output is gebaseerd. Doel is dus ook een bruikbaar criterium, mits je om bronnen vraagt en die bronnen checkt.
- Dekking. Je kunt inderdaad diepgang en breedte van de inhoud beoordelen. Je hebt daarvoor wel voorkennis nodig. De inhoud van het antwoord kan immers ook gebaseerd zijn op ‘hallucinaties’. Output van generatieve AI-tools kan indrukwekkend overkomen. Ook al hoeft de inhoud allesbehalve indrukwekkend te zijn.
- Actualiteit. Bij generatieve AI-output kun je niet checken hoe oud de informatie is waarop de output is gebaseerd. We weten wel dat grote taalmodellen niet over de meest actuele data beschikken.
- Objectiviteit. Het is afhankelijk van de vraag die je stelt, of het onderwerp waarover je een vraag stelt, of generatieve AI-output op een evenwichtige manier wordt gepresenteerd en of verschillende perspectieven worden vertegenwoordigd. Maar op zich is dit wel een bruikbaar criterium.
- Nauwkeurigheid. Met uitzondering van Google Gemini presenteren andere generatieve AI-toepassingen zoals gezegd niet uit zich zelf bronnen. Feitelijke fouten en ongecontroleerde beweringen kun je dan alleen op basis van voorkennis controleren. Toch is dit een bruikbaar criterium.
Check dus dekking, objectiviteit en nauwkeurigheid op basis van voorkennis. Of laat de output door iemand met kennis van zaken controleren. Vraag ook expliciet om bronnen en check daarna autoriteit en doel. Het vragen om bronnen doe je dan voornamelijk in de ‘prompt’ (bij ChatGPT kun je dit ook in een GPT verwerken).
Ik heb bijvoorbeeld de volgende prompt gebruikt:
Onthoudt een student op langere termijn 10% van wat hij leest, en 90% van wat hij aan anderen heeft uitgelegd?
Hierbij kreeg ik van ChatGPT 4o, Claude 3.5. Sonnet en Perplexity geen bronnen. De gratis versie van Google Gemini verwees wel naar bronnen (populaire bronnen, geen wetenschappelijke publicaties). Alle antwoorden waren overigens van behoorlijk goede kwaliteit.
Ik heb ook deze prompt gebruikt:
Jij bent een erkend expert op het gebied van cognitieve psychologie. Je staat bekend om je vermogen om het meest gedetailleerde inzicht te presenteren aan een breed publiek dat door iedereen begrepen kan worden. Een docent vraagt of jij de volgende vraag kunt beantwoorden: Is het zinvol om bij het ontwikkelen van een les rekening te houden met leerstijlen van leerlingen? Geef dit antwoord. Schrijf in het Nederlands. Houd rekening met culturele en taalkundige eigenheden van Nederland zoals directheid, en een pragmatische, nuchtere en realistische toon. Zorg ervoor dat de uitleg logisch, eenvoudig en goed gestructureerd is en vermijd oppervlakkig schrijven, en algemeenheden. De stijl moet informatief, eenvoudig, goed gestructureerd en boeiend zijn, met een sterke focus op het uitleggen van complexe concepten in toegankelijke taal. Het antwoord moet gebaseerd zijn op gedegen cognitief psychologisch of onderwijskundig onderzoek. Geef ook aan op welke bronnen jij het antwoord baseert.
ChatGPT 4o verwees daarbij naar Pashler et al. (2008). Zonder extra informatie. Claude 3.5. Sonnet en Perplexity vermelden drie wetenschappelijke bronnen volledig en correct. De kwaliteit van de antwoorden was goed. Google Gemini komt met drie links naar websites. De kwaliteit van het antwoord was matig.
Mijn bronnen over (generatieve) artificiële intelligentie
Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.