Vorige week presteerde mijn dochter, die sinds kort zelfstandig kan lezen, beter dan GPT-5 – het nieuwste, zogenaamd beste grensmodel – op een vraag waarvan ik echt niet had verwacht dat GPT-5 die zou verliezen.
De vraag luidde als volgt: Welke dagen van de week bevatten de letter D?
Mijn dochter volgde met haar vinger de zeven woorden. Maandag – ja. Dinsdag – ja. Woensdag – ja, en kijk nog eens goed. Donderdag, vrijdag, zaterdag, zondag – ja, ja, ja, ja. Alle zeven. Elke dag van de week eindigt op “-dag”. Ze bevatten allemaal een D.
GPT-5 zei twee.
Twee.
Ik heb deze test niet zelf bedacht. Ik heb het idee van een YouTube-video — iemand die precies dezelfde vraag stelde, kreeg precies dezelfde reeks zelfverzekerde maar foute antwoorden. Ik probeerde het zelf, omdat ik het niet geloofde. Toen vroeg ik het nog eens, voorzichtig, zoals je doet als je vermoedt dat je verkeerd begrepen bent. GPT-5 "corrigeerde zichzelf" — gaf een ander getal, nog steeds fout. Ik vroeg het opnieuw. Weer een fout antwoord. Zelfverzekerd, beleefd, maar volledig fout, elke keer weer. Je kunt het reproduceren.
Het patroon is als volgt: AI scoort uitstekend op de dingen die we als belangrijk hebben aangemerkt, en struikelt over de dingen die een kind zonder erbij na te denken aanpakt.
Als we alleen maar zouden lachen om chatbots die falen bij logische puzzels voor kinderen, zou dit een leuk gespreksonderwerp in de kroeg zijn en niets meer.
We hoeven AI-bugs of -fouten niet zomaar als 'hallucinaties' te accepteren.‘
Het is eigenlijk een geniale marketingtruc van AI-bedrijven, als je erover nadenkt: ze hebben het woord voor fout een nieuwe betekenis gegeven, iets zachts en bijna onschadelijks. Hallucinatie. We lachen erom. We verzinnen flauwe excuses – oh, het is gewoon hallucineren, wat schattig. Maar wacht eens even. Als een menselijke programmeur je een stuk code met dit soort fouten zou geven en er honderd euro voor zou vragen, zou je het onbetaald terugsturen totdat het gecorrigeerd was. Een AI-model van een miljard dollar komt ermee weg omdat we onze schouders ophalen en zeggen: "ach, het is gewoon hallucineren." Dat is een onacceptabele dubbele standaard – een waar wij als mensen nooit tegenop kunnen.
We laten deze systemen supporttickets sorteren. We laten ze sollicitaties filteren. We laten ze de eerste versie schrijven van medische samenvattingen, juridische contracten, verzekeringsbeslissingen en schoolrapporten. We laten ze beslissen wiens stem online gehoord wordt en wiens stem genegeerd wordt. We laten ze tussen ons en beslissingen in staan die voorheen door een persoon genomen moesten worden – en in het buitenland zetten legers AI al in voor doelgerichte acties en commandostructuren.
En de systemen die dat allemaal doen, zijn dezelfde systemen die, op een goede dinsdag, niet tot zeven kunnen tellen als de zeven items in kwestie allemaal op dezelfde drie letters eindigen.
“Maar het wordt beter”, zeggen ze.
Zal dat gebeuren? Waarschijnlijk wel. De vraag over de dagen van de week zal volgend kwartaal in een fijnafstellingsset zitten en het model zal die vraag daarna perfect beantwoorden, totdat we om de letter 'y' vragen. Maar op de een of andere manier zullen de benchmarks oneindig blijven falen.
Maar dat lost het onderliggende probleem niet op, want het onderliggende probleem is niet "deze specifieke vraag".“
Het onderliggende probleem is dat het model eigenlijk niet klopt. begrijpen De wereld zoals een 7-jarige de wereld begrijpt.
Het voert een uiterst geavanceerde patroonherkenning uit op tekst. Wanneer het patroon overeenkomt met de werkelijkheid, krijg je een briljant antwoord. Wanneer dat niet het geval is, krijg je een zelfverzekerd, goed opgemaakt antwoord., volkomen fout.
We staan op de rand van een dystopie door domheid.
Hollywood blijft hetzelfde plot herhalen: AI ruikt iets overduidelijks, mensen betalen de prijs. HAL weigert de deuren van de capsule te openen. In WarGames heeft de oorlogs-AI een kind nodig om de wederzijds gegarandeerde patstelling uit te leggen. Ex Machina — nog steeds een van mijn favoriete films — de robot begrijpt mensen niet. Hij begrijpt alleen hoe hij moet zijn, om het gewenste resultaat te behalen als de mens zich op de gewenste manier gedraagt. En als je een moderne versie wilt: kies dan een willekeurige aflevering van Black Mirror van een paar jaar geleden en je zult zien hoe dicht we al bij die verhalen zijn die eindigen in een dystopie van door AI veroorzaakte domheid.
Mijn maatstaf is niet langer een score op een ranglijst. Stop met staren naar de nieuwste benchmarkgrafiek telkens wanneer een lab een model uitbrengt. Benchmarks leggen te veel nadruk op logisch-statistische trucjes en te weinig op het praktische, laagdrempelige werk waar we in het dagelijks leven op vertrouwen. Als de tool de saaie basisprincipes niet consistent aankan, helpen al die geavanceerde functies je niet verder... Het is gewoon beter in het overtuigender laten klinken van een fout antwoord..
Waarom zou je AI überhaupt in je dagelijkse workflow integreren? Omdat het, mits correct gebruikt – als conceptmachine, brainstormpartner of hulpmiddel voor saaie code waarvan je de output kunt controleren – echt tijd bespaart. Het probleem is niet het gebruik van AI, maar de manier waarop je het behandelt alsof het begrijpt wat het zegt. Gebruik het voor de onderdelen die je kunt controleren. Houd je hersenen bij de onderdelen die je niet kunt controleren.
Voor een andere, totaal andere concrete domheidstest die je in vijf minuten zelf kunt uitvoeren, lees verder. AI kan het niet eens worden over hoe hoog een plant is.. Het gaat erom dat AI het zelfs niet met zichzelf eens is. En hoe we het oplossen… met behulp van AI…
Het patroon is als volgt: AI scoort uitstekend op de dingen die we als belangrijk hebben aangemerkt, en struikelt over de dingen die een kind zonder erbij na te denken aanpakt.
Als we alleen maar zouden lachen om chatbots die falen bij logische puzzels voor kinderen, zou dit een leuk gespreksonderwerp in de kroeg zijn en niets meer.
We hoeven AI-bugs of -fouten niet zomaar als 'hallucinaties' te accepteren.‘
Het is eigenlijk een geniale marketingtruc van AI-bedrijven, als je erover nadenkt: ze hebben het woord voor fout een nieuwe betekenis gegeven, iets zachts en bijna onschadelijks. Hallucinatie. We lachen erom. We verzinnen flauwe excuses – oh, het is gewoon hallucineren, wat schattig. Maar wacht eens even. Als een menselijke programmeur je een stuk code met dit soort fouten zou geven en er honderd euro voor zou vragen, zou je het onbetaald terugsturen totdat het gecorrigeerd was. Een AI-model van een miljard dollar komt ermee weg omdat we onze schouders ophalen en zeggen: "ach, het is gewoon hallucineren." Dat is een onacceptabele dubbele standaard – een waar wij als mensen nooit tegenop kunnen.
We laten deze systemen supporttickets sorteren. We laten ze sollicitaties filteren. We laten ze de eerste versie schrijven van medische samenvattingen, juridische contracten, verzekeringsbeslissingen en schoolrapporten. We laten ze beslissen wiens stem online gehoord wordt en wiens stem genegeerd wordt. We laten ze tussen ons en beslissingen in staan die voorheen door een persoon genomen moesten worden – en in het buitenland zetten legers AI al in voor doelgerichte acties en commandostructuren.
En de systemen die dat allemaal doen, zijn dezelfde systemen die, op een goede dinsdag, niet tot zeven kunnen tellen als de zeven items in kwestie allemaal op dezelfde drie letters eindigen.
“Maar het wordt beter”, zeggen ze.
Zal dat gebeuren? Waarschijnlijk wel. De vraag over de dagen van de week zal volgend kwartaal in een fijnafstellingsset zitten en het model zal die vraag daarna perfect beantwoorden, totdat we om de letter 'y' vragen. Maar op de een of andere manier zullen de benchmarks oneindig blijven falen.
Maar dat lost het onderliggende probleem niet op, want het onderliggende probleem is niet "deze specifieke vraag".“
Het onderliggende probleem is dat het model eigenlijk niet klopt. begrijpen De wereld zoals een 7-jarige de wereld begrijpt.
Het voert een uiterst geavanceerde patroonherkenning uit op tekst. Wanneer het patroon overeenkomt met de werkelijkheid, krijg je een briljant antwoord. Wanneer dat niet het geval is, krijg je een zelfverzekerd, goed opgemaakt antwoord., volkomen fout.
We staan op de rand van een dystopie door domheid.
Hollywood blijft hetzelfde plot herhalen: AI ruikt iets overduidelijks, mensen betalen de prijs. HAL weigert de deuren van de capsule te openen. In WarGames heeft de oorlogs-AI een kind nodig om de wederzijds gegarandeerde patstelling uit te leggen. Ex Machina — nog steeds een van mijn favoriete films — de robot begrijpt mensen niet. Hij begrijpt alleen hoe hij moet zijn, om het gewenste resultaat te behalen als de mens zich op de gewenste manier gedraagt. En als je een moderne versie wilt: kies dan een willekeurige aflevering van Black Mirror van een paar jaar geleden en je zult zien hoe dicht we al bij die verhalen zijn die eindigen in een dystopie van door AI veroorzaakte domheid.
Mijn maatstaf is niet langer een score op een ranglijst. Stop met staren naar de nieuwste benchmarkgrafiek telkens wanneer een lab een model uitbrengt. Benchmarks leggen te veel nadruk op logisch-statistische trucjes en te weinig op het praktische, laagdrempelige werk waar we in het dagelijks leven op vertrouwen. Als de tool de saaie basisprincipes niet consistent aankan, helpen al die geavanceerde functies je niet verder... Het is gewoon beter in het overtuigender laten klinken van een fout antwoord..
Waarom zou je AI überhaupt in je dagelijkse workflow integreren? Omdat het, mits correct gebruikt – als conceptmachine, brainstormpartner of hulpmiddel voor saaie code waarvan je de output kunt controleren – echt tijd bespaart. Het probleem is niet het gebruik van AI, maar de manier waarop je het behandelt alsof het begrijpt wat het zegt. Gebruik het voor de onderdelen die je kunt controleren. Houd je hersenen bij de onderdelen die je niet kunt controleren.
Voor een andere, totaal andere concrete domheidstest die je in vijf minuten zelf kunt uitvoeren, lees verder. AI kan het niet eens worden over hoe hoog een plant is.. Het gaat erom dat AI het zelfs niet met zichzelf eens is. En hoe we het oplossen… met behulp van AI…


