Onderzoekers hebben een supermoeilijke test ontwikkeld om te kijken hoe slim AI-modellen écht zijn. Maar zelfs de beste AI-modellen halen vandaag de dag geen voldoende.
‘Humanity’s Last Exam’, in het Nederlands het ‘laatste examen van de mensheid’, is een examen met 2.500 vragen die zo moeilijk zijn dat je in zo goed als elk vakgebied een universitaire graad én jarenlange ervaring nodig hebt om ze correct te kunnen beantwoorden. De test werd ontwikkeld als ultieme maatstaf voor hoe intelligent AI-modellen zijn.
De afgelopen jaren hebben AI-chatbots zoals ChatGPT immers enorme sprongen gemaakt. Ze scoren inmiddels zo goed als perfect op veel bestaande tests die ooit als moeilijk golden. Daardoor weten we eigenlijk niet meer zo goed waar de grenzen van de technologie liggen.
Om dat te veranderen, sloegen de ngo Center for AI Safety en het bedrijf Scale AI de handen in elkaar. Ze verzamelden eerst bijna duizend experts van meer dan 500 universiteiten en onderzoeksinstituten uit vijftig landen. Die experts bedachten dan vragen uit hun eigen vakgebied die zo lastig zijn dat je het antwoord niet zomaar kunt opzoeken. Na grondige controles werden de beste 2.500 vragen gebundeld.
AI-modellen hebben er moeite mee
Dan komt nu de hamvraag: hoe presteren de AI-modellen? Nog altijd niet best, zo blijkt uit een studie in vakblad Nature en recente cijfers van Scale AI, hoewel er vooruitgang is. De oudere modellen (uit 2024) zoals GPT-4o haalden slechts 2,7 procent van de vragen goed. Nieuwere systemen doen het beter, maar slagen nog altijd niet. De beste score tot nu toe komt van Gemini 3 Pro van Google: het model haalt 37,52 procent. OpenAI’s GPT-5 Pro volgt met 31,64 procent en de reguliere versie van GPT-5 en Anthropics Claude Opus 4.5 blijven steken rond de 25 procent.
En ook al worden de scores beter is er nog altijd een groot probleem. AI-systemen geven vaak met veel zelfvertrouwen een verkeerd antwoord. Ze hallucineren dat ze het goed hebben, terwijl dat helemaal niet zo is. Dit gebrek aan zelfinzicht zou in de praktijk tot problemen kunnen leiden, zelfs als modellen blijven verbeteren.
Wat voor vragen staan erin?
De test bevat een mix van onderwerpen. Wiskundevragen vormen het grootste deel (41 procent), gevolgd door biologie en geneeskunde, informatica, natuurkunde en geesteswetenschappen. Bij sommige vragen moet de AI ook afbeeldingen kunnen begrijpen en interpreteren.
Dit zijn geen vragen waarvan je het antwoord gewoon kan opzoeken. Het gaat om complexe wiskundige bewijzen, gespecialiseerde chemische reacties of ingewikkelde medische casussen. Elke vraag werd eerst getest: als een AI hem kon beantwoorden, werd hij niet in de lijst opgenomen.
Tests die nu nog moeilijk lijken, kunnen over een paar jaar alweer achterhaald zijn. De makers houden daarom een deel van de vragen geheim, zodat AI-ontwikkelaars niet specifiek op deze test kunnen trainen.
Wat betekent dit eigenlijk?
Als AI-systemen straks wél hoog scoren op het examen, zou dat betekenen dat ze op het niveau van menselijke experts kunnen presteren bij dit soort gesloten vragen. Maar de test heeft ook beperkingen. Het gaat om gestructureerde academische vragen met een duidelijk antwoord. In de echte wereld moeten onderzoekers vaak open vragen beantwoorden waar nog niemand het antwoord op weet. Creatief probleemoplossend vermogen of het doen van baanbrekend onderzoek test dit examen dus niet.
We schreven vaker over dit onderwerp, lees bijvoorbeeld ook Hoe AI de wetenschap tegelijk vooruithelpt en afremt en Nieuwe AI kan duizenden keren sneller nieuwe medicijnen ontdekken. Of lees dit artikel: Wiskundigen gebruiken ‘vergeten deeltjes’ om kwantumcomputer nieuw leven in te blazen.
Uitgelezen? Luister ook eens naar de Scientias Podcast:


