De taaltest: hoe goed scoort ChatGPT-5?
GPT-5 is het nieuwste model van OpenAI. Er werd veel van het model verwacht, maar de reacties over de prestaties zijn wisselend. Ook deze versie begaat namelijk nog blunders, het model weet soms niet hoeveel poten een dier heeft, of hoeveel letters 'r' er in het woord raspberry zitten. Gelukkig hebben we voor het antwoord op die vragen ook geen AI nodig. Maar ook in de vertaalwereld waren de verwachtingen hooggespannen: gaat GPT-5 beter zijn in vertalen dan de voorgangers van het taalmodel? OpenAI testte het zelf al, schreef Slator. Dit internationaal platform publiceert nieuws, analyses en marktinformatie over de taal- en vertaalindustrie, en rapporteert enigszins teleurgesteld over de test.
Wat is er getest?
In de system card van GPT-5 staat dat het model de MMLU-test heeft gedaan in meerdere talen. Opvallend detail: in de tekst worden dertien talen genoemd, maar in de tabel staan er veertien. Of dat nu een tikfout of een slordigheid in rapportage is weten we niet, maar het leverde wel een glimlach op. En nogmaals de bevestiging dat ChatGPT niet zo goed is in tellen. MMLU staat voor Massive Multitask Language Understanding en meet algemene kennis en redeneervermogen in allerlei vakgebieden. Het is oorspronkelijk een Engelstalige test. Om taalbegrip in andere talen te meten, liet OpenAI de MMLU-vragen vertalen door professionele (en dus menselijke) vertalers. Bij het testen van GPT-4 gebruikten ze nog Azure Translate (machinevertaling) voor het vertalen van de test. Sinds GPT-4.5 is OpenAI overgestapt op professionele vertalers om betrouwbaardere testresultaten te krijgen. Verstandig, zeker voor talen waarin weinig data beschikbaar is, zoals Yoruba.
De resultaten
OpenAI vergeleek twee GPT-5-varianten met het eerdere topmodel o3-high:
- GPT-5-main: dit model scoorde in alle talen iets lager dan o3-high
- GPT-5-thinking:
- Dit model was even goed in Braziliaans-Portugees;
- iets minder goed in Arabisch, Frans, Duits, Italiaans en Spaans
- iets beter in Bengaals, Chinees, Hindi, Indonesisch, Japans, Koreaans, Swahili en Yoruba.
 Benieuwd naar de exacte scores? Die vind je hier.
Wat betekent dit?
De MMLU meet taalbegrip, dat zegt niet direct iets over vertaalkwaliteit. Goed taalbegrip is belangrijk voor vertalen, maar het is geen bewijs dat het model ook beter vertaalt. En uiteraard zijn er meer factoren die invloed hebben op de kwaliteit van vertalingen. Kortom: GPT-5 laat in de MMLU-resultaten zien dat het taalbegrip in sommige talen iets vooruitgaat, maar in andere juist iets achteruitgaat ten opzichte van het vorige topmodel. Het is dus geen duidelijke sprong vooruit in meertalige prestaties, maar wel een genuanceerd beeld waarbij de winst afhankelijk is van de taal. Of dat in de praktijk veel verschil maakt? Dat is nog maar de vraag, maar interessant is het zeker. Je kunt GPT-5 dus gerust laten meedenken als er iets beantwoord moet worden in een andere taal, maar als het écht moet kloppen, vooral in talen waarvan minder beschikbare data is, schakel dan liever een professionele vertaler in. Die tellen bovendien moeiteloos tot veertien.
Kwaliteitsvertalingen nodig?
Bekijk deze pagina voor meer informatie of neem contact met ons op via vertaalbureau@taalcentrum-vu.nl.