En verden fasineret av tall De siste ukene har teknologiverdenen blitt oversvømmet av benchmark-resultater for de nyeste kunstige intelligensmodellene. Ikke før har Deepseek scoret bedre enn ChatGPT, så kommer Qwen inn og…
Kategori: testing og evaluering
Fra Turing-testen til Humanity’s Last Exam: Slik evaluerer vi KI sin intelligens i en ny æra
I 1950 kom Alan Turing med en genial idé for å teste om maskiner kunne tenke som mennesker: Turing-testen. Den har vært gullstandarden i å vurdere kunstig intelligens (KI) i flere tiår….