Umělá inteligence narazila na tvrdou realitu: „Poslední zkouška lidstva“ odhalila, jak daleko má AI k opravdovému myšlení

6. 3. 2026 – 10:32 | Technologie | Miroslav Krajča |Diskuze:

robot v knihovne zdroj: ChatGPT

Umělá inteligence dnes píše texty, programuje nebo pomáhá lékařům s analýzou dat.Přesto nový experiment nazvaný Humanity’s Last Exam ukazuje, že současné AI systémy mají k lidskému způsobu uvažování stále daleko.Test složený z tisíců odborných otázek odhalil slabiny, které byly dosud skryté za působivými odpověďmi chatbotů.

Umělá inteligence v posledních letech pronikla téměř do všech oblastí moderního života. Chatboti dnes dokážou psát články, překládat texty, generovat programový kód nebo pomáhat s analýzou velkých datových souborů. Mnozí technologičtí lídři proto mluví o tom, že lidstvo stojí na prahu nové éry, kdy stroje začnou uvažovat podobně jako lidé. Nový vědecký projekt ale ukazuje, že realita je zatím mnohem složitější.

Výzkumníci vytvořili mimořádně náročný test nazvaný Humanity’s Last Exam, tedy „Poslední zkouška lidstva“. Cílem bylo zjistit, jak si moderní modely umělé inteligence skutečně vedou při řešení složitých úloh. Podle analýzy publikované na serveru IFLScience se ukázalo, že i nejpokročilejší jazykové modely mají s některými otázkami výrazné potíže.

Myšlenka vytvořit nový test vznikla kvůli tomu, že starší benchmarky přestaly být pro moderní systémy dostatečně náročné. Jazykové modely totiž postupně dosahovaly velmi vysoké úspěšnosti a výsledky přestaly odrážet skutečný pokrok technologií. Výzkumníci proto vytvořili zcela nový soubor úloh, který má být výrazně obtížnější než dosavadní testy.

Humanity’s Last Exam obsahuje přibližně 2500 otázek z celé řady akademických oborů. Najdeme mezi nimi úlohy z matematiky, fyziky, informatiky, historie, literatury i dalších vědních disciplín. Mnoho otázek přitom vyžaduje hluboké porozumění problému a schopnost kombinovat znalosti z více oblastí současně. Přehled projektu i jeho metodiky popisuje tato studie.

Výsledky testu ukázaly, že současná generace umělé inteligence má k lidskému způsobu uvažování stále daleko. I nejmodernější jazykové modely dosahovaly pouze omezené úspěšnosti a často chybovaly u složitějších problémů. Zvláště obtížné byly úlohy, které vyžadovaly více kroků logického uvažování nebo hlubší porozumění kontextu.

Pro srovnání, lidští experti v mnoha případech dosahovali výrazně lepších výsledků než algoritmy. To naznačuje, že mezi schopností generovat přesvědčivý text a skutečným porozuměním existuje stále velká mezera. Umělá inteligence totiž často pracuje jiným způsobem než lidský mozek.

Jazykové modely jsou založeny především na analýze obrovského množství dat. Systém se během tréninku učí rozpoznávat statistické vztahy mezi slovy, větami a textovými strukturami. Díky tomu dokáže generovat odpovědi, které působí velmi přirozeně. To však neznamená, že by skutečně rozuměl jejich významu.

Právě tato vlastnost vede k jevu známému jako „halucinace“ umělé inteligence. V takové situaci model vytvoří informaci, která zní přesvědčivě, ale ve skutečnosti je chybná nebo zcela smyšlená. Podle přehledu výzkumu dostupného například na Wikipedii jde o jeden z největších problémů současných jazykových modelů.

Humanity’s Last Exam tento problém ukázal velmi jasně. V některých případech totiž umělá inteligence odpověděla nejen nesprávně, ale zároveň svou odpověď prezentovala s vysokou jistotou. To může být v praxi problematické, zejména pokud se AI používá v oblastech, kde je přesnost klíčová.

Zároveň ale odborníci zdůrazňují, že výsledky testu nejsou nutně negativní zprávou pro vývoj technologií. Naopak mohou sloužit jako velmi užitečný nástroj pro další výzkum. Díky detailním výsledkům mohou vývojáři lépe pochopit, kde přesně současné modely selhávají.

Test tak může pomoci zaměřit budoucí vývoj na konkrétní slabiny. Například na schopnost logického uvažování, práci s komplexními informacemi nebo lepší porozumění kontextu. Právě tyto oblasti jsou pro další generace umělé inteligence klíčové.

Humanity’s Last Exam zároveň připomíná, jak komplexní je lidská inteligence. Lidé dokážou přirozeně kombinovat znalosti z různých oborů, improvizovat nebo chápat skryté souvislosti. Tyto schopnosti jsou pro současné algoritmy stále velmi obtížné.

Na druhou stranu nelze přehlédnout rychlost technologického pokroku. Ještě před několika lety by bylo obtížné představit si, že chatbot dokáže napsat delší text, pomoci s programováním nebo analyzovat odborné informace. Dnes jde o běžné nástroje používané miliony lidí po celém světě.

Technologie se přitom vyvíjejí velmi rychle. Nové architektury modelů, větší datové soubory nebo kombinace různých metod strojového učení mohou v budoucnu jejich schopnosti výrazně posunout. To znamená, že dnešní výsledky nemusí být definitivním verdiktem nad možnostmi umělé inteligence.

Přesto experiment Humanity’s Last Exam vysílá důležitý signál. Současné systémy sice dokážou působit velmi inteligentně, ale jejich schopnosti mají jasné hranice. Skutečné porozumění světu, jaké mají lidé, je zatím stále mimo jejich dosah.

Pro společnost je to důležitá připomínka. Umělá inteligence může být mimořádně užitečným nástrojem, ale její výstupy je stále nutné kriticky ověřovat. Technologie by měla být pomocníkem, nikoli náhradou lidského úsudku.

Humanity’s Last Exam tak není jen testem pro algoritmy. Je také zajímavou lekcí o tom, co vlastně znamená inteligence. A zatímco stroje dokážou analyzovat obrovské množství informací během několika sekund, lidská schopnost chápat svět v širších souvislostech zůstává jedinečná.

Tagy:

benchmark AI test LLM

Zdroje:

wikipedia, arXiv

Miroslav Krajča

Redaktor vědecko-popularizačního serveru Nedd.cz, kde pravidelně publikuje články zabývající se aktuálními tématy z oblastí jako příroda, technologie i lidské zdraví. Rád kombinuje dostupné výzkumy a studie se srozumitelným podáním, protože je k ničemu publikovat články, které ocení pět lidí v republice. Ve volných chvílích rád chodí po lese a nebo alespoň po městě.

Umělá inteligence narazila na tvrdou realitu: „Poslední zkouška lidstva“ odhalila, jak daleko má AI k opravdovému myšlení

Nejnovější články