Když si AI začne povídat, přestává fungovat. Výzkum rozbil mýtus o stabilní umělé inteligenci

20. 2. 2026 – 12:52 | Technologie | Miroslav Krajča |Diskuze:

AI zdroj: ChatGPT

Velká studie Microsoft Research a Salesforce testovala špičkové jazykové modely v podmínkách, které připomínají běžnou lidskou konverzaci. Výsledek? Zatímco v laboratorním zadání dosahují až 90% úspěšnosti, při vícekrokovém dialogu jejich výkon dramaticky klesá. Nejde přitom o inteligenci. Jde o spolehlivost.

Microsoft Research a Salesforce zveřejnily studii, která může zásadně změnit pohled na to, jak dnes hodnotíme výkonnost umělé inteligence. V rámci rozsáhlého testování prověřili 15 špičkových jazykových modelů, mezi nimi GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 nebo Llama 4, a to v prostředí více než 200 tisíc simulovaných konverzací. Výsledky publikovali ve studii dostupné online..

Na první pohled se může zdát, že jde o další benchmarkový experiment. Jenže tentokrát výzkumníci změnili jedinou věc. Místo klasického jednoho zadání testovali modely v několika navazujících kolech konverzace. A právě tady se začal objevovat zásadní problém.

V jednorázovém zadání dosahovaly modely zhruba 90% úspěšnosti. Stejný úkol, stejný model, stejná znalostní doména. Jakmile se však úloha rozložila do běžné, postupné konverzace, úspěšnost klesla na přibližně 65 procent.

To není kosmetický rozdíl. To je třetinový propad výkonu.

Ještě zajímavější je ale rozklad příčin. Výzkum ukázal, že samotná kognitivní schopnost modelů, tedy jejich aptitude, klesla pouze o 15 procent. Dramaticky však vzrostla nespolehlivost. Ta podle autorů studie narostla o 112 procent. Jinými slovy, modely vědí zhruba stejně, ale mnohem častěji odpovídají špatně.

Autoři studie upozorňují, že hlavní problém nespočívá v nedostatku znalostí, ale v dynamice dialogu. Modely mají tendenci odpovědět příliš brzy, ještě než uživatel dokončí vysvětlování problému. Vytvoří si předčasný předpoklad, který následně zapracují do dalšího uvažování. Jakmile je tento chybný základ položen, model na něm dál staví.

Vzniká efekt, který by se dal popsat jako zamilovanost do první chyby. Pokud model v prvním kroku špatně interpretuje zadání, v dalších odpovědích tuto interpretaci nerozporuje, ale naopak ji rozvíjí. A protože jazykové modely generují odpovědi sekvenčně, každá další věta posiluje předchozí předpoklady.

Dalším zjištěním je problém s pamětí střední části konverzace. Studie ukazuje, že modely často zapomínají informace, které se objevily uprostřed dialogu. Nejde o klasický problém délky kontextového okna. I modely s rozsáhlým kontextem měly tendenci ignorovat nebo dezinterpretovat části, které nebyly bezprostředně na začátku nebo na konci výměny.

Dlouhé odpovědi situaci ještě zhoršují. Čím obsáhlejší je reakce modelu, tím více implicitních předpokladů obsahuje. Každý další předpoklad je potenciálním zdrojem chyby. Pokud je základní interpretace zadání nepřesná, dlouhá odpověď pouze znásobí dopad omylu.

Zásadní je také fakt, že selhávaly i takzvané reasoning modely. o3 i DeepSeek R1, které jsou prezentovány jako modely s pokročilým vícekrokovým uvažováním, vykázaly podobný propad jako ostatní. Dodatečné „thinking tokens“, tedy interní rozšířené úvahy před odpovědí, nepřinesly výrazné zlepšení.

Výzkumníci testovali i nastavení teploty generování na nulu, tedy maximální determinističnost odpovědí. Ani to problém nevyřešilo. Chyby nebyly důsledkem náhodnosti, ale strukturálního způsobu, jakým modely pracují s postupným dialogem.

To je mimořádně důležité z hlediska praxe. Drtivá většina veřejně prezentovaných benchmarků totiž probíhá v ideálních laboratorních podmínkách. Model dostane kompletní zadání v jednom bloku textu. Uživatel je precizní, kontext je jasný, zadání je optimalizované. Takto ale reálné rozhovory nefungují.

V běžné interakci lidé doplňují informace postupně, opravují se, vracejí se k předchozím bodům. Zadání se vyvíjí. A právě tento vývoj se ukazuje jako Achillova pata současných modelů.

Autoři studie varují, že současný způsob hodnocení může výrazně nadhodnocovat reálnou použitelnost modelů. Pokud je systém nasazen v zákaznické podpoře, právní asistenci nebo zdravotnických aplikacích, interakce téměř vždy probíhá vícekrokově. Selhání v jednom kroku může vést k řetězci dalších nepřesností.

Praktický závěr výzkumu je překvapivě jednoduchý. Pokud chcete dnes dosáhnout co nejvyšší přesnosti, je lepší dodat modelu veškeré informace najednou, v jednom promptu, místo postupného dialogu. Jinými slovy, méně konverzace, více strukturovaného zadání.

To ale popírá samotnou představu konverzační umělé inteligence. Pokud je nejspolehlivější způsob interakce jednorázové, pečlivě připravené zadání, pak se vracíme k modelu, který je blíže klasickému vyhledávači než dialogovému partnerovi.

Otázkou je, proč se o tomto problému nemluví hlasitěji. Studie je veřejně dostupná, metodologie transparentní a vzorek rozsáhlý. Přesto v marketingových materiálech dominují rekordy v jednotlivých benchmarcích a srovnávací tabulky přesnosti.

Možná proto, že skutečný problém není vidět na první pohled. V jednorázovém testu model obstojí. V dlouhém rozhovoru s běžným uživatelem se ale začne drobit. Ne dramatickým kolapsem, ale postupnou erozí spolehlivosti.

Z pohledu vývoje to znamená, že další generace modelů se budou muset zaměřit méně na surový výkon a více na stabilitu napříč časem a kontextem. Nejde jen o to odpovědět správně. Jde o to udržet správné porozumění v průběhu celého dialogu.

Studie Microsoft Research a Salesforce tak otevírá nepříjemnou, ale nutnou debatu. Pokud chceme, aby AI skutečně fungovala jako konverzační partner, musí zvládnout běžnou lidskou komunikaci, se všemi jejími nedokonalostmi, odbočkami a opravami.

Zatím to podle dat nevypadá, že by to dokázala.

A možná je to nejdůležitější zjištění ze všech. Ne že jsou modely méně inteligentní, než si myslíme. Ale že jsou méně stabilní, než si připouštíme.

Tagy:

AI test ChatGPT LLM

Zdroje:

arXiv

Miroslav Krajča

Redaktor vědecko-popularizačního serveru Nedd.cz, kde pravidelně publikuje články zabývající se aktuálními tématy z oblastí jako příroda, technologie i lidské zdraví. Rád kombinuje dostupné výzkumy a studie se srozumitelným podáním, protože je k ničemu publikovat články, které ocení pět lidí v republice. Ve volných chvílích rád chodí po lese a nebo alespoň po městě.

Když si AI začne povídat, přestává fungovat. Výzkum rozbil mýtus o stabilní umělé inteligenci

Nejnovější články