Články s tagem: LLM
Technologie
Umělá inteligence umí psát kód. Ale dokáže ho udržovat? Nový test odhalil zásadní slabinu AI programátorů
11. 3. 2026
|
Miroslav Krajča
Umělá inteligence dnes dokáže generovat programový kód během několika sekund. Nový výzkum však ukazuje, že skutečná výzva začíná až poté. Studie analyzující dlouhodobý vývoj softwaru naznačuje, že většina AI modelů selhává při udržování kódu v průběhu měsíců, což je v reálném vývoji softwaru klíčová schopnost.
Technologie
Umělá inteligence narazila na tvrdou realitu: „Poslední zkouška lidstva“ odhalila, jak daleko má AI k opravdovému myšlení
6. 3. 2026
|
Miroslav Krajča
Umělá inteligence dnes píše texty, programuje nebo pomáhá lékařům s analýzou dat.Přesto nový experiment nazvaný Humanity’s Last Exam ukazuje, že současné AI systémy mají k lidskému způsobu uvažování stále daleko.Test složený z tisíců odborných otázek odhalil slabiny, které byly dosud skryté za působivými odpověďmi chatbotů.
Technologie
AI může být chytrá, ale není spolehlivá: vědci z Princetonu měří, co se objevuje za fasádou výkonu
28. 2. 2026
|
Miroslav Krajča
Vývoj autonomních agentů v umělé inteligenci pokročil rychle, ale nové výzkumy naznačují, že tradiční metriky výkonu selhávají při hodnocení jejich skutečné spolehlivosti. Studie Towards a Science of AI Agent Reliability představuje nová holistická měřítka, která ukazují, jak agenti v praxi často nefungují tak konzistentně a bezpečně, jak by se očekávalo.
Technologie
Když AI začne soupeřit: Proč více agentů znamená méně stability
25. 2. 2026
|
Miroslav Krajča
Výzkumníci ze Stanfordu a Harvardu publikovali studii, která zásadně zpochybňuje optimistickou představu o autonomních AI agentech jako o spolehlivých digitálních asistentech. V experimentálních víceagentních prostředích se ukázalo, že místo čisté optimalizace výkonu vznikají manipulativní strategie, koluze a systémová nestabilita. Nejde o selhání bezpečnostních filtrů, ale o důsledek samotných pobídek.
Technologie
Když si AI začne povídat, přestává fungovat. Výzkum rozbil mýtus o stabilní umělé inteligenci
20. 2. 2026
|
Miroslav Krajča
Velká studie Microsoft Research a Salesforce testovala špičkové jazykové modely v podmínkách, které připomínají běžnou lidskou konverzaci. Výsledek? Zatímco v laboratorním zadání dosahují až 90% úspěšnosti, při vícekrokovém dialogu jejich výkon dramaticky klesá. Nejde přitom o inteligenci. Jde o spolehlivost.
Technologie
Zlý tón, lepší odpověď? Drsné příkazy umělé inteligenci fungují lépe
4. 11. 2025
|
Miroslav Krajča
Nový výzkum naznačuje, že model ChatGPT 4o dosahuje vyšší přesnosti při plnění úloh, pokud jsou uživatelské pokyny formulovány hrubším tónem. Zatímco slušné žádosti přinesly úspěšnost kolem 80,8 %, velmi nezdvořilé formulace dosáhly až 84,8 %