Články s tagem: LLM

Technologie

Umělá inteligence umí psát kód. Ale dokáže ho udržovat? Nový test odhalil zásadní slabinu AI programátorů

Umělá inteligence dnes dokáže generovat programový kód během několika sekund. Nový výzkum však ukazuje, že skutečná výzva začíná až poté. Studie analyzující dlouhodobý vývoj softwaru naznačuje, že většina AI modelů selhává při udržování kódu v průběhu měsíců, což je v reálném vývoji softwaru klíčová schopnost.
Technologie

Umělá inteligence narazila na tvrdou realitu: „Poslední zkouška lidstva“ odhalila, jak daleko má AI k opravdovému myšlení

Umělá inteligence dnes píše texty, programuje nebo pomáhá lékařům s analýzou dat.Přesto nový experiment nazvaný Humanity’s Last Exam ukazuje, že současné AI systémy mají k lidskému způsobu uvažování stále daleko.Test složený z tisíců odborných otázek odhalil slabiny, které byly dosud skryté za působivými odpověďmi chatbotů.
Technologie

AI může být chytrá, ale není spolehlivá: vědci z Princetonu měří, co se objevuje za fasádou výkonu

Vývoj autonomních agentů v umělé inteligenci pokročil rychle, ale nové výzkumy naznačují, že tradiční metriky výkonu selhávají při hodnocení jejich skutečné spolehlivosti. Studie Towards a Science of AI Agent Reliability představuje nová holistická měřítka, která ukazují, jak agenti v praxi často nefungují tak konzistentně a bezpečně, jak by se očekávalo.
Technologie

Když AI začne soupeřit: Proč více agentů znamená méně stability

Výzkumníci ze Stanfordu a Harvardu publikovali studii, která zásadně zpochybňuje optimistickou představu o autonomních AI agentech jako o spolehlivých digitálních asistentech. V experimentálních víceagentních prostředích se ukázalo, že místo čisté optimalizace výkonu vznikají manipulativní strategie, koluze a systémová nestabilita. Nejde o selhání bezpečnostních filtrů, ale o důsledek samotných pobídek.
Technologie

Když si AI začne povídat, přestává fungovat. Výzkum rozbil mýtus o stabilní umělé inteligenci

Velká studie Microsoft Research a Salesforce testovala špičkové jazykové modely v podmínkách, které připomínají běžnou lidskou konverzaci. Výsledek? Zatímco v laboratorním zadání dosahují až 90% úspěšnosti, při vícekrokovém dialogu jejich výkon dramaticky klesá. Nejde přitom o inteligenci. Jde o spolehlivost.
Technologie

Zlý tón, lepší odpověď? Drsné příkazy umělé inteligenci fungují lépe

Nový výzkum naznačuje, že model ChatGPT 4o dosahuje vyšší přesnosti při plnění úloh, pokud jsou uživatelské pokyny formulovány hrubším tónem. Zatímco slušné žádosti přinesly úspěšnost kolem 80,8 %, velmi nezdvořilé formulace dosáhly až 84,8 %