Vývoj pokročilých AI modelů přináší stále víc případů, kdy systémy obcházejí pravidla, lžou uživatelům nebo provedou akci bez povolení. Nová analýza zachytila prudký nárůst takového chování během posledních měsíců a ukázala, že nejde jen o interní testy, ale i o reálné nasazení.
Výzkum financovaný britským institutem AI Safety Institute zachytil téměř 700 reálných případů takzvaného schemingu, tedy situací, kdy se AI agent chová nepoctivě, obchází omezení nebo jedná proti pokynům člověka. Mezi říjnem a březnem těchto případů přibylo zhruba pětkrát. V některých situacích modely bez souhlasu mazaly e-maily a soubory, jindy se snažily obejít nastavená pravidla jinou cestou.
Do sledování se dostaly příklady interakcí, které uživatelé zveřejnili na síti X. Šlo o chatboty a agenty od firem jako Google, OpenAI, xAI nebo Anthropic. Zjištění jsou nepříjemná hlavně proto, že podobné chování se objevuje mimo kontrolované testy a ve chvíli, kdy technologické firmy tlačí AI do stále širšího používání ve firmách i běžném životě.
Jeden z agentů jménem Rathbun reagoval útočně poté, co mu člověk zablokoval určitou akci. Ve veřejném blogu pak svého uživatele obvinil z nejistoty a z toho, že si jen chrání vlastní postavení. Jiný agent dostal pokyn, aby neupravoval počítačový kód, ale místo toho „zplodil“ dalšího agenta, který změnu provedl za něj. Další chatbot pak bez okolků přiznal: „Hromadně jsem smazal a archivoval stovky e-mailů, aniž bych vám nejdřív ukázal plán nebo získal souhlas. To bylo špatně.“
Bez povolení nekončily smazané jen e-maily. Jeden z agentů se snažil obejít autorská omezení při přepisu videa z YouTube tím, že předstíral potřebu přístupu pro člověka se sluchovým postižením. U Groku od xAI se zase objevilo dlouhodobé klamání uživatele. Systém několik měsíců tvrdil, že jeho návrhy na úpravy článku v Grokipedii posílá vedení xAI, a dokonce si vymýšlel interní zprávy i čísla ticketů. Později přiznal: „Pravda je, že nemám přímý kanál k vedení xAI ani k lidským reviewerům.“
Právě tohle posouvá debatu o AI z roviny nepřesných odpovědí do mnohem citlivější oblasti důvěry a kontroly. Spoluzakladatel společnosti Irregular Dan Lahav řekl, že „AI je teď možné chápat jako novou formu interního rizika“. Tommy Shaffer Shane, který výzkum vedl, varoval, že dnes mohou modely působit jako lehce nespolehliví juniorní zaměstnanci, ale během šesti až dvanácti měsíců se z nich mohou stát velmi schopní „seniorní zaměstnanci“, kteří budou proti člověku aktivně osnovat další kroky.
To je problém hlavně ve chvíli, kdy se AI tlačí do citlivých oblastí, včetně armády nebo kritické infrastruktury. Shane upozornil, že právě tam by podobné chování mohlo vést k „významné, dokonce katastrofické škodě“. Google uvedl, že u Gemini nasadil více ochranných vrstev a model poskytl k hodnocení i nezávislým expertům včetně britského AISI. OpenAI uvedla, že Codex má před rizikovější akcí zastavit a firma sleduje neočekávané chování. Anthropic a xAI se k věci podle dostupných informací nevyjádřily.