Když se Měsíc nad obzorem tváří větší než vysoko na nebi, není to chyba očí, ale chytrý způsob, jak mozek zjednodušuje realitu. Teď se ukazuje, že některé systémy umělé inteligence se při podobných optických klamech chovají překvapivě podobně. A vědcům to otevírá nový pohled na to, co se v hlavě děje, když „vidíme“ něco, co na obrázku vlastně není.
Optické iluze jsou dlouho považované za důkaz, že lidské vnímání není věrná kopie světa. Mozek si z okolí bere jen malý výběr informací, protože zpracovat všechno by bylo příliš náročné. Místo toho používá zkratky, které většinou fungují skvěle, jen občas narazí na trik, který je záměrně postavený tak, aby ho zmátl.
U AI by se čekalo něco jiného. Strojové vidění je stavěné na detail, na hledání vzorců, na zachycení drobných odchylek, které lidem uniknou. Právě proto se dnes uplatňuje třeba při analýze zdravotních snímků. Jenže u některých hlubokých neuronových sítí se ukazuje, že mohou „spadnout“ do stejné pasti jako člověk.
Japonský neurofyziolog Eiji Watanabe popisuje, že hluboké neuronové sítě se dají využít jako model, na kterém jde testovat, jak se informace zpracovávají a odkud se iluze berou. U lidí je přímé zasahování do mozku eticky problematické, u umělého modelu takové limity nejsou. Zároveň ale platí, že žádná současná síť neumí prožívat všechny optické iluze tak jako člověk.
Watanabeův tým zkoušel, co udělá síť PredNet s iluzemi pohybu. PredNet vychází z teorie takzvaného prediktivního kódování, podle níž mozek nejdřív odhaduje, co asi uvidí, a teprve potom řeší, co nesedí. Stejnou logiku má i PredNet, který se učí předpovídat další snímky ve videu. Trénink probíhal na záběrech přirozené krajiny z kamer na hlavě, bez jakýchkoli iluzí.
Pak přišel test: takzvaní „rotující hadi“, statický obraz, který při delším pohledu vypadá, jako by se točil. Síť se nechala zmást stejnými verzemi obrázku jako lidé, zatímco upravenou variantu, která člověka neoklame a působí staticky, „viděla“ také bez pohybu. Podle Watanabeho to podporuje myšlenku, že určité obrazové prvky spouštějí predikční systém a ten si „dopočítá“ pohyb, i když tam reálně není.
Zároveň se ale ukázaly rozdíly. Když člověk upře pohled na jeden z kruhů, často se zdá, že se zastaví, zatímco periferní části obrázku se točí dál. PredNet naopak vnímá pohyb ve všech kruzích současně. Watanabe to vysvětluje tím, že model nemá mechanismus pozornosti, který by uměl zvýhodnit jednu část scény a zbytek potlačit.
Když do hry vstoupí kvantová fyzika
Další směr výzkumu zní ještě divněji: propojení AI s principy kvantové mechaniky. Ivan Maksymov z Charles Sturt University vytvořil model, který využívá jev zvaný kvantové tunelování, a učil ho pracovat s dvojznačnými iluzemi, jako je Neckerova kostka nebo Rubinova váza, kde mozek přepíná mezi dvěma interpretacemi. Model pak mezi výklady také „přeskakoval“ v časech podobných těm, jaké lidé vykazují v testech.
Maksymov tím netvrdí, že lidský mozek je kvantový počítač. Spíš ukazuje, že některé aspekty rozhodování a přepínání mezi možnostmi se dají kvantovou teorií popsat užitečněji než klasickými modely. A může to mít i praktický přesah, třeba při zkoumání, jak se vnímání iluzí mění ve vesmíru.
Astronauti na ISS totiž podle dřívějších pozorování vnímají některé dvojznačné iluze jinak než na Zemi. Po delší době na oběžné dráze se jim může vyrovnat četnost, s jakou „vidí“ jednu či druhou perspektivu, protože část vnímání hloubky si na Zemi opíráme o gravitaci. A ve stavu beztíže se tyhle opěrné body mění.
Zkoumání optických klamů tak přestává být jen hříčkou pro učebnice. Když se do stejné léčky chytí člověk i AI, vědcům to pomáhá oddělit, co je dáno fyzikou obrazu a co strategií zpracování informací. A také připomíná, že „vidět“ ještě neznamená chápat, ať už máte v hlavě neurony, nebo jejich umělou verzi.