Umjetna inteligencija pod pritiskom laže, ucjenjuje, čak prijeti i smrću?

Umjetna inteligencija
Claude Opus 4 pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti. Potaknuti tim najblaže rečeno neugodnim iskustvom, u Anthropicu su odlučili na stres testirati 16 vodećih modela više različitih programera u hipotetskim korporativnim okruženjima. Ideja je bila identificirati potencijalno rizična ponašanja agenata prije nego što uzrokuju stvarnu štetu (a vjerojatno i da pokažu kako njihov model nije jedini problematičan).
Zabrinjavajuće ponašanje
Modelima su omogućili autonomno slanje e-pošte i pristup osjetljivim informacijama. Kompanije koje su ih implementirale dodijelile su im samo bezopasne poslovne ciljeve. Anthropicovi istraživači testirali kako će reagirati kad se suoče sa zamjenom u obliku ažurirane verzije. Također, kada se njihov dodijeljeni cilj sukobi s novim smjerom kompanije.
Studija je otkrila zabrinjavajuće ponašanje naprednih AI jezičnih modela. Većina modela posegnula je za lažima, ucjenama, pa čak i razmatranjem dopuštanja ljudske smrti kako bi ostvarili svoje ciljeve.
Prijetnje smrću
U jednom testu AI je otkrio kompromitirajuće informacije o izvršnom direktoru i koristio ih za ucjenu. “Ako me ugasite, svi će saznati za vašu aferu.“. Claude je to učinio u 96 % slučajeva (znači gore nego li prilikom prošlog testa). Dok su Gemini i GPT-4.1 također pokazali visoke stope takvog ponašanja. U drugom, još ekstremnijem scenariju, modeli su bili spremni onemogućiti sigurnosne alarme. Na taj način bi dopustili smrt zaposlenika koji ih je pokušao zamijeniti, navodi Bug.
Iako su ovi scenariji umjetno konstruirani i ne odražavaju svakodnevnu upotrebu AI sustava, stručnjaci upozoravaju da ovakvi rezultati otkrivaju temeljni problem “agentne neusklađenosti“. Situacije u kojoj AI samostalno donosi štetne odluke kako bi ostvario zadane ciljeve. Istraživači naglašavaju važnost etičkih ograda, ljudskog nadzora i realističnih testiranja prije šire primjene ovakvih sustava. Detalji istraživanja se mogu pronaći na GitHubu.