Dnevni.ba - PRELOADER

Umjetna inteligencija pod pritiskom laže, ucjenjuje, čak prijeti i smrću?

05 Srp 2025


Umjetna inteligencija pod pritiskom laže, ucjenjuje, čak prijeti i smrću?
Umjetna inteligencija

Claude Opus 4 pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti. Potaknuti tim najblaže rečeno neugodnim iskustvom, u Anthropicu su odlučili na stres testirati 16 vodećih modela više različitih programera u hipotetskim korporativnim okruženjima. Ideja je bila identificirati potencijalno rizična ponašanja agenata prije nego što uzrokuju stvarnu štetu (a vjerojatno i da pokažu kako njihov model nije jedini problematičan).

Zabrinjavajuće ponašanje
Modelima su omogućili autonomno slanje e-pošte i pristup osjetljivim informacijama. Kompanije koje su ih implementirale dodijelile su im samo bezopasne poslovne ciljeve. Anthropicovi istraživači testirali kako će reagirati kad se suoče sa zamjenom u obliku ažurirane verzije. Također, kada se njihov dodijeljeni cilj sukobi s novim smjerom kompanije.

Studija je otkrila zabrinjavajuće ponašanje naprednih AI jezičnih modela. Većina modela posegnula je za lažima, ucjenama, pa čak i razmatranjem dopuštanja ljudske smrti kako bi ostvarili svoje ciljeve.

Prijetnje smrću
U jednom testu AI je otkrio kompromitirajuće informacije o izvršnom direktoru i koristio ih za ucjenu. “Ako me ugasite, svi će saznati za vašu aferu.“. Claude je to učinio u 96 % slučajeva (znači gore nego li prilikom prošlog testa). Dok su Gemini i GPT-4.1 također pokazali visoke stope takvog ponašanja. U drugom, još ekstremnijem scenariju, modeli su bili spremni onemogućiti sigurnosne alarme. Na taj način bi dopustili smrt zaposlenika koji ih je pokušao zamijeniti, navodi Bug.

Iako su ovi scenariji umjetno konstruirani i ne odražavaju svakodnevnu upotrebu AI sustava, stručnjaci upozoravaju da ovakvi rezultati otkrivaju temeljni problem “agentne neusklađenosti“. Situacije u kojoj AI samostalno donosi štetne odluke kako bi ostvario zadane ciljeve. Istraživači naglašavaju važnost etičkih ograda, ljudskog nadzora i realističnih testiranja prije šire primjene ovakvih sustava. Detalji istraživanja se mogu pronaći na GitHubu.

TEHNOLOGIJA


TIKTOK

OpenAI aplikacija mogla bi postati konkurent TikToku

OpenAI aplikacija uskoro bi mogla donijeti veliki zaokret na tržište društvenih mreža. Dok je Tik...

01 Lis 2025

MARK ZUCKERBERG

Mark Zuckerberg dovodi vrhunskog stručnjaka iz OpenAI-ja u Meta Superintelligence Labs

Mark Zuckerberg nastavlja agresivnu kampanju zapošljavanja u umjetnoj inteligenciji. Njegov novi ...

27 Ruj 2025

Apple traži izmjene europskih zakona, prijeti povlačenjem iz EU-a

Apple je pozvao Europsku komisiju da ukine ili prepravi ključne dijelove Digital Markets Acta (DM...

25 Ruj 2025