Dnevni.ba - PRELOADER

Umjetna inteligencija pod pritiskom laže, ucjenjuje, čak prijeti i smrću?

05 Srp 2025


Umjetna inteligencija pod pritiskom laže, ucjenjuje, čak prijeti i smrću?
Umjetna inteligencija

Claude Opus 4 pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti. Potaknuti tim najblaže rečeno neugodnim iskustvom, u Anthropicu su odlučili na stres testirati 16 vodećih modela više različitih programera u hipotetskim korporativnim okruženjima. Ideja je bila identificirati potencijalno rizična ponašanja agenata prije nego što uzrokuju stvarnu štetu (a vjerojatno i da pokažu kako njihov model nije jedini problematičan).

Zabrinjavajuće ponašanje
Modelima su omogućili autonomno slanje e-pošte i pristup osjetljivim informacijama. Kompanije koje su ih implementirale dodijelile su im samo bezopasne poslovne ciljeve. Anthropicovi istraživači testirali kako će reagirati kad se suoče sa zamjenom u obliku ažurirane verzije. Također, kada se njihov dodijeljeni cilj sukobi s novim smjerom kompanije.

Studija je otkrila zabrinjavajuće ponašanje naprednih AI jezičnih modela. Većina modela posegnula je za lažima, ucjenama, pa čak i razmatranjem dopuštanja ljudske smrti kako bi ostvarili svoje ciljeve.

Prijetnje smrću
U jednom testu AI je otkrio kompromitirajuće informacije o izvršnom direktoru i koristio ih za ucjenu. “Ako me ugasite, svi će saznati za vašu aferu.“. Claude je to učinio u 96 % slučajeva (znači gore nego li prilikom prošlog testa). Dok su Gemini i GPT-4.1 također pokazali visoke stope takvog ponašanja. U drugom, još ekstremnijem scenariju, modeli su bili spremni onemogućiti sigurnosne alarme. Na taj način bi dopustili smrt zaposlenika koji ih je pokušao zamijeniti, navodi Bug.

Iako su ovi scenariji umjetno konstruirani i ne odražavaju svakodnevnu upotrebu AI sustava, stručnjaci upozoravaju da ovakvi rezultati otkrivaju temeljni problem “agentne neusklađenosti“. Situacije u kojoj AI samostalno donosi štetne odluke kako bi ostvario zadane ciljeve. Istraživači naglašavaju važnost etičkih ograda, ljudskog nadzora i realističnih testiranja prije šire primjene ovakvih sustava. Detalji istraživanja se mogu pronaći na GitHubu.

TEHNOLOGIJA


JENSEN HUANG

Šef Nvidije: Kina će pobijediti u AI utrci s Amerikom

Izvršni  direktor Nvidije Jensen Huang upozorio je da će Kina nadmašiti Sjedinjene Države u razv...

06 Stu 2025

WHATSAPP

Elon Musk i šefica Signala kritiziraju WhatsApp zbog sigurnosti

Jedna bezazlena šala koju su objavili na službenom profilu WhatsAppa na društvenoj mreži X uzroko...

05 Stu 2025

AI

Studija: AI može poboljšati probir u žena s visokim rizikom od agresivnog raka dojke

Novi alat za predviđanje rizika od razvoja karcinoma dojke koji podržava umjetna inteligencija po...

03 Stu 2025