Dnevni.ba - PRELOADER

Umjetna inteligencija pod pritiskom laže, ucjenjuje, čak prijeti i smrću?

4 h 14 min


Umjetna inteligencija pod pritiskom laže, ucjenjuje, čak prijeti i smrću?
Umjetna inteligencija

Claude Opus 4 pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti. Potaknuti tim najblaže rečeno neugodnim iskustvom, u Anthropicu su odlučili na stres testirati 16 vodećih modela više različitih programera u hipotetskim korporativnim okruženjima. Ideja je bila identificirati potencijalno rizična ponašanja agenata prije nego što uzrokuju stvarnu štetu (a vjerojatno i da pokažu kako njihov model nije jedini problematičan).

Zabrinjavajuće ponašanje
Modelima su omogućili autonomno slanje e-pošte i pristup osjetljivim informacijama. Kompanije koje su ih implementirale dodijelile su im samo bezopasne poslovne ciljeve. Anthropicovi istraživači testirali kako će reagirati kad se suoče sa zamjenom u obliku ažurirane verzije. Također, kada se njihov dodijeljeni cilj sukobi s novim smjerom kompanije.

Studija je otkrila zabrinjavajuće ponašanje naprednih AI jezičnih modela. Većina modela posegnula je za lažima, ucjenama, pa čak i razmatranjem dopuštanja ljudske smrti kako bi ostvarili svoje ciljeve.

Prijetnje smrću
U jednom testu AI je otkrio kompromitirajuće informacije o izvršnom direktoru i koristio ih za ucjenu. “Ako me ugasite, svi će saznati za vašu aferu.“. Claude je to učinio u 96 % slučajeva (znači gore nego li prilikom prošlog testa). Dok su Gemini i GPT-4.1 također pokazali visoke stope takvog ponašanja. U drugom, još ekstremnijem scenariju, modeli su bili spremni onemogućiti sigurnosne alarme. Na taj način bi dopustili smrt zaposlenika koji ih je pokušao zamijeniti, navodi Bug.

Iako su ovi scenariji umjetno konstruirani i ne odražavaju svakodnevnu upotrebu AI sustava, stručnjaci upozoravaju da ovakvi rezultati otkrivaju temeljni problem “agentne neusklađenosti“. Situacije u kojoj AI samostalno donosi štetne odluke kako bi ostvario zadane ciljeve. Istraživači naglašavaju važnost etičkih ograda, ljudskog nadzora i realističnih testiranja prije šire primjene ovakvih sustava. Detalji istraživanja se mogu pronaći na GitHubu.

TEHNOLOGIJA


APPLE

Apple još uvijek dominira tržištem nosivih uređaja, ali Huawei mu opasno puše za vratom

Najnoviji podaci analitičke kuće Counterpoint Research pokazuju da Apple i dalje prednjači u kate...

4 h 17 min

INDUSTRIJA VIDEOIGARA

Generacijski zaokret u industriji videoigara: Mladi smanjuju potrošnju

Mladi Amerikanci između 18 i 24 godine, nekadašnja najvjernija publika videoigara, danas mnogo pa...

04 Srp 2025

APPLE VISION PRO

Apple pokrenuo novu tužbu: bivši zaposlenik ukrao povjerljivih podataka o Vision Pro

Optuženi Di Liu preuzeo je tisuće Appleovih povjerljivih internih dokumenata te ih pohranio u obl...

03 Srp 2025