Dnevni.ba - PRELOADER

Umjetna inteligencija pod pritiskom laže, ucjenjuje, čak prijeti i smrću?

05 Srp 2025


Umjetna inteligencija pod pritiskom laže, ucjenjuje, čak prijeti i smrću?
Umjetna inteligencija

Claude Opus 4 pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti. Potaknuti tim najblaže rečeno neugodnim iskustvom, u Anthropicu su odlučili na stres testirati 16 vodećih modela više različitih programera u hipotetskim korporativnim okruženjima. Ideja je bila identificirati potencijalno rizična ponašanja agenata prije nego što uzrokuju stvarnu štetu (a vjerojatno i da pokažu kako njihov model nije jedini problematičan).

Zabrinjavajuće ponašanje
Modelima su omogućili autonomno slanje e-pošte i pristup osjetljivim informacijama. Kompanije koje su ih implementirale dodijelile su im samo bezopasne poslovne ciljeve. Anthropicovi istraživači testirali kako će reagirati kad se suoče sa zamjenom u obliku ažurirane verzije. Također, kada se njihov dodijeljeni cilj sukobi s novim smjerom kompanije.

Studija je otkrila zabrinjavajuće ponašanje naprednih AI jezičnih modela. Većina modela posegnula je za lažima, ucjenama, pa čak i razmatranjem dopuštanja ljudske smrti kako bi ostvarili svoje ciljeve.

Prijetnje smrću
U jednom testu AI je otkrio kompromitirajuće informacije o izvršnom direktoru i koristio ih za ucjenu. “Ako me ugasite, svi će saznati za vašu aferu.“. Claude je to učinio u 96 % slučajeva (znači gore nego li prilikom prošlog testa). Dok su Gemini i GPT-4.1 također pokazali visoke stope takvog ponašanja. U drugom, još ekstremnijem scenariju, modeli su bili spremni onemogućiti sigurnosne alarme. Na taj način bi dopustili smrt zaposlenika koji ih je pokušao zamijeniti, navodi Bug.

Iako su ovi scenariji umjetno konstruirani i ne odražavaju svakodnevnu upotrebu AI sustava, stručnjaci upozoravaju da ovakvi rezultati otkrivaju temeljni problem “agentne neusklađenosti“. Situacije u kojoj AI samostalno donosi štetne odluke kako bi ostvario zadane ciljeve. Istraživači naglašavaju važnost etičkih ograda, ljudskog nadzora i realističnih testiranja prije šire primjene ovakvih sustava. Detalji istraživanja se mogu pronaći na GitHubu.

TEHNOLOGIJA


YOUTUBE

YouTube i Facebook više ne dozvoljavaju zaradu od sadržaja koji nije autentičan

YouTube od 15. srpnja počinje primjenjivati nova pravila za svoje partnere, kreatore videa koji i...

16 Srp 2025

META

Meta ‘ukrala’ Appleovog AI genija: Hoće li to uzdrmati tehnološki svijet?

Apple prolazi kroz značajne promjene, a jedna od njih posebno je odjeknula u tehnološkim krugovim...

15 Srp 2025

CHATGPT

Nova pravila za ChatGPT i Gemini: EU uvodi Kodeks prakse

Europska komisija objavila je finalni Kodeks prakse za pružatelje modela umjetne inteligencije op...

12 Srp 2025