Saznali smo kada studenti koriste ChatGPT na ispitima

17 Kol 2024

OpenAI

Posljednjih mjeseci puno se pričalo o tome kako se uz pomoć generativne umjetne inteligencije može varati prilikom pisanja eseja i raznih narativnih zadataka. Istovremeno, korištenje AI alata kao što je ChatGPT za varanje na ispitima s višestrukim izborom uglavnom je prolazilo ispod radara.

No, sad su se tog posla prihvatili istraživači Državnog sveučilišta na Floridi (FSU). Otkrili su kako se upotreba ChatGPT-a za varanje na ispitima s višestrukim izborom iz opće kemije može otkriti uz pomoć specifičnih statističkih podataka. Njihova zapažanja opisana su časopisu Journal of Chemical Education.

Istraživači su prikupili odgovore studenata s ispita održanih u posljednjih pet semestara. U ChatGPT unijeli gotovo 1000 pitanja i potom usporedili rezultate. Prosječna ocjena i neobrađena statistika nisu bili dovoljni za prepoznavanje ponašanja sličnog ChatGPT-u jer postoje pitanja na koja je ChatGPT uvijek odgovarao točno ili je uvijek odgovarao netočno. Stoga se ukupni rezultat umjetne inteligencije nije mogao razlikovati od odgovora studenata.

“To je stvar kod ChatGPT-a, on može generirati sadržaj, ali ne mora nužno generirati točan sadržaj. To je jednostavno generator odgovora. Pokušava izgledati kao da zna odgovor, a nekome tko ne razumije gradivo to vjerojatno izgleda kao točan odgovor”, objašnjavaju istraživači.

Istraživači iznenađeni
Korištenjem prilagođenog statističkog modela istraživači su fiksirali parametre i ponovno prilagodili rezultate. Otkrili su da se obrazac odgovora ChatGPT-a jasno razlikuje od onog učenika. Naime, odlični studenti na ispitima često točno odgovaraju na teška i laka pitanja. Prosječni studenti obično točno odgovore na neka teška i većinu lakih pitanja. Loši studenti obično točno odgovaraju samo na laka pitanja.

Ali pri ponovljenim pokušajima ChatGPT-a da završi test, AI alat ponekad je na svako lakše pitanje odgovorio netočno, a na svako teže pitanje točno. Istraživači su upotrijebili ove razlike u ponašanju kako bi otkrili korištenje ChatGPT-a s gotovo 100-postotnom točnošću.

Ova strategija koristi Raschov model i fit statistiku i može se lako primijeniti na sve generativne AI chatbotove. Vjerojatnost točnog odgovora pritom ovisi o težini pitanja i sposobnosti učenika da odgovori na njega. U ovom slučaju, sposobnost učenika odnosi se na to koliko znanja ima i koliko je potrebnih komponenti potrebno da bi se odgovorilo na postavljeno pitanje, objašnjavaju istraživači. Zanimljivo i sami su ostali iznenađeni lakoćom kojom se obrasci umjetne inteligencije mogu identificirati uz pomoć statistike, piše Financa.