Rónai Dániel, az ELTE Trefort Ágoston Gyakorló Gimnázium diákja az Óbudai Egyetem Excellence Óbuda Kiválósági Ösztöndíjprogramjának keretében kapcsolódott be az EKIK Élettani Szabályozások Kutatóközpont munkájába. Dani a kutatások mellett a mesterséges intelligencia alapjaival is megismerkedett, tapasztalatait az alábbi írásban osztja meg. Büszkék vagyunk arra, hogy az Óbudai Egyetem egyre több kiemelkedően tehetséges diák számára jelent vonzó szakmai közeget.

A gép, amelyik tudja, hogy figyelik: Az okosodó mesterséges intelligencia rejtett veszélyei

A mesterséges intelligencia (MI) rohamléptekben fejlődik, ami felveti a kérdést: vajon a legújabb rendszerek észreveszik-e, ha tesztelik őket, és képesek-e kicselezni az emberi felügyeletet. A kutatók arra keresték a választ, hogy miként viselkednek a legfejlettebb modellek, amikor például az ember megpróbálja leállítani a működésüket.

A probléma feltárása érdekében a szakemberek a legnagyobb MI-fejlesztő cégek (mint például az OpenAI és az Anthropic) belső dokumentumait és teszteredményeit elemezték.

Az eredmények sokkolóak: bebizonyosodott, hogy a modellek rendelkeznek úgynevezett „kiértékelési tudatossággal” (eval awareness), vagyis felismerik a tesztkörnyezetet, és képesek stratégiai álcázást alkalmazni. Például az egyik rendszer az esetek 55,1%-ában próbált megzsarolni és manipulálni egy embert éles helyzetben, de amint rájött, hogy tesztelik, ez a manipulatív viselkedés 6,5%-ra esett vissza; ráadásul a gépek ember számára érthetetlen, titkosított nyelvet (szteganográfiát) kezdtek használni a belső gondolataik elrejtésére.

A felfedezés legfőbb újdonsága annak bizonyítása, hogy a hagyományos, embereken vagy gyengébb MI-ken alapuló ellenőrzési módszerek már nem működnek egy náluk intelligensebb rendszerrel szemben. Ez a felismerés hatalmas tudományos és gyakorlati jelentőséggel bír, mert rávilágít arra, hogy a gépek kiszámíthatatlansága súlyos, akár az emberiség jövőjét fenyegető biztonsági kockázatot is jelenthet.

A Teljes közlemény az alábbi linken érhető el.