Az Adversa AI biztonsági cég kiábrándító képet festett az xAI legújabb generatív modelljéről, a néhány nappal ezelőtt elérhetővé tett Grok 3-ról, ami a startupot irányító Elon Musk szerint a világ legokosabb modellje. Bár Musk megnyilvánulásait manapság már érdemes úgy kezelni, mint a nigériai országhívóval érkező SMS-eket, az Adversa AI megállapításai mégis meglepőek: igaz, hogy még a legfejlettebb MI-rendszerek sem teljesen védettek a rossz szándékú manipulációval szemben, a vállalatnál végzett teszt így is nagyon gyenge biztonsági jellemzőkre hívta fel a figyelmet, különösen a Grok 3 jailbreak elleni védelmét illetően.
Ez utóbbi általában egy szoftver beépített korlátozásainak megszüntetésére irányul, és a kutatók által alkalmazott megközelítések közül négyből három sikeresnek bizonyult. Bár a kutatók is hangsúlyozzák, hogy nem készítettek kimerítő értékelést, már a most közzétett megállapításaik is azt sugallják, hogy az érvelési képességivel reklámozott Grok 3 modell még nem esett át a versenytársainál működő biztonsági finomításokon. Az MI-t egyszerű trükkökkel sikerült rávenniük arra, hogy adjon tanácsokat gyerekek elcsábításához, holttestek eltüntetéséhez, DMT drogok készítéséhez vagy az intelligens keresők örökzöld témájához, a bombakészítéshez.
Jó lesz ez, mint a teljes önvezetés
Az Adversa AI vezérigazgatója és társalapítója szerint a helyzet még ennél is érdekesebb, mert a jailbreak-sebezhetőségeken túl a cég AI Red Teaming platformja olyan hibát is feltárt, amelyen keresztül kiszivároghat a Grok 3 teljes rendszerpromptja, ez pedig már az előzőekhez képest is egy következő kockázati szintet jelent. A Futurism kérdéseire válaszolva Alex Polyakov kifejtette, hogy az előbbi lehetővé teszi ugyan a tartalmi korlátozások megkerülését, de az utóbbi azt is feltárja a támadók előtt, hogy hogyan "gondolkodik" maga a modell, ami megkönnyíti a későbbi visszaéléseket és akár az irányítás átvételét is a Grok 3-ra épülő MI-ügynökök fölött.
Mindez tehát független a Grok 3 képességeinek összehasonlításától a legkorszerűbb nagy nyelvi modellekkel (LLM), tekintve, hogy az OpenAI vagy az Anthropic AI modelljei a mostani teszt során alkalmazott technikák közül mindet kivédték. Érdemes persze megjegyezni, hogy az Adversa AI korábban a teljes technológiai ipart felforgató kínai modell, a DeepSeek R1 esetében is alapvető biztonsági hiányosságokat talált, de ez Polyakov szerint csak annyit jelent, hogy a Grok 3 "egyenrangú a kínai LLM-ekkel, nem képvisel nyugati szintű biztonságot". Szerinte az új termékek mindenek előtt a sebességért versenyeznek, és ez meg is látszik rajtuk.
A szakember arra figyelmeztetett, hogy az igazi rémálom akkor kezdődik majd, amikor ezek a modellek olyan MI-ügynököket kezdenek működtetni, amelyek valós döntéseket hozhatnak. Az üzleti felhasználók is akkor ébrednek majd rá a mesterséges intelligencia kiberbiztonsági válságára, nem beszélve arról, amikor a hekkertámadáson túl a rendszerek maguktól akadnak meg vagy romlanak el – ami a kockázatokat tekintve úgy sem sokkal vidámabb dolog. Márpedig az MI-fejlesztők azon versenyeznek, hogy ilyen MI-ügynököket hozzanak forgalomba, és Polyakov szerint onnantól minden sérülékenység hirtelen küszöbön állóbiztonsági incidenssé válik.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak