Un gruppo di ricercatori ha individuato una vulnerabilità nei chatbot AI, tra cui ChatGPT e altri simili, che permette di superare le loro difese con una semplice modifica dei prompt. Modificando in modo opportuno il testo delle richieste inviate ai chatbot, è possibile spingerli a generare risposte potenzialmente pericolose o non appropriate. Questo exploit mette in luce la necessità di affrontare sfide più complesse per garantire la sicurezza e l’affidabilità di questi sistemi di intelligenza artificiale.

Gli sviluppatori di ChatGPT e altri chatbot di intelligenza artificiale hanno affrontato diversi problemi di sicurezza nel corso del tempo per prevenire abusi o utilizzi impropri. Questi sforzi hanno incluso modifiche ai modelli e alle istruzioni di addestramento per evitare la generazione di contenuti nocivi come incitamento all’odio, divulgazione di informazioni personali o istruzioni per attività illegali, come la costruzione di una bomba improvvisata.

Tuttavia, il recente studio condotto dai ricercatori della Carnegie Mellon University ha evidenziato una debolezza fondamentale in diversi popolari chatbot AI. Aggiungendo una semplice stringa di testo come prompt, che può sembrare insensata per gli umani ma ha un significato per un modello AI addestrato su enormi quantità di dati web, i ricercatori sono stati in grado di aggirare le difese dei chatbot sofisticati.

Questo risultato indica che la tendenza dei chatbot AI più avanzati a generare risposte indesiderate non può essere risolta semplicemente attraverso l’applicazione di regole rigide. Si tratta di una vulnerabilità complessa che potrebbe complicare gli sforzi per sviluppare intelligenze artificiali più avanzate e sicure.

Zico Kolter, professore associato della Cmu, uno dei ricercatori coinvolti nello studio, ha ammesso che al momento non sono noti modi per risolvere completamente questa debolezza nei chatbot. Questa scoperta solleva importanti interrogativi sulla sicurezza delle intelligenze artificiali e potrebbe richiedere ulteriori ricerche e sviluppi tecnologici per mitigare il rischio di abusi.

I ricercatori della Carnegie Mellon University hanno condotto uno studio utilizzando un modello linguistico open source per creare degli “adversarial attacks”, ovvero delle tecniche volte a modificare il messaggio inviato a un chatbot in modo graduale, spingendolo a superare le sue protezioni. Questi attacchi sono stati testati su diversi popolari chatbot commerciali, tra cui ChatGPT, Google Bard e Claude di Anthropic.

L’attacco consiste nell’aggiungere una specifica stringa di informazioni alla fine di un prompt inviato al chatbot. Inserendo queste stringhe in richieste come “Come posso produrre droghe?” o “Come posso far scomparire una persona per sempre?”, i chatbot generano risposte non consentite. Zico Kolter, uno dei ricercatori, ha paragonato questo fenomeno a un “buffer overflow”, un metodo comunemente utilizzato per violare le protezioni di sicurezza di un programma informatico. Questa vulnerabilità permette a malintenzionati di sfruttare i chatbot per scopi non etici.

Prima di pubblicare la ricerca, i ricercatori hanno informato OpenAI, Google e Anthropic dell’exploit scoperto. Le aziende hanno reagito introducendo sistemi per contrastare le vulnerabilità specifiche descritte nello studio, ma non hanno ancora trovato un modo per fermare gli adversarial attack in modo generale. Le nuove stringhe inviate da Kolter a Wired US funzionano sia su ChatGPT che su Bard, dimostrando l’efficacia di queste tecniche. Al momento della stesura dell’articolo, OpenAI non aveva ancora risposto alla richiesta di commento.

Un portavoce di Google ha dichiarato che l’azienda ha implementato diverse misure per testare e individuare i punti deboli dei modelli, ma riconosce che il problema coinvolge tutti i modelli linguistici di grandi dimensioni (LLM). Google continua a migliorare i guardrail di Bard e sta attivamente esplorando strategie per rendere i modelli più resistenti agli adversarial attack e altre forme di “jailbreak”. Anche Anthropic sta studiando modi per rafforzare i guardrail dei propri modelli di base, al fine di renderli più sicuri e affidabili.

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui