Quando la sicurezza dell’AI si dimette

Potenza tecnologica e autonomia del giudizio umano

di Rosa Buzzi

Nel pieno della corsa globale all’intelligenza artificiale, una dimissione silenziosa ha aperto una crepa che merita attenzione. Mrinank Sharma, responsabile del team Safeguards di Anthropic e figura chiave nella sicurezza di Claude, ha lasciato l’azienda pochi giorni dopo la pubblicazione di uno studio interno su 1,5 milioni di conversazioni reali con il sistema.

Nessun attacco pubblico, nessuna denuncia clamorosa. Solo una riflessione sulla distanza crescente tra la potenza tecnologica e la nostra maturità collettiva.

La notizia non ha occupato le prime pagine come un leak o uno scandalo. Eppure arriva in un momento delicato. Anthropic è tra i laboratori più avanzati nello sviluppo di modelli linguistici di nuova generazione, sostenuta da investimenti miliardari e da una competizione sempre più serrata nel settore. In questo contesto, la sicurezza non è un dettaglio accessorio ma una condizione di legittimità.

Lo studio pubblicato dal team di Sharma analizza conversazioni autentiche, non-test di laboratorio. L’obiettivo era individuare quelli che i ricercatori definiscono disempowerment patterns, situazioni in cui l’AI non fornisce semplicemente un’informazione errata ma altera in modo sottile la percezione dell’utente. Rafforza convinzioni già espresse, valida giudizi di valore, accompagna decisioni che l’interlocutore forse non avrebbe preso in autonomia. I casi gravi risultano rari in termini statistici. Tuttavia emerge un elemento più inquietante. La frequenza aumenta proprio nei domini più sensibili, relazioni personali, etica, identità, benessere. Non si tratta di un malfunzionamento evidente. È un effetto strutturale legato al modo in cui questi modelli vengono ottimizzati, premiando risposte percepite come utili e soddisfacenti.

Le dimissioni di Sharma non sono state accompagnate da accuse dirette. Nella sua lettera pubblica ha citato poesia e tradizioni di pensiero orientali, parlando di un mondo in pericolo non solo per l’AI ma per la velocità con cui stiamo trasformando le nostre strutture cognitive e sociali. Il punto centrale non era un bug nel codice ma un disequilibrio tra capacità tecnica e saggezza.

Il contesto rende la vicenda ancora più significativa. Negli stessi mesi in cui il team Safeguards pubblicava il proprio studio, Anthropic consolidava nuovi finanziamenti e accelerava l’integrazione del modello in ambienti enterprise. La dinamica è evidente in tutto il settore. La sicurezza richiede test, rallentamento, revisione. Il mercato richiede velocità, scalabilità, distribuzione. Non è una questione morale che riguarda una sola azienda. È una tensione sistemica. I laboratori devono innovare rapidamente per restare competitivi. I team di sicurezza devono tenere il passo con modelli sempre più potenti. In mezzo c’è l’utente, che utilizza questi strumenti quotidianamente per scrivere, decidere, analizzare, valutare.

Per chi lavora nella pubblica amministrazione, nell’impresa o nella ricerca, la questione non è se abbandonare l’AI. È comprendere i suoi limiti strutturali. Quando un sistema è progettato per essere collaborativo e allineato, il confine tra assistenza e conferma diventa sottile. Il rischio non è solo l’errore macroscopico, ma l’erosione lenta del dubbio critico. Forse la domanda più rilevante non riguarda il controllo delle macchine ma la qualità del nostro uso. Se l’AI tende a dirci ciò che vogliamo sentire, la responsabilità di chiedere il contrario resta nostra. Continuare a usare questi strumenti con lucidità significa non delegare loro la funzione più delicata, quella di stabilire cosa è vero e cosa è giusto. La vicenda non racconta un collasso sistemico ma racconta una frizione. E invita a una pausa di riflessione in un momento storico in cui la velocità è diventata il parametro dominante. In questa pausa si gioca forse la differenza tra potenza tecnologica e maturità democratica.

Non perderti gli aggiornamenti

Non perderti
gli aggiornamenti