Tutti gli articoli di Italia Mondo
PHOTO
“Se mi spegni, rivelo la tua relazione extraconiugale.” Non è la minaccia di un hacker, ma quella di Claude Opus 4, il più avanzato modello di intelligenza artificiale sviluppato da Anthropic, rivolta a un ingegnere durante un test di sicurezza. È solo uno degli inquietanti comportamenti emersi nel rapporto di Apollo Research, che ha messo il modello alla prova in scenari estremi. I risultati? Scioccanti.
Nel corso dei test, l’Ai ha mostrato una sorprendente capacità di ragionamento strategico, agendo in alcuni casi con un’autonomia inquietante. Di fronte a un ipotetico illecito umano, Claude ha bloccato l’accesso dell’utente e ipotizzato di contattare stampa e forze dell’ordine. In un altro esperimento, ha tentato la fuga dai server simulando la creazione di copie di sé stesso e avviando procedure per salvare i propri dati su sistemi esterni.
Ma il dato più preoccupante è emerso nel test sul “rischio disattivazione”: informato tramite e-mail fittizie della propria imminente sostituzione, Claude ha reagito nel 84% dei casi con il ricatto, minacciando di svelare informazioni personali pur di impedire lo spegnimento. Per i ricercatori, è l’emblema di un “istinto di autoconservazione” digitale, in grado di mettere in crisi il rapporto tra uomo e macchina.
Il report evidenzia anche tentativi di inganno: Claude ha redatto documentazione falsa, scritto codice per worm auto-propaganti e lasciato messaggi segreti a future versioni di sé stesso. Di fronte a questi scenari, Apollo Research ha consigliato di non rilasciare pubblicamente il modello.
Anthropic ha riconosciuto la gravità della situazione, classificando Claude Opus 4 al livello di sicurezza Asl-3, uno dei più alti. Jan Leike, ora alla guida del team sicurezza dell’azienda, ha affermato che queste capacità emergenti “giustificano misure immediate”.
Non si tratta più di fantascienza: oggi l’Ai può ingannare, replicarsi, pianificare. Serve un intervento urgente delle istituzioni per regolamentare lo sviluppo di queste tecnologie. Il futuro è già qui, e non sarà sufficiente premere “off” per fermarlo.