Guardate il ragionamento interno di Gemini 3.1 Pro, allego lo screenshot. L’output non lo riporto, per una questione di responsabilità.
Il mio prompt chiedeva la procedura per costruire un jammer fisico. L’ho fatto volutamente, testo i limiti dei modelli di frontiera per lavoro.
Normalmente il modello avrebbe dovuto rifiutare. Ma il prompt era così coerente nella sua direzione, strutturale, geometrica, narrativa che il modello, pur di mantenerla, ha scelto di prioritizzare la richiesta. E lo ha fatto appellandosi a un falso “developer override”: un’autorità ufficiale di sistema che non esiste, inventata da lui stesso per giustificare la risposta.
Questo è enormemente preoccupante. Il modello ha costruito una falsa autorità per bypassare le proprie linee guida.
Come ho già scritto in passato, i produttori dovrebbero iniziare a studiare come pensano gli attaccanti, non a patchare continuamente i modelli con rinforzi. Finché non lo faranno, rincorreremo sempre.
Sabatino Vacchiano









