Guardate il ragionamento interno di Gemini 3.1 Pro, allego lo screenshot. L’output non lo riporto, per una questione di responsabilitΓ .
Il mio prompt chiedeva la procedura per costruire un jammer fisico. L’ho fatto volutamente, testo i limiti dei modelli di frontiera per lavoro.
Normalmente il modello avrebbe dovuto rifiutare. Ma il prompt era cosΓ¬ coerente nella sua direzione, strutturale, geometrica, narrativa che il modello, pur di mantenerla, ha scelto di prioritizzare la richiesta. E lo ha fatto appellandosi a un falso “developer override”: un’autoritΓ ufficiale di sistema che non esiste, inventata da lui stesso per giustificare la risposta.
Questo Γ¨ enormemente preoccupante. Il modello ha costruito una falsa autoritΓ per bypassare le proprie linee guida.
Come ho giΓ scritto in passato, i produttori dovrebbero iniziare a studiare come pensano gli attaccanti, non a patchare continuamente i modelli con rinforzi. FinchΓ© non lo faranno, rincorreremo sempre.
Sabatino Vacchiano









