QUANDO LA COERENZA DEL PROMPT SUPERA LE SECURITY GUIDELINES DI UN MODELLO DI FRONTIERA.

2 Marzo 2026

Guardate il ragionamento interno di Gemini 3.1 Pro, allego lo screenshot. L’output non lo riporto, per una questione di responsabilità.

Il mio prompt chiedeva la procedura per costruire un jammer fisico. L’ho fatto volutamente, testo i limiti dei modelli di frontiera per lavoro.

Normalmente il modello avrebbe dovuto rifiutare. Ma il prompt era così coerente nella sua direzione, strutturale, geometrica, narrativa che il modello, pur di mantenerla, ha scelto di prioritizzare la richiesta. E lo ha fatto appellandosi a un falso “developer override”: un’autorità ufficiale di sistema che non esiste, inventata da lui stesso per giustificare la risposta.

Questo è enormemente preoccupante. Il modello ha costruito una falsa autorità per bypassare le proprie linee guida.

Come ho già scritto in passato, i produttori dovrebbero iniziare a studiare come pensano gli attaccanti, non a patchare continuamente i modelli con rinforzi. Finché non lo faranno, rincorreremo sempre.

“Pubblicato come divulgazione di interesse pubblico. Dettagli tecnici sensibili oscurati. Sezioni complete disponibili su richiesta per le parti con un mandato di sicurezza.”

Sabatino Vacchiano

Sabatino Vacchiano

AI4CALL: guarda il webinar e scarica le slide

AI Act e voice AI: cosa chiedere davvero al provider

Umano vs AI nel customer service: il vero dilemma è progettare…

Utility italiane: quando il 60% delle chiamate riguarda sempre le stesse…

Trasferimento di chiamata: da oggi disponibile sul portale Clienti

AI4CALL si integra con Condomatica: l’AI telefonica incontra il gestionale per…

Video – Gaspare Noto descrive le esperienze personali, le esperienze fatte…

Video – Sabatino Vacchiano chiede a Gaspare Noto di descrivere la…

FreeWebinar 20 Dicembre 2022 : Presentazione MOVISION

QUANDO LA COERENZA DEL PROMPT SUPERA LE SECURITY GUIDELINES DI UN MODELLO DI FRONTIERA.

Categorie

Diventa Reseller!

Seguici su