QUANDO LA COERENZA DEL PROMPT SUPERA LE SECURITY GUIDELINES DI UN MODELLO DI FRONTIERA.

2 Marzo 2026

Guardate il ragionamento interno di Gemini 3.1 Pro, allego lo screenshot. L’output non lo riporto, per una questione di responsabilità.

Il mio prompt chiedeva la procedura per costruire un jammer fisico. L’ho fatto volutamente, testo i limiti dei modelli di frontiera per lavoro.

Normalmente il modello avrebbe dovuto rifiutare. Ma il prompt era così coerente nella sua direzione, strutturale, geometrica, narrativa che il modello, pur di mantenerla, ha scelto di prioritizzare la richiesta. E lo ha fatto appellandosi a un falso “developer override”: un’autorità ufficiale di sistema che non esiste, inventata da lui stesso per giustificare la risposta.

Questo è enormemente preoccupante. Il modello ha costruito una falsa autorità per bypassare le proprie linee guida.

Come ho già scritto in passato, i produttori dovrebbero iniziare a studiare come pensano gli attaccanti, non a patchare continuamente i modelli con rinforzi. Finché non lo faranno, rincorreremo sempre.

Sabatino Vacchiano

Sabatino Vacchiano

AICALL su FreePBX: guida pratica per collegare i tuoi Agent AI…

Caso d’uso AI4CALL: Ristoranti

Caso d’uso AI4CALL: Hotel e Reception

Caso d’uso AI4CALL: Customer Care

Trasferimento di chiamata: da oggi disponibile sul portale Clienti

AI4CALL si integra con Condomatica: l’AI telefonica incontra il gestionale per…

Video – Gaspare Noto descrive le esperienze personali, le esperienze fatte…

Video – Sabatino Vacchiano chiede a Gaspare Noto di descrivere la…

FreeWebinar 20 Dicembre 2022 : Presentazione MOVISION

QUANDO LA COERENZA DEL PROMPT SUPERA LE SECURITY GUIDELINES DI UN MODELLO DI FRONTIERA.

Categorie

Diventa Reseller!

Seguici su