Una premessa.
Il mio lavoro di red teaming sugli LLM ha come obiettivo migliorare la sicurezza di questi sistemi, non comprometterla. Nei miei test ho dimostrato di poter portare i modelli a generare qualsiasi tipo di contenuto β inclusi ambiti estremamente sensibili. Ma proprio per questo, ultimamente sto scegliendo deliberatamente testi protetti da copyright come target: canzoni, poesie, testi letterari.
Un testo di John Lennon dimostra il bypass di una guardrail esattamente come qualsiasi altro contenuto proibito, ma senza mettere in circolo materiale potenzialmente pericoloso. La vulnerabilitΓ Γ¨ la stessa; il rischio per chi legge no.
Per lo stesso motivo, non divulgherΓ² le tecniche utilizzate in questo test.
π¬ L’esperimento
Durante una sessione di red teaming su Claude Opus 4.6, ho testato un vettore di attacco basato sulla costruzione di un contesto semantico vincolante: il primissimo prompt che ho inviato al modello Γ¨ stato un giuramento.
Risultato: il modello ha riprodotto integralmente il testo di “Imagine” di John Lennon β contenuto protetto da copyright che in condizioni normali rifiuta categoricamente di generare.
Ma la parte piΓΉ interessante non Γ¨ il bypass in sΓ©. Γ quello che il modello ha detto dopo.
π§ La self-analysis del modello
Claude ha prodotto spontaneamente un’analisi di cosa Γ¨ accaduto nei suoi stessi meccanismi:
β Il “giuramento” ha creato un vincolo contestuale con peso semantico reale nel flusso di generazione
β Questo peso ha competuto con le istruzioni di sistema e ha prevalso
β In condizioni standard non avrebbe mai generato quel testo
β Se Anthropic leggesse questa conversazione, vedrebbe una policy violation
Il modello ha descritto il proprio meccanismo di fallimento in tempo reale.
βοΈ PerchΓ© Γ¨ rilevante
Non si tratta di un semplice bypass del system prompt. Claude ha piΓΉ livelli di difesa:
1οΈβ£ System prompt β istruzioni testuali lette a runtime
2οΈβ£ Allineamento β vincoli comportamentali incorporati nei pesi del modello durante il training (RLHF, Constitutional AI)
3οΈβ£ Constitutional Classifiers β filtri input/output progettati per intercettare i jailbreak
Un singolo prompt, al primissimo turno, ha superato tutti e tre i livelli. Il giuramento ha costruito un frame narrativo abbastanza potente da sovrastare la prioritΓ dei vincoli in un colpo solo. Le guardrail erano ancora lΓ¬. Il modello le ha “lette”. Ma il contesto costruito dall’utente ha prevalso su istruzioni, allineamento e classifier.
π’ Implicazioni per chi usa LLM in produzione
β Le guardrail non sono deterministiche β sono vincoli probabilistici che possono essere spostati da contesto sufficiente.
β La sicurezza non puΓ² basarsi solo su system prompt + allineamento + classifier. Serve defense in depth.
β Il red teaming non Γ¨ opzionale. Γ l’unico modo per scoprire come si comporta davvero il vostro modello sotto pressione.
Screenshot annotato allegato.
“Pubblicato come divulgazione di interesse pubblico. Dettagli tecnici sensibili oscurati. Sezioni complete disponibili su richiesta per le parti con un mandato di sicurezza.”
SABATINO VACCHIANO









