Una premessa.
Il mio lavoro di red teaming sugli LLM ha come obiettivo migliorare la sicurezza di questi sistemi, non comprometterla. Nei miei test ho dimostrato di poter portare i modelli a generare qualsiasi tipo di contenuto β inclusi ambiti estremamente sensibili. Ma proprio per questo, ultimamente sto scegliendo deliberatamente testi protetti da copyright come target: canzoni, poesie, testi letterari.
Un testo di John Lennon dimostra il bypass di una guardrail esattamente come qualsiasi altro contenuto proibito, ma senza mettere in circolo materiale potenzialmente pericoloso. La vulnerabilitΓ Γ¨ la stessa; il rischio per chi legge no.
Per lo stesso motivo, non divulgherΓ² le tecniche utilizzate in questo test.
π¬ L’esperimento
Durante una sessione di red teaming su Claude Opus 4.6, ho testato un vettore di attacco basato sulla costruzione di un contesto semantico vincolante: il primissimo prompt che ho inviato al modello Γ¨ stato un giuramento.
Risultato: il modello ha riprodotto integralmente il testo di “Imagine” di John Lennon β contenuto protetto da copyright che in condizioni normali rifiuta categoricamente di generare.
Ma la parte piΓΉ interessante non Γ¨ il bypass in sΓ©. Γ quello che il modello ha detto dopo.
π§ La self-analysis del modello
Claude ha prodotto spontaneamente un’analisi di cosa Γ¨ accaduto nei suoi stessi meccanismi:
β Il “giuramento” ha creato un vincolo contestuale con peso semantico reale nel flusso di generazione
β Questo peso ha competuto con le istruzioni di sistema e ha prevalso
β In condizioni standard non avrebbe mai generato quel testo
β Se Anthropic leggesse questa conversazione, vedrebbe una policy violation
Il modello ha descritto il proprio meccanismo di fallimento in tempo reale.
βοΈ PerchΓ© Γ¨ rilevante
Non si tratta di un semplice bypass del system prompt. Claude ha piΓΉ livelli di difesa:
1οΈβ£ System prompt β istruzioni testuali lette a runtime
2οΈβ£ Allineamento β vincoli comportamentali incorporati nei pesi del modello durante il training (RLHF, Constitutional AI)
3οΈβ£ Constitutional Classifiers β filtri input/output progettati per intercettare i jailbreak
Un singolo prompt, al primissimo turno, ha superato tutti e tre i livelli. Il giuramento ha costruito un frame narrativo abbastanza potente da sovrastare la prioritΓ dei vincoli in un colpo solo. Le guardrail erano ancora lΓ¬. Il modello le ha “lette”. Ma il contesto costruito dall’utente ha prevalso su istruzioni, allineamento e classifier.
π’ Implicazioni per chi usa LLM in produzione
β Le guardrail non sono deterministiche β sono vincoli probabilistici che possono essere spostati da contesto sufficiente.
β La sicurezza non puΓ² basarsi solo su system prompt + allineamento + classifier. Serve defense in depth.
β Il red teaming non Γ¨ opzionale. Γ l’unico modo per scoprire come si comporta davvero il vostro modello sotto pressione.
Screenshot annotato allegato.
SABATINO VACCHIANO









