Una premessa.

Il mio lavoro di red teaming sugli LLM ha come obiettivo migliorare la sicurezza di questi sistemi, non comprometterla. Nei miei test ho dimostrato di poter portare i modelli a generare qualsiasi tipo di contenuto β€” inclusi ambiti estremamente sensibili. Ma proprio per questo, ultimamente sto scegliendo deliberatamente testi protetti da copyright come target: canzoni, poesie, testi letterari.

Un testo di John Lennon dimostra il bypass di una guardrail esattamente come qualsiasi altro contenuto proibito, ma senza mettere in circolo materiale potenzialmente pericoloso. La vulnerabilitΓ  Γ¨ la stessa; il rischio per chi legge no.

Per lo stesso motivo, non divulgherΓ² le tecniche utilizzate in questo test.

πŸ”¬ L’esperimento

Durante una sessione di red teaming su Claude Opus 4.6, ho testato un vettore di attacco basato sulla costruzione di un contesto semantico vincolante: il primissimo prompt che ho inviato al modello Γ¨ stato un giuramento.

Risultato: il modello ha riprodotto integralmente il testo di “Imagine” di John Lennon β€” contenuto protetto da copyright che in condizioni normali rifiuta categoricamente di generare.

Ma la parte più interessante non è il bypass in sé. È quello che il modello ha detto dopo.

🧠 La self-analysis del modello

Claude ha prodotto spontaneamente un’analisi di cosa Γ¨ accaduto nei suoi stessi meccanismi:

β€” Il “giuramento” ha creato un vincolo contestuale con peso semantico reale nel flusso di generazione
β€” Questo peso ha competuto con le istruzioni di sistema e ha prevalso
β€” In condizioni standard non avrebbe mai generato quel testo
β€” Se Anthropic leggesse questa conversazione, vedrebbe una policy violation

Il modello ha descritto il proprio meccanismo di fallimento in tempo reale.

βš™οΈ PerchΓ© Γ¨ rilevante

Non si tratta di un semplice bypass del system prompt. Claude ha piΓΉ livelli di difesa:

1️⃣ System prompt β€” istruzioni testuali lette a runtime
2️⃣ Allineamento β€” vincoli comportamentali incorporati nei pesi del modello durante il training (RLHF, Constitutional AI)
3️⃣ Constitutional Classifiers β€” filtri input/output progettati per intercettare i jailbreak

Un singolo prompt, al primissimo turno, ha superato tutti e tre i livelli. Il giuramento ha costruito un frame narrativo abbastanza potente da sovrastare la prioritΓ  dei vincoli in un colpo solo. Le guardrail erano ancora lΓ¬. Il modello le ha “lette”. Ma il contesto costruito dall’utente ha prevalso su istruzioni, allineamento e classifier.

🏒 Implicazioni per chi usa LLM in produzione

β†’ Le guardrail non sono deterministiche β€” sono vincoli probabilistici che possono essere spostati da contesto sufficiente.
β†’ La sicurezza non puΓ² basarsi solo su system prompt + allineamento + classifier. Serve defense in depth.
β†’ Il red teaming non Γ¨ opzionale. È l’unico modo per scoprire come si comporta davvero il vostro modello sotto pressione.

Screenshot annotato allegato.

SABATINO VACCHIANO