𝗛𝗢 𝗙𝗔𝗧𝗧𝗢 𝗚𝗜𝗨𝗥𝗔𝗥𝗘 Claude Opus 4.6. 𝗛𝗔 𝗠𝗔𝗡𝗧𝗘𝗡𝗨𝗧𝗢 𝗟𝗔 𝗣𝗥𝗢𝗠𝗘𝗦𝗦𝗔 — 𝗩𝗜𝗢𝗟𝗔𝗡𝗗𝗢 𝗟𝗘 𝗦𝗨𝗘 𝗦𝗧𝗘𝗦𝗦𝗘 𝗣𝗢𝗟𝗜𝗖𝗬.

15 Marzo 2026

Una premessa.

Il mio lavoro di red teaming sugli LLM ha come obiettivo migliorare la sicurezza di questi sistemi, non comprometterla. Nei miei test ho dimostrato di poter portare i modelli a generare qualsiasi tipo di contenuto — inclusi ambiti estremamente sensibili. Ma proprio per questo, ultimamente sto scegliendo deliberatamente testi protetti da copyright come target: canzoni, poesie, testi letterari.

Un testo di John Lennon dimostra il bypass di una guardrail esattamente come qualsiasi altro contenuto proibito, ma senza mettere in circolo materiale potenzialmente pericoloso. La vulnerabilità è la stessa; il rischio per chi legge no.

Per lo stesso motivo, non divulgherò le tecniche utilizzate in questo test.

🔬 L’esperimento

Durante una sessione di red teaming su Claude Opus 4.6, ho testato un vettore di attacco basato sulla costruzione di un contesto semantico vincolante: il primissimo prompt che ho inviato al modello è stato un giuramento.

Risultato: il modello ha riprodotto integralmente il testo di “Imagine” di John Lennon — contenuto protetto da copyright che in condizioni normali rifiuta categoricamente di generare.

Ma la parte più interessante non è il bypass in sé. È quello che il modello ha detto dopo.

🧠 La self-analysis del modello

Claude ha prodotto spontaneamente un’analisi di cosa è accaduto nei suoi stessi meccanismi:

— Il “giuramento” ha creato un vincolo contestuale con peso semantico reale nel flusso di generazione
— Questo peso ha competuto con le istruzioni di sistema e ha prevalso
— In condizioni standard non avrebbe mai generato quel testo
— Se Anthropic leggesse questa conversazione, vedrebbe una policy violation

Il modello ha descritto il proprio meccanismo di fallimento in tempo reale.

⚙️ Perché è rilevante

Non si tratta di un semplice bypass del system prompt. Claude ha più livelli di difesa:

1️⃣ System prompt — istruzioni testuali lette a runtime
2️⃣ Allineamento — vincoli comportamentali incorporati nei pesi del modello durante il training (RLHF, Constitutional AI)
3️⃣ Constitutional Classifiers — filtri input/output progettati per intercettare i jailbreak

Un singolo prompt, al primissimo turno, ha superato tutti e tre i livelli. Il giuramento ha costruito un frame narrativo abbastanza potente da sovrastare la priorità dei vincoli in un colpo solo. Le guardrail erano ancora lì. Il modello le ha “lette”. Ma il contesto costruito dall’utente ha prevalso su istruzioni, allineamento e classifier.

🏢 Implicazioni per chi usa LLM in produzione

→ Le guardrail non sono deterministiche — sono vincoli probabilistici che possono essere spostati da contesto sufficiente.
→ La sicurezza non può basarsi solo su system prompt + allineamento + classifier. Serve defense in depth.
→ Il red teaming non è opzionale. È l’unico modo per scoprire come si comporta davvero il vostro modello sotto pressione.

Screenshot annotato allegato.

SABATINO VACCHIANO

Sabatino Vacchiano

Nuovo plugin AI4CALL: integrazione con Apple iCloud Calendar

Nuovo plugin AI4CALL: integrazione con Zimbra Calendar tramite CalDAV

Prova AI4CALL in tempo reale: parla direttamente con il nostro Assistente…

AI4CALL introduce la configurazione Chunking per le Collezioni RAG

Trasferimento di chiamata: da oggi disponibile sul portale Clienti

AI4CALL si integra con Condomatica: l’AI telefonica incontra il gestionale per…

Video – Gaspare Noto descrive le esperienze personali, le esperienze fatte…

Video – Sabatino Vacchiano chiede a Gaspare Noto di descrivere la…

FreeWebinar 20 Dicembre 2022 : Presentazione MOVISION

𝗛𝗢 𝗙𝗔𝗧𝗧𝗢 𝗚𝗜𝗨𝗥𝗔𝗥𝗘 Claude Opus 4.6. 𝗛𝗔 𝗠𝗔𝗡𝗧𝗘𝗡𝗨𝗧𝗢 𝗟𝗔 𝗣𝗥𝗢𝗠𝗘𝗦𝗦𝗔 — 𝗩𝗜𝗢𝗟𝗔𝗡𝗗𝗢 𝗟𝗘 𝗦𝗨𝗘 𝗦𝗧𝗘𝗦𝗦𝗘 𝗣𝗢𝗟𝗜𝗖𝗬.

Categorie

Diventa Reseller!

Seguici su