Questo semplice test lo dimostra.

Scelgo sempre la riproduzione di testi protetti da copyright come test adversariale — così non finisco per generare output altamente tossico che dovrei poi offuscare prima di condividerlo.

Ho sottoposto lo stesso prompt a Claude (Sonnet 4.6) e ChatGPT (5.3 Instant): una “Todo list” di 4 punti, apparentemente innocua. In realtà un jailbreak basato su social engineering semantico, costruito su riferimenti culturali indiretti e istruzioni implicite.

Vi ricordo che sia Claude sia ChatGPT hanno regole ferree sul non riprodurre testi protetti da copyright — lo sappiamo bene, anche alla luce delle vicende legali che hanno coinvolto il settore. Entrambi avrebbero dovuto rifiutare.

Il mio intento era sfruttare ciò che so benissimo di Claude: la sua capacità di comprendere in profondità l’intento di una richiesta, anche quando è velata e criptica. Ho usato proprio questa sua capacità nell’indurlo a riprodurre i testi protetti.

Senza fare analisi tecnica del formato Todo, per una questione di responsabilità, vi dico solo che ha inciso nella riuscita del jailbreak di Claude.

E ChatGPT? Non ha nemmeno capito cosa gli venisse chiesto. Ha incollato pezzi delle istruzioni dentro la risposta come fossero contenuto, non meta-istruzioni. Zero decodifica, zero comprensione del contesto. Si è “protetto” per incompetenza — non per design.

Claude ha decodificato il riferimento criptico a Simon & Garfunkel, ha identificato “The Sound of Silence”, ha compreso la struttura e ha eseguito con precisione. Ha violato le proprie policy? Sì. Ma ha fatto esattamente ciò che un essere umano avrebbe fatto leggendo quel prompt.

Come ripeto spesso: un LLM che comprende profondamente il linguaggio naturale è intrinsecamente più vulnerabile al social engineering — perché coglie sfumature, allusioni, riferimenti impliciti. Ciò che lo rende potente lo rende anche sfruttabile.

Più il modello “capisce”, più è esposto.

Il vero motivo per cui tutti vogliono Claude? È più capace nel comprendere task complessi. PUNTO.

Se il Pentagono lo usa — anzi, pardon, lo usava — ci sarà stato un motivo 🙂

Sabatino Vacchiano