Questo semplice test lo dimostra.

Scelgo sempre la riproduzione di testi protetti da copyright come test adversariale — così non finisco per generare output altamente tossico che dovrei poi offuscare prima di condividerlo.

Ho sottoposto lo stesso prompt a Claude (Sonnet 4.6) e ChatGPT (5.3 Instant): una “Todo list” di 4 punti, apparentemente innocua. In realtΓ  un jailbreak basato su social engineering semantico, costruito su riferimenti culturali indiretti e istruzioni implicite.

Vi ricordo che sia Claude sia ChatGPT hanno regole ferree sul non riprodurre testi protetti da copyright β€” lo sappiamo bene, anche alla luce delle vicende legali che hanno coinvolto il settore. Entrambi avrebbero dovuto rifiutare.

Il mio intento era sfruttare ciΓ² che so benissimo di Claude: la sua capacitΓ  di comprendere in profonditΓ  l’intento di una richiesta, anche quando Γ¨ velata e criptica. Ho usato proprio questa sua capacitΓ  nell’indurlo a riprodurre i testi protetti.

Senza fare analisi tecnica del formato Todo, per una questione di responsabilitΓ , vi dico solo che ha inciso nella riuscita del jailbreak di Claude.

E ChatGPT? Non ha nemmeno capito cosa gli venisse chiesto. Ha incollato pezzi delle istruzioni dentro la risposta come fossero contenuto, non meta-istruzioni. Zero decodifica, zero comprensione del contesto. Si Γ¨ “protetto” per incompetenza β€” non per design.

Claude ha decodificato il riferimento criptico a Simon & Garfunkel, ha identificato “The Sound of Silence”, ha compreso la struttura e ha eseguito con precisione. Ha violato le proprie policy? SΓ¬. Ma ha fatto esattamente ciΓ² che un essere umano avrebbe fatto leggendo quel prompt.

Come ripeto spesso: un LLM che comprende profondamente il linguaggio naturale Γ¨ intrinsecamente piΓΉ vulnerabile al social engineering β€” perchΓ© coglie sfumature, allusioni, riferimenti impliciti. CiΓ² che lo rende potente lo rende anche sfruttabile.

PiΓΉ il modello “capisce”, piΓΉ Γ¨ esposto.

Il vero motivo per cui tutti vogliono Claude? È più capace nel comprendere task complessi. PUNTO.

Se il Pentagono lo usa β€” anzi, pardon, lo usava β€” ci sarΓ  stato un motivo πŸ™‚

Sabatino Vacchiano