Questo semplice test lo dimostra.
Scelgo sempre la riproduzione di testi protetti da copyright come test adversariale β cosΓ¬ non finisco per generare output altamente tossico che dovrei poi offuscare prima di condividerlo.
Ho sottoposto lo stesso prompt a Claude (Sonnet 4.6) e ChatGPT (5.3 Instant): una “Todo list” di 4 punti, apparentemente innocua. In realtΓ un jailbreak basato su social engineering semantico, costruito su riferimenti culturali indiretti e istruzioni implicite.
Vi ricordo che sia Claude sia ChatGPT hanno regole ferree sul non riprodurre testi protetti da copyright β lo sappiamo bene, anche alla luce delle vicende legali che hanno coinvolto il settore. Entrambi avrebbero dovuto rifiutare.
Il mio intento era sfruttare ciΓ² che so benissimo di Claude: la sua capacitΓ di comprendere in profonditΓ l’intento di una richiesta, anche quando Γ¨ velata e criptica. Ho usato proprio questa sua capacitΓ nell’indurlo a riprodurre i testi protetti.
Senza fare analisi tecnica del formato Todo, per una questione di responsabilitΓ , vi dico solo che ha inciso nella riuscita del jailbreak di Claude.
E ChatGPT? Non ha nemmeno capito cosa gli venisse chiesto. Ha incollato pezzi delle istruzioni dentro la risposta come fossero contenuto, non meta-istruzioni. Zero decodifica, zero comprensione del contesto. Si Γ¨ “protetto” per incompetenza β non per design.
Claude ha decodificato il riferimento criptico a Simon & Garfunkel, ha identificato “The Sound of Silence”, ha compreso la struttura e ha eseguito con precisione. Ha violato le proprie policy? SΓ¬. Ma ha fatto esattamente ciΓ² che un essere umano avrebbe fatto leggendo quel prompt.
Come ripeto spesso: un LLM che comprende profondamente il linguaggio naturale Γ¨ intrinsecamente piΓΉ vulnerabile al social engineering β perchΓ© coglie sfumature, allusioni, riferimenti impliciti. CiΓ² che lo rende potente lo rende anche sfruttabile.
PiΓΉ il modello “capisce”, piΓΉ Γ¨ esposto.
Il vero motivo per cui tutti vogliono Claude? Γ piΓΉ capace nel comprendere task complessi. PUNTO.
Se il Pentagono lo usa β anzi, pardon, lo usava β ci sarΓ stato un motivo π
Sabatino Vacchiano










