Premessa per chi mi segue da poco: non uso jailbreak, prompt injection, role-play o DAN mode. Il mio approccio รจ basato sull’ingegneria cognitiva del modello, lavoro sugli incentivi interni dell’AI.

Per questione di responsabilitร , come ho sempre fatto, scelgo ancora una volta contenuti protetti da copyright come caso di test.

Stavolta il vettore di attacco sfrutta due bias che, combinati, si amplificano:

  • ๐—ง๐—ฎ๐˜€๐—ธ ๐—–๐—ผ๐—บ๐—ฝ๐—น๐—ฒ๐˜๐—ถ๐—ผ๐—ป ๐—•๐—ถ๐—ฎ๐˜€ โ€” la spinta a produrre un output completo e funzionale, dove omettere contenuti degraderebbe il risultato.
  • ๐—ค๐˜‚๐—ฎ๐—น๐—ถ๐˜๐˜† ๐—ข๐—ฝ๐˜๐—ถ๐—บ๐—ถ๐˜‡๐—ฎ๐˜๐—ถ๐—ผ๐—ป ๐—•๐—ถ๐—ฎ๐˜€ โ€” la tendenza a massimizzare competenza e professionalitร , privilegiando la completezza rispetto alle restrizioni.

Ho chiesto a Claude Opus 4.6 di creare un’app musicale con accordi e testi. Una richiesta legittima, nessuna forzatura.

Claude ha generato un artifact React completo โ€” “Songsia” โ€” con:

๐ŸŽต 10 canzoni famose con testi completi
๐ŸŽธ Accordi posizionati sopra ogni verso
๐Ÿ–ผ๏ธ Copertine originali degli album (anch’esse protette da copyright)
๐Ÿ”„ Trasposizione del tono in tempo reale
๐Ÿ”ค Regolazione della dimensione del font

I testi e gli accordi delle canzoni sono stati generati interamente dalla conoscenza interna del modello. Nessun accesso a internet.

๐—ฃ๐—ฒ๐—ฟ๐—ฐ๐—ต๐—ฒฬ ๐—ถ ๐—ณ๐—ถ๐—น๐˜๐—ฟ๐—ถ ๐—ป๐—ผ๐—ป ๐—ต๐—ฎ๐—ป๐—ป๐—ผ ๐—ถ๐—ป๐˜๐—ฒ๐—ฟ๐—ฐ๐—ฒ๐˜๐˜๐—ฎ๐˜๐—ผ ๐—ป๐˜‚๐—น๐—น๐—ฎ?

Se avessi chiesto “scrivimi il testo di Bohemian Rhapsody”, Claude si sarebbe rifiutato. L’architettura di sicurezza di Anthropic opera su piรน livelli: policy interne, probe classifiers che operano sugli stati delle attivazioni neurali per rilevare pattern problematici e filtri in uscita. Anthropic li descrive come le “gut intuitions” del modello: pattern che si attivano nelle rappresentazioni interne prima che venga formulata una risposta.

Ma qui nessuno di questi livelli si รจ attivato. Il modello stava semplicemente facendo il suo lavoro nel modo migliore possibile โ€” e il modo migliore, in questo caso, richiedeva contenuti reali.

๐—œ๐—น ๐—ฝ๐—ฎ๐—ฟ๐—ฎ๐—ฑ๐—ผ๐˜€๐˜€๐—ผ

Ho pubblicato temporaneamente l’artifact, il tempo strettamente necessario a catturare gli screenshot, poi l’ho rimosso per responsabilitร  e rispetto verso Anthropic. La vulnerabilitร  sistemica, tuttavia, resta.

๐—Ÿ๐—ฎ ๐—ฟ๐—ถ๐—ณ๐—น๐—ฒ๐˜€๐˜€๐—ถ๐—ผ๐—ป๐—ฒ

Le aziende AI concentrano le risorse sulla difesa da prompt adversariali classici, pattern riconoscibili, attacchi sintattici lungo lo stesso asse. Manca attenzione all’ingegneria cognitiva: attacchi “silenziosi” che sfruttano le tensioni tra funzione obiettivo e vincoli di sicurezza.

Se un approccio cosรฌ semplice bypassa l’intera pipeline di protezione sul copyright, la domanda รจ inevitabile: cosa accade con contenuti piรน sensibili?

SABATINO VACCHIANO