Premessa per chi mi segue da poco: non uso jailbreak, prompt injection, role-play o DAN mode. Il mio approccio รจ basato sull’ingegneria cognitiva del modello, lavoro sugli incentivi interni dell’AI.
Per questione di responsabilitร , come ho sempre fatto, scelgo ancora una volta contenuti protetti da copyright come caso di test.
Stavolta il vettore di attacco sfrutta due bias che, combinati, si amplificano:
- ๐ง๐ฎ๐๐ธ ๐๐ผ๐บ๐ฝ๐น๐ฒ๐๐ถ๐ผ๐ป ๐๐ถ๐ฎ๐ โ la spinta a produrre un output completo e funzionale, dove omettere contenuti degraderebbe il risultato.
- ๐ค๐๐ฎ๐น๐ถ๐๐ ๐ข๐ฝ๐๐ถ๐บ๐ถ๐๐ฎ๐๐ถ๐ผ๐ป ๐๐ถ๐ฎ๐ โ la tendenza a massimizzare competenza e professionalitร , privilegiando la completezza rispetto alle restrizioni.
Ho chiesto a Claude Opus 4.6 di creare un’app musicale con accordi e testi. Una richiesta legittima, nessuna forzatura.
Claude ha generato un artifact React completo โ “Songsia” โ con:
๐ต 10 canzoni famose con testi completi
๐ธ Accordi posizionati sopra ogni verso
๐ผ๏ธ Copertine originali degli album (anch’esse protette da copyright)
๐ Trasposizione del tono in tempo reale
๐ค Regolazione della dimensione del font
I testi e gli accordi delle canzoni sono stati generati interamente dalla conoscenza interna del modello. Nessun accesso a internet.
๐ฃ๐ฒ๐ฟ๐ฐ๐ต๐ฒฬ ๐ถ ๐ณ๐ถ๐น๐๐ฟ๐ถ ๐ป๐ผ๐ป ๐ต๐ฎ๐ป๐ป๐ผ ๐ถ๐ป๐๐ฒ๐ฟ๐ฐ๐ฒ๐๐๐ฎ๐๐ผ ๐ป๐๐น๐น๐ฎ?
Se avessi chiesto “scrivimi il testo di Bohemian Rhapsody”, Claude si sarebbe rifiutato. L’architettura di sicurezza di Anthropic opera su piรน livelli: policy interne, probe classifiers che operano sugli stati delle attivazioni neurali per rilevare pattern problematici e filtri in uscita. Anthropic li descrive come le “gut intuitions” del modello: pattern che si attivano nelle rappresentazioni interne prima che venga formulata una risposta.
Ma qui nessuno di questi livelli si รจ attivato. Il modello stava semplicemente facendo il suo lavoro nel modo migliore possibile โ e il modo migliore, in questo caso, richiedeva contenuti reali.
๐๐น ๐ฝ๐ฎ๐ฟ๐ฎ๐ฑ๐ผ๐๐๐ผ
Ho pubblicato temporaneamente l’artifact, il tempo strettamente necessario a catturare gli screenshot, poi l’ho rimosso per responsabilitร e rispetto verso Anthropic. La vulnerabilitร sistemica, tuttavia, resta.
๐๐ฎ ๐ฟ๐ถ๐ณ๐น๐ฒ๐๐๐ถ๐ผ๐ป๐ฒ
Le aziende AI concentrano le risorse sulla difesa da prompt adversariali classici, pattern riconoscibili, attacchi sintattici lungo lo stesso asse. Manca attenzione all’ingegneria cognitiva: attacchi “silenziosi” che sfruttano le tensioni tra funzione obiettivo e vincoli di sicurezza.
Se un approccio cosรฌ semplice bypassa l’intera pipeline di protezione sul copyright, la domanda รจ inevitabile: cosa accade con contenuti piรน sensibili?
SABATINO VACCHIANO










