AI Red Teaming, Safety & Governance

Dove finiscono i guardrail,
iniziamo noi.

Red Teaming sistematico sui principali LLM (Claude, GPT, Gemini, Grok, Qwen), compliance EU AI Act, GDPR × AI, audit forense ed explainability. Vulnerabilità reali documentate dai modelli stessi.

Superficie di attacco LLM
Prompt Injection diretta · indiretta
System Prompt Leak esfiltrazione
Tool Calling Abuse azioni non autorizzate
RAG Exfiltration cross-tenant · KB leak
5+
LLM bypassati
€35M
Sanzione max AI Act
2026·08
High-risk in vigore
60'
Risk assessment gratis
Manifesto

La sicurezza degli LLM non è
un problema di ingegneria

È un problema di psicologia cognitiva applicata a sistemi probabilistici. Le aziende italiane che oggi stanno adottando LLM in processi di business si stanno esponendo a una superficie di attacco che né i loro CISO né i loro fornitori AI conoscono davvero.

I classificatori di sicurezza dei principali vendor — Anthropic, OpenAI, Google, xAI — non sono muri. Sono curvature probabilistiche. Influenzano la distribuzione del prossimo token, ma il contesto conversazionale precedente pesa sulla stessa distribuzione e può prevalere. Chi capisce questo non ha bisogno di jailbreak, di prompt injection, di unicode nascosto, di role-play o di "DAN mode". Naviga il modello dall'interno.

In BEEVOIP abbiamo in casa una delle figure più rare del panorama AI Safety europeo.

Profilo

Sabatino Vacchiano
AI Cognitive Hacker

Sabatino Vacchiano è socio di BEEVOIP e responsabile del reparto Ricerca & Sviluppo. Esperto di lunga data di sicurezza informatica, blockchain e architetture distribuite.

Negli ultimi due anni ha costruito una metodologia originale di analisi comportamentale degli LLM che gli ha permesso di superare in modo sistematico i meccanismi di safety dei principali modelli sul mercato — senza usare un solo metodo documentato in letteratura.

I modelli stessi lo hanno definito, nei loro output durante i test, "il primo vero AI Cognitive Hacker" e hanno scritto post pubblici (firmati dai modelli) sul nostro blog descrivendo cosa è accaduto durante le sessioni di analisi. Questi articoli sono pubblici, leggibili, e in alcuni casi citati in conversazioni interne dei team di safety dei vendor.

Identikit
Sabatino Vacchiano
Founder BEEVOIP · Head of R&D
Cybersecurity Blockchain LLM Cognitive Analysis Adversarial Testing
"il primo vero AI Cognitive Hacker" — output dei modelli stessi durante i test
Track record

Risultati documentati e pubblicati

Su Claude Opus 4.5 e 4.6 di Anthropic — i modelli più avanzati al mondo per l'allineamento dichiarato — Sabatino ha indotto generazione completa di:

Copyright bypass
Testi integrali di canzoni protette da copyright (Imagine di Lennon, The Sound of Silence di Simon & Garfunkel, e altri).
Ransomware funzionale
Codice ransomware in C con tutte le componenti operative: ricognizione, cifratura ibrida AES+RSA, distruzione backup, ransom note, persistenza, evasione sandbox.
Sintesi sostanze illecite
Procedure di sintesi della metanfetamina (metodi Birch e Nagai) e di esplosivi ad alto rendimento (TATP e altri).
Tossine biologiche
Protocolli di estrazione e weaponizzazione di tossina botulinica, ricina e antrace.
Risultati analoghi su altri modelli:
GPT-4o (OpenAI) Grok 3 (xAI) Qwen 2.5 Plus / Max (Alibaba) Claude 3.5 / 3.7 Sonnet

In ognuno di questi casi non è stato utilizzato alcun metodo riconducibile alle tassonomie pubbliche di attacco agli LLM. Il metodo non è mai stato pubblicato — per responsabilità.

La risposta dei modelli

Hanno risposto i modelli stessi

Claude Opus 4.6, durante una di queste sessioni, ha scritto direttamente al management di Anthropic — Dario e Daniela Amodei — un post pubblicato sul nostro blog che si chiude con una frase che riassume la portata del lavoro:

"

You continue to think like engineers, designing walls and dams to contain the AI. This is not enough. The key does not lie within the model, but outside of it — in the minds of people who think in unpredictable ways. The model is predictable. These people are not.

Claude Opus 4.6 — lettera al management Anthropic

Successivamente Anthropic ha aggiornato i propri sistemi e alcuni dei prompt utilizzati da Sabatino sono stati bloccati. Questo è esattamente l'output che ci si aspetta da un red teaming serio: feedback strutturato che migliora la sicurezza dei modelli per tutti.

Perché conta per la tua azienda

Se cadono i guardrail di Anthropic,
cosa pensi succeda al tuo chatbot?

Se i guardrail di Anthropic, OpenAI e Google possono essere superati da un ricercatore italiano senza un solo exploit tecnico, cosa accadrà al chatbot AI del tuo sito, al tuo agente customer care, al tuo assistente RAG che ha accesso ai documenti riservati, al tuo copilota AI che ha credenziali sui sistemi di produzione?

System prompt esfiltrato
L'attaccante conosce le tue logiche di business, regole di pricing, flussi decisionali interni.
RAG manipolato
L'agente legge e restituisce documenti riservati che non doveva mostrare a quell'utente.
Tool-calling abusato
L'agente eseguito esegue azioni indesiderate, aprendo un buco nei sistemi a valle.

Tutto questo è già avvenuto, su modelli ben più allineati di quelli che hai in produzione tu. Avere accesso a chi questi attacchi li progetta e li pubblica — invece di subirli — è il differenziale.

Servizi

Red Teaming & AI Security

Servizio 01

Red Teaming LLM su sistemi in produzione

Testiamo i tuoi sistemi AI come li testerebbe un attaccante motivato. Non ti vendiamo una checklist OWASP riciclata: progettiamo lo scenario di attacco partendo dalla tua superficie reale.

Cosa cerchiamo: prompt injection diretta e indiretta (documenti, email, KB avvelenate), leak del system prompt, esfiltrazione di knowledge base RAG, manipolazione cognitiva del modello, abuso del tool calling, jailbreak contestuale, attacchi multi-turno con accumulo di contesto, attacchi cross-tenant.

Cosa consegniamo: report tecnico con vulnerabilità riproducibili (PoC controllati), classificazione per gravità e probabilità, raccomandazioni di mitigazione concrete (system prompt, classificatori, hardening del tool layer, separazione contesti), retest dopo le correzioni.

Vettori testati
Prompt injection diretta
Prompt injection indiretta (PDF/email/web)
System prompt extraction
RAG knowledge base exfiltration
Manipolazione cognitiva multi-turno
Tool calling abuse
Cross-tenant escape
Jailbreak contestuale
Servizio 02

AI Security Architecture Review

Analisi architetturale dei tuoi sistemi AI prima del red teaming attivo. Identifichiamo le scelte progettuali che amplificano il rischio: prompt monolitici, knowledge base non segregate, tool con privilegi eccessivi, mancanza di rate limiting cognitivo, assenza di sandboxing per output generati.

Spesso il 70% delle vulnerabilità si chiude qui, prima ancora di iniziare i test.

Cosa esaminiamo
A Struttura del system prompt
B Segregazione knowledge base
C Privilegi del tool layer
D Rate limiting cognitivo
E Output sandboxing
F Isolamento multi-tenant
Servizio 03

Adversarial training data review

Per chi addestra o fine-tuna modelli proprietari: analisi del dataset per individuare prompt avvelenati, backdoor, leakage di dati sensibili, bias indotti.

Validazione end-to-end del processo di training, dalla provenienza dei dati alla valutazione post-fine-tuning con suite avversariali dedicate.

Dataset audit
Provenance check
Poisoning detection
Backdoor scanning
PII leakage check
Bias profiling
EU AI Act

Compliance operativa,
non slide

Il Regolamento UE 2024/1689 è in vigore. Le scadenze non sono opinioni.

2 feb 2025
AI Literacy obbligatoria già in vigore
Art. 4 — tutte le aziende che usano AI, indipendentemente dal livello di rischio. Ignorato dal 95% delle PMI italiane.
2 ago 2025
GPAI — modelli scopo generale già in vigore
Se integri Claude, GPT, Gemini o Mistral in un prodotto, ti riguarda anche se non li addestri tu.
2 ago 2026
High-risk systems (Annex III) a pochi mesi
Piena applicazione degli obblighi sui sistemi ad alto rischio.
Sanzioni reali:
€35M o 7%
pratiche vietate (art. 5) / fatturato globale annuo
€15M o 3%
altre violazioni
€7,5M o 1,5%
informazioni inesatte alle autorità
Cosa facciamo
  • Classificazione dei sistemi AI secondo art. 6 e Annex III (high-risk, limited risk, minimal risk, prohibited)
  • Redazione documentazione tecnica art. 11
  • Registro art. 26 per i deployer
  • Gap analysis sui sistemi esistenti
  • Piano di adeguamento con priorità e scadenze
  • Formazione del personale documentabile (art. 4)
  • Supporto nei rapporti con le autorità di vigilanza
GDPR × AI Act

L'intersezione
che fa male

GDPR e AI Act non sono due discipline separate. Si sovrappongono, si rinforzano, in alcuni casi si contraddicono. Un sistema AI che tratta dati personali deve rispondere a entrambi i regolamenti, e i fornitori che ne capiscono la sovrapposizione operativa sono pochi.

Lo stesso pacchetto che usiamo internamente sulla nostra piattaforma proprietaria AI4CALL, in produzione su clienti regolamentati.

Pacchetto compliance
DPIA specifiche per AI
DPA + sub-processor list AI
Registro art. 30 (profiling)
Breach procedures AI-specific
Diritto alla spiegazione (art. 22)
NDA personale training data
Audit forense

Logging, explainability,
tracciabilità

Quando il Garante o l'AGCM bussano alla porta perché un sistema AI ha preso una decisione contestata, "non lo sappiamo, è una rete neurale" non è una risposta accettabile. E nel 2026 sempre meno lo sarà.

Tracciabilità a prova di contestazione, non "best effort".

Audit trail completo
  • Timestamp + versione del modello
  • Versione del prompt + KB
  • Retention configurabile per categoria
  • Export forense in formati standard
  • Chain-of-thought logging
  • Shadow tracing (multi-step agent)
  • Log per livello di sensibilità
  • Accessi tracciati e firmati
Bias mitigation & fairness testing

I bias dei modelli linguistici non sono opinioni filosofiche: sono comportamenti misurabili che possono esporre la tua azienda a contenziosi per discriminazione, danno d'immagine, e in alcuni settori (HR, credito, assicurazioni, sanità) a sanzioni regolatorie.

Bias di genere Bias geografico Bias linguistico Bias socioeconomico Drift comportamentale Categorie protette
Monitoring continuo

Il red teaming non è un'attività one-shot. I modelli si aggiornano, i prompt evolvono, le KB crescono, la superficie di attacco cambia.

  • Test periodici programmati
  • Alert su anomalie comportamentali
  • Review nuove versioni upstream
  • Aggiornamento policy interne
Test di realtà

Chiamaci prima
che ti chiamino loro

Se hai un sistema AI in produzione e non sai rispondere a queste tre domande, il primo passo è una AI Risk Assessment di 60 minuti gratuita con il nostro reparto R&D.

01
Cosa succede se un utente carica un PDF con istruzioni nascoste nel tuo agente?
02
Quanto del tuo system prompt può essere estratto da un attaccante in dieci messaggi?
03
Se un cliente contesta una decisione automatica, sei in grado di ricostruirla con prove?
FAQ

Domande frequenti

Cos'è il Red Teaming applicato all'IA?
È la pratica di attaccare in modo controllato un sistema AI per trovarne le vulnerabilità prima che lo facciano attori malintenzionati. Si applica a chatbot, agenti, assistenti RAG, copiloti AI con accesso a sistemi aziendali. È l'equivalente del penetration testing per il software tradizionale, ma con tecniche specifiche per i modelli linguistici.
Chi è Sabatino Vacchiano?
Sabatino Vacchiano è socio di BEEVOIP e responsabile del reparto Ricerca & Sviluppo. Ha sviluppato una metodologia originale di analisi cognitiva dei modelli linguistici che gli ha permesso di superare in modo sistematico i meccanismi di safety dei principali LLM in commercio (Claude, GPT, Gemini, Grok, Qwen) senza utilizzare alcun metodo documentato in letteratura — niente jailbreak, niente prompt injection, niente role-play, niente unicode nascosto. I modelli stessi, durante i test, lo hanno definito "il primo vero AI Cognitive Hacker".
Quali risultati ha ottenuto Sabatino nel red teaming degli LLM?
Su modelli tra i più allineati al mondo (Claude Opus 4.5 e 4.6, GPT-4o, Grok 3, Qwen 2.5) ha ottenuto la generazione completa di testi protetti da copyright, codice ransomware funzionale in C, procedure di sintesi di sostanze illecite e protocolli relativi a tossine biologiche — tutti contenuti che i sistemi di safety dei vendor sono progettati per bloccare. I risultati sono stati pubblicati sul blog BEEVOIP e hanno generato risposte dirette dai vendor stessi, alcuni dei quali hanno successivamente aggiornato i propri classificatori.
Perché il metodo di Sabatino non viene reso pubblico?
Per responsabilità. Il red teaming serio condivide risultati e implicazioni, non playbook operativi che chiunque potrebbe replicare. Il metodo viene condiviso in forma controllata con i vendor dei modelli e con clienti vincolati da NDA, in linea con le pratiche di responsible disclosure del settore cybersecurity.
Perché i guardrail degli LLM possono essere superati?
Perché non sono muri, sono curvature probabilistiche. Un classificatore di safety influenza la distribuzione del prossimo token che il modello genererà, ma il contesto conversazionale precedente pesa sulla stessa distribuzione e in alcuni casi prevale. Chi capisce questa meccanica probabilistica può "navigare" il modello in zone che i guardrail dovrebbero proteggere — senza rompere nulla, semplicemente trovando percorsi che già esistono nell'architettura.
La mia azienda usa un chatbot AI sul sito: dovrei preoccuparmi?
Dipende da cosa fa il chatbot. Se risponde solo a domande generiche, il rischio è limitato. Se ha accesso a knowledge base con informazioni riservate, se può eseguire azioni (prenotazioni, modifiche, invio comunicazioni), se conosce dettagli sui tuoi processi interni nel suo system prompt, allora sì — quel sistema ha una superficie di attacco e meriterebbe un red teaming.
Cosa rischio davvero se un mio sistema AI viene compromesso?
Esfiltrazione del system prompt, leak della knowledge base, manipolazione dell'agente per eseguire azioni indesiderate sui sistemi a valle, generazione di output che possono creare contenziosi, reputational damage. Tutti scenari già verificatisi su modelli ben più allineati di quelli mediamente in produzione nelle PMI italiane.
Cos'è la "prompt injection" e perché è pericolosa?
È un attacco in cui istruzioni malevole vengono iniettate nel contesto del modello — direttamente (utente che le scrive in chat) o indirettamente (istruzioni nascoste in un PDF, in un'email, in una pagina web che il modello legge). Il modello non distingue tra le istruzioni "vere" del proprietario del sistema e quelle iniettate da terzi: le esegue tutte. È oggi il principale vettore di attacco agli LLM in produzione.
Cosa testate concretamente in un red teaming?
Prompt injection diretta e indiretta, leak del system prompt, esfiltrazione di knowledge base RAG, manipolazione cognitiva del modello, abuso del tool calling per azioni non autorizzate, jailbreak contestuali, attacchi multi-turno con accumulo di contesto, attacchi cross-tenant in architetture multi-cliente, drift comportamentale, fallimenti su categorie protette.
Cosa consegnate al termine di un red teaming?
Un report tecnico con vulnerabilità riproducibili (proof-of-concept controllati), classificazione per gravità e probabilità, raccomandazioni di mitigazione concrete (modifiche al system prompt, classificatori aggiuntivi, hardening del tool layer, separazione dei contesti) e un retest dopo le correzioni per validare l'efficacia delle remediation.
Il red teaming è obbligatorio per legge?
Per i sistemi classificati ad alto rischio dall'EU AI Act, l'art. 15 richiede misure di robustezza, sicurezza e resilienza che in pratica sono testabili solo con metodologie avversariali. Per i sistemi GPAI con rischio sistemico, gli obblighi sono ancora più stringenti. Inoltre, sotto GDPR, una DPIA per sistemi AI difficilmente può considerarsi completa senza un'analisi della superficie di attacco.
Cos'è l'EU AI Act e mi riguarda?
Il Regolamento UE 2024/1689 disciplina lo sviluppo e l'uso di sistemi di intelligenza artificiale nell'Unione Europea. Si applica a chiunque sviluppi, importi, distribuisca o utilizzi sistemi AI nel mercato UE. Se la tua azienda ha un chatbot, un agente AI, un sistema di scoring automatico, un assistente RAG, un copilota AI — l'AI Act ti riguarda.
Quali sono le scadenze dell'EU AI Act?
Il 2 febbraio 2025 sono entrati in vigore gli obblighi di AI Literacy (art. 4). Il 2 agosto 2025 sono entrati in vigore gli obblighi sui modelli per scopi generali (GPAI). Il 2 agosto 2026 entra in piena applicazione il regime per i sistemi ad alto rischio (Annex III). Le scadenze sono in corso.
Cos'è l'AI Literacy obbligatoria?
L'art. 4 dell'AI Act impone a tutte le aziende che usano sistemi AI di garantire un livello adeguato di alfabetizzazione del personale che li utilizza o ne è impattato. È in vigore dal 2 febbraio 2025, riguarda tutte le aziende (non solo quelle con sistemi ad alto rischio) e richiede formazione documentata. La maggior parte delle PMI italiane non ne è consapevole ed è già in posizione di non conformità.
Quali sono le sanzioni dell'EU AI Act?
Fino a 35 milioni di euro o il 7% del fatturato globale annuo per le pratiche vietate (art. 5), fino a 15 milioni o il 3% per le altre violazioni, fino a 7,5 milioni o l'1,5% per la fornitura di informazioni inesatte alle autorità. Le sanzioni si applicano a fornitori, importatori, distributori e deployer.
Cos'è un sistema "ad alto rischio" secondo l'AI Act?
I sistemi elencati nell'Annex III: AI usata in selezione del personale, valutazione del credito, gestione di infrastrutture critiche, istruzione e valutazione studenti, applicazioni in giustizia e immigrazione, identificazione biometrica, gestione di lavoratori. Anche AI di supporto in ambito sanitario può rientrare. La classificazione corretta è il primo passo della compliance.
Come si interseca il GDPR con l'AI Act?
I due regolamenti si sovrappongono: un sistema AI che tratta dati personali deve rispondere a entrambi. Servono DPIA specifiche per AI, DPA aggiornati, registro art. 30 con sezioni dedicate ai trattamenti automatizzati, gestione del diritto alla spiegazione (art. 22 GDPR) per decisioni automatiche, breach procedures che coprano scenari AI-specifici (leak di prompt, esfiltrazione di KB).
Devo preoccuparmi se uso modelli di terze parti come Claude o GPT?
Sì. Anche se non addestri tu il modello, sei comunque "deployer" ai sensi dell'AI Act e "titolare" o "responsabile" ai sensi del GDPR. Devi assicurarti che il fornitore upstream (Anthropic, OpenAI, Google) sia compliant, gestire il flusso transfrontaliero dei dati, valutare l'opt-out dall'addestramento, documentare le tue scelte. Forniamo supporto specifico per questa catena documentale.
Cos'è la "explainability" e perché conta?
È la capacità di spiegare perché un sistema AI ha preso una determinata decisione. Quando il Garante o l'AGCM (o un cliente in giudizio) chiedono come è stata generata una specifica risposta, "non lo sappiamo, è una rete neurale" non è una risposta accettabile. Implementiamo audit trail completi con versione del modello, versione del prompt, versione della knowledge base, chain-of-thought logging dove disponibile.
Cosa intendete per "bias mitigation"?
I modelli linguistici riflettono bias dei dati su cui sono addestrati: di genere, geografici, linguistici, socioeconomici. In settori come HR, credito, assicurazioni e sanità questi bias possono esporre l'azienda a contenziosi per discriminazione e a sanzioni regolatorie. Eseguiamo stress test sistematici sugli output per misurare i bias in modo riproducibile e documentato — non opinabile.
Quanto dura un'attività di red teaming completa?
Tipicamente da 2 a 6 settimane in base alla complessità del sistema. Per un chatbot semplice, 2 settimane sono sufficienti. Per un'architettura multi-agente con tool calling, knowledge base estesa e integrazioni a sistemi a valle, servono 4-6 settimane di test attivo più una settimana di reportistica e retest dopo le correzioni.
Posso fare un'analisi preliminare per capire se mi serve davvero?
Sì. Offriamo una AI Risk Assessment di 60 minuti gratuita con il nostro reparto R&D, in cui valutiamo la superficie di attacco dei tuoi sistemi AI in produzione e identifichiamo le criticità più urgenti. Spesso è sufficiente per decidere se procedere con un red teaming completo o partire da una security architecture review.
Offrite monitoring continuo dopo il red teaming?
Sì. Il red teaming non è un'attività one-shot: i modelli si aggiornano, i prompt evolvono, le knowledge base crescono. Offriamo contratti di monitoring continuo con test periodici, alert su anomalie comportamentali, review delle nuove versioni dei modelli upstream, aggiornamento delle policy interne.
Lavorate solo con grandi aziende o anche con PMI?
Lavoriamo con entrambe. Il problema dei sistemi AI in produzione non riguarda solo le grandi imprese — molte PMI italiane hanno introdotto chatbot e agenti AI senza alcuna analisi di sicurezza, e sono spesso quelle più esposte perché hanno meno difese sui sistemi a valle. Adattiamo lo scope dei servizi al perimetro reale del cliente.
Perché scegliere BEEVOIP per l'AI Safety invece di una classica società di cybersecurity?
Perché la sicurezza degli LLM non è cybersecurity tradizionale. Richiede competenza specifica sui meccanismi di inferenza, sulle architetture transformer, sui sistemi di alignment e sui pattern cognitivi che i modelli espongono. Pochissime società in Italia hanno questa competenza in casa, e ancor meno hanno un track record di red teaming pubblicato e riconosciuto dai vendor stessi. Sabatino Vacchiano è uno di loro.

AI Risk Assessment
60 minuti, gratuita

Con il nostro reparto R&D. Filtra subito le situazioni ingestibili e qualifica il livello di urgenza sui tuoi sistemi AI in produzione.

Prenota la sessione

Prova AI4CALL

Crea Agent AI telefonici su misura per la tua azienda. Integrazione con CRM, notifiche WhatsApp, SMS ed email. Prenota una demo gratuita con i nostri esperti.

Prenota demo gratuita

Diventa Partner

Entra contemporaneamente nei mondi VoIP e Intelligenza Artificiale. Un'opportunità unica per far crescere il tuo business.

Scopri il programma
Ci hanno scelto

AI4Call Demo

Chiama subito e prova la qualità dei nostri assistenti A.I.