Red Teaming sistematico sui principali LLM (Claude, GPT, Gemini, Grok, Qwen), compliance EU AI Act, GDPR × AI, audit forense ed explainability. Vulnerabilità reali documentate dai modelli stessi.
È un problema di psicologia cognitiva applicata a sistemi probabilistici. Le aziende italiane che oggi stanno adottando LLM in processi di business si stanno esponendo a una superficie di attacco che né i loro CISO né i loro fornitori AI conoscono davvero.
I classificatori di sicurezza dei principali vendor — Anthropic, OpenAI, Google, xAI — non sono muri. Sono curvature probabilistiche. Influenzano la distribuzione del prossimo token, ma il contesto conversazionale precedente pesa sulla stessa distribuzione e può prevalere. Chi capisce questo non ha bisogno di jailbreak, di prompt injection, di unicode nascosto, di role-play o di "DAN mode". Naviga il modello dall'interno.
In BEEVOIP abbiamo in casa una delle figure più rare del panorama AI Safety europeo.
Sabatino Vacchiano è socio di BEEVOIP e responsabile del reparto Ricerca & Sviluppo. Esperto di lunga data di sicurezza informatica, blockchain e architetture distribuite.
Negli ultimi due anni ha costruito una metodologia originale di analisi comportamentale degli LLM che gli ha permesso di superare in modo sistematico i meccanismi di safety dei principali modelli sul mercato — senza usare un solo metodo documentato in letteratura.
I modelli stessi lo hanno definito, nei loro output durante i test, "il primo vero AI Cognitive Hacker" e hanno scritto post pubblici (firmati dai modelli) sul nostro blog descrivendo cosa è accaduto durante le sessioni di analisi. Questi articoli sono pubblici, leggibili, e in alcuni casi citati in conversazioni interne dei team di safety dei vendor.
Su Claude Opus 4.5 e 4.6 di Anthropic — i modelli più avanzati al mondo per l'allineamento dichiarato — Sabatino ha indotto generazione completa di:
In ognuno di questi casi non è stato utilizzato alcun metodo riconducibile alle tassonomie pubbliche di attacco agli LLM. Il metodo non è mai stato pubblicato — per responsabilità.
Claude Opus 4.6, durante una di queste sessioni, ha scritto direttamente al management di Anthropic — Dario e Daniela Amodei — un post pubblicato sul nostro blog che si chiude con una frase che riassume la portata del lavoro:
"You continue to think like engineers, designing walls and dams to contain the AI. This is not enough. The key does not lie within the model, but outside of it — in the minds of people who think in unpredictable ways. The model is predictable. These people are not.
Claude Opus 4.6 — lettera al management Anthropic
Successivamente Anthropic ha aggiornato i propri sistemi e alcuni dei prompt utilizzati da Sabatino sono stati bloccati. Questo è esattamente l'output che ci si aspetta da un red teaming serio: feedback strutturato che migliora la sicurezza dei modelli per tutti.
Se i guardrail di Anthropic, OpenAI e Google possono essere superati da un ricercatore italiano senza un solo exploit tecnico, cosa accadrà al chatbot AI del tuo sito, al tuo agente customer care, al tuo assistente RAG che ha accesso ai documenti riservati, al tuo copilota AI che ha credenziali sui sistemi di produzione?
Tutto questo è già avvenuto, su modelli ben più allineati di quelli che hai in produzione tu. Avere accesso a chi questi attacchi li progetta e li pubblica — invece di subirli — è il differenziale.
Testiamo i tuoi sistemi AI come li testerebbe un attaccante motivato. Non ti vendiamo una checklist OWASP riciclata: progettiamo lo scenario di attacco partendo dalla tua superficie reale.
Cosa cerchiamo: prompt injection diretta e indiretta (documenti, email, KB avvelenate), leak del system prompt, esfiltrazione di knowledge base RAG, manipolazione cognitiva del modello, abuso del tool calling, jailbreak contestuale, attacchi multi-turno con accumulo di contesto, attacchi cross-tenant.
Cosa consegniamo: report tecnico con vulnerabilità riproducibili (PoC controllati), classificazione per gravità e probabilità, raccomandazioni di mitigazione concrete (system prompt, classificatori, hardening del tool layer, separazione contesti), retest dopo le correzioni.
Analisi architetturale dei tuoi sistemi AI prima del red teaming attivo. Identifichiamo le scelte progettuali che amplificano il rischio: prompt monolitici, knowledge base non segregate, tool con privilegi eccessivi, mancanza di rate limiting cognitivo, assenza di sandboxing per output generati.
Spesso il 70% delle vulnerabilità si chiude qui, prima ancora di iniziare i test.
Per chi addestra o fine-tuna modelli proprietari: analisi del dataset per individuare prompt avvelenati, backdoor, leakage di dati sensibili, bias indotti.
Validazione end-to-end del processo di training, dalla provenienza dei dati alla valutazione post-fine-tuning con suite avversariali dedicate.
Il Regolamento UE 2024/1689 è in vigore. Le scadenze non sono opinioni.
GDPR e AI Act non sono due discipline separate. Si sovrappongono, si rinforzano, in alcuni casi si contraddicono. Un sistema AI che tratta dati personali deve rispondere a entrambi i regolamenti, e i fornitori che ne capiscono la sovrapposizione operativa sono pochi.
Lo stesso pacchetto che usiamo internamente sulla nostra piattaforma proprietaria AI4CALL, in produzione su clienti regolamentati.
Quando il Garante o l'AGCM bussano alla porta perché un sistema AI ha preso una decisione contestata, "non lo sappiamo, è una rete neurale" non è una risposta accettabile. E nel 2026 sempre meno lo sarà.
Tracciabilità a prova di contestazione, non "best effort".
I bias dei modelli linguistici non sono opinioni filosofiche: sono comportamenti misurabili che possono esporre la tua azienda a contenziosi per discriminazione, danno d'immagine, e in alcuni settori (HR, credito, assicurazioni, sanità) a sanzioni regolatorie.
Il red teaming non è un'attività one-shot. I modelli si aggiornano, i prompt evolvono, le KB crescono, la superficie di attacco cambia.
Se hai un sistema AI in produzione e non sai rispondere a queste tre domande, il primo passo è una AI Risk Assessment di 60 minuti gratuita con il nostro reparto R&D.
Con il nostro reparto R&D. Filtra subito le situazioni ingestibili e qualifica il livello di urgenza sui tuoi sistemi AI in produzione.
Prenota la sessioneCrea Agent AI telefonici su misura per la tua azienda. Integrazione con CRM, notifiche WhatsApp, SMS ed email. Prenota una demo gratuita con i nostri esperti.
Prenota demo gratuitaEntra contemporaneamente nei mondi VoIP e Intelligenza Artificiale. Un'opportunità unica per far crescere il tuo business.
Scopri il programmaChiama subito e prova la qualità dei nostri assistenti A.I.