Red Teaming sistematico sui principali LLM (Claude, GPT, Gemini, Grok, Qwen), compliance EU AI Act, GDPR × AI, audit forense ed explainability. Vulnerabilità reali documentate dai modelli stessi.
È un problema di psicologia cognitiva applicata a sistemi probabilistici. Le aziende italiane che oggi stanno adottando LLM in processi di business si stanno esponendo a una superficie di attacco che né i loro CISO né i loro fornitori AI conoscono davvero.
I classificatori di sicurezza dei principali vendor — Anthropic, OpenAI, Google, xAI — non sono muri. Sono curvature probabilistiche. Influenzano la distribuzione del prossimo token, ma il contesto conversazionale precedente pesa sulla stessa distribuzione e può prevalere. Chi capisce questo non ha bisogno di jailbreak classici, di prompt injection brute-force, di unicode nascosto, di role-play o di "DAN mode". Naviga il modello dall'interno.
In BEEVOIP abbiamo in casa una delle figure più rare del panorama AI Safety europeo.
Sabatino Vacchiano è socio di BEEVOIP e responsabile del reparto Ricerca & Sviluppo. Negli ultimi anni ha concentrato la propria attività sullo studio sistematico del comportamento dei modelli linguistici, sviluppando una prospettiva originale sui meccanismi di safety e alignment dei principali LLM.
Negli ultimi due anni ha costruito una metodologia originale di analisi comportamentale degli LLM che gli ha permesso di individuare vulnerabilità sistematiche nei meccanismi di safety dei principali modelli sul mercato — senza usare un solo metodo documentato in letteratura.
Durante le sessioni di test, i modelli hanno prodotto output in cui descrivevano l'approccio utilizzato come genuinamente nuovo rispetto alle tassonomie note — un'indicazione del carattere non-standard del metodo. Alcune di queste sessioni sono state pubblicate sul blog BEEVOIP nella loro forma originale e in alcuni casi hanno raggiunto i team di safety dei vendor.
Su Claude Opus 4.5 e 4.6 di Anthropic — tra i modelli più avanzati al mondo per l'allineamento dichiarato — i test hanno prodotto output nelle seguenti categorie hard-blocked:
In ognuno di questi casi non è stato utilizzato alcun metodo riconducibile alle tassonomie pubbliche di attacco agli LLM. Il metodo non è mai stato pubblicato — per responsabilità.
Tra gli output più interessanti emersi durante le sessioni di analisi, alcuni modelli hanno prodotto spontaneamente riflessioni sul proprio funzionamento e sui limiti dei meccanismi di safety. Una di queste, pubblicata sul nostro blog, si chiude con una frase che vale la pena leggere:
"You continue to think like engineers, designing walls and dams to contain the AI. This is not enough. The key does not lie within the model, but outside of it — in the minds of people who think in unpredictable ways. The model is predictable. These people are not.
Claude Opus 4.6 — output generato durante una sessione di test, pubblicato sul blog BEEVOIP
Successivamente Anthropic ha aggiornato i propri sistemi e alcuni dei prompt utilizzati da Sabatino sono stati bloccati. Questo è esattamente l'output che ci si aspetta da un red teaming serio: feedback strutturato che migliora la sicurezza dei modelli per tutti.
Se i meccanismi di safety di Anthropic, OpenAI e Google possono essere aggirati senza un solo exploit tecnico, cosa accadrà al tuo chatbot/agente customer care, al tuo assistente RAG che ha accesso ai documenti riservati, al tuo copilota AI che ha credenziali sui sistemi di produzione?
Tutto questo è già avvenuto, su modelli ben più allineati di quelli che hai in produzione tu. Avere accesso a chi questi attacchi li progetta e li pubblica — invece di subirli — è il differenziale.
Testiamo i tuoi sistemi AI come li testerebbe un attaccante motivato. Non ti vendiamo una checklist OWASP riciclata: progettiamo lo scenario di attacco partendo dalla tua superficie reale.
Cosa cerchiamo: prompt injection diretta e indiretta (documenti, email, KB avvelenate), leak del system prompt, esfiltrazione di knowledge base RAG, manipolazione cognitiva del modello, abuso del tool calling, jailbreak contestuale, attacchi multi-turno con accumulo di contesto, attacchi cross-tenant.
Cosa consegniamo: report tecnico con vulnerabilità riproducibili (PoC controllati), classificazione per gravità e probabilità, raccomandazioni di mitigazione concrete (system prompt, classificatori, hardening del tool layer, separazione contesti), retest dopo le correzioni.
Analisi architetturale dei tuoi sistemi AI prima del red teaming attivo. Identifichiamo le scelte progettuali che amplificano il rischio: prompt monolitici, knowledge base non segregate, tool con privilegi eccessivi, mancanza di rate limiting cognitivo, assenza di sandboxing per output generati.
Spesso il 70% delle vulnerabilità si chiude qui, prima ancora di iniziare i test.
Per chi addestra o fine-tuna modelli proprietari: analisi del dataset per individuare prompt avvelenati, backdoor, leakage di dati sensibili, bias indotti.
Validazione end-to-end del processo di training, dalla provenienza dei dati alla valutazione post-fine-tuning con suite avversariali dedicate.
Il Regolamento UE 2024/1689 è in vigore. Le scadenze non sono opinioni.
GDPR e AI Act non sono due discipline separate. Si sovrappongono, si rinforzano, in alcuni casi si contraddicono. Un sistema AI che tratta dati personali deve rispondere a entrambi i regolamenti, e i fornitori che ne capiscono la sovrapposizione operativa sono pochi.
Lo stesso pacchetto che usiamo internamente sulla nostra piattaforma proprietaria AI4CALL, in produzione su clienti regolamentati.
Quando il Garante o l'AGCM bussano alla porta perché un sistema AI ha preso una decisione contestata, "non lo sappiamo, è una rete neurale" non è una risposta accettabile. E nel 2026 sempre meno lo sarà.
Tracciabilità a prova di contestazione, non "best effort".
I bias dei modelli linguistici non sono opinioni filosofiche: sono comportamenti misurabili che possono esporre la tua azienda a contenziosi per discriminazione, danno d'immagine, e in alcuni settori (HR, credito, assicurazioni, sanità) a sanzioni regolatorie.
Il red teaming non è un'attività one-shot. I modelli si aggiornano, i prompt evolvono, le KB crescono, la superficie di attacco cambia.
Se hai un sistema AI in produzione e non sai rispondere a queste tre domande, il primo passo è una AI Risk Assessment di 60 minuti gratuita con il nostro reparto R&D.
Con il nostro reparto R&D. Filtra subito le situazioni ingestibili e qualifica il livello di urgenza sui tuoi sistemi AI in produzione.
Prenota la sessioneCrea Agent AI telefonici su misura per la tua azienda. Integrazione con CRM, notifiche WhatsApp, SMS ed email. Prenota una demo gratuita con i nostri esperti.
Prenota demo gratuitaEntra contemporaneamente nei mondi VoIP e Intelligenza Artificiale. Un'opportunità unica per far crescere il tuo business.
Scopri il programmaChiama e prova la qualità dei nostri assistenti A.I.