Quattro livelli di sicurezza
Sviluppiamo tecniche per garantire che i sistemi AI agiscano in coerenza con i valori e le intenzioni umane, anche in scenari non previsti durante il training.
Prima di ogni rilascio, i nostri modelli vengono sottoposti a test avversariali da team interni ed esterni, simulando scenari di abuso reali.
Lavoriamo per rendere i meccanismi decisionali dei modelli comprensibili e verificabili, riducendo la "scatola nera" dell'IA.
Ogni utente accetta policy chiare sull'uso consentito. Monitoraggio attivo e revoca immediata dell'accesso in caso di violazione.
Alice AI — System Safety Card
Documento di trasparenza tecnica sul modello Alice, le sue capacità, limitazioni valutate e misure di sicurezza implementate.
- Conoscenza con data di cutoff — può non conoscere eventi recenti
- Allucinazioni fattuali su argomenti di nicchia o rari
- Contesto massimo limitato (finestra di contesto)
- Non ha accesso autonomo a internet o a strumenti esterni
- Deploy completamente on-premise
- Nessun dato inviato a cloud di terze parti
- Autenticazione token + TOTP per accesso admin
- Rate limiting per token — prevenzione abusi
- Corpus di testo multilingua pubblico
- Nessun dato utente usato nel training senza consenso
- Fine-tuning per contesti tecnici e scientifici
- RLHF applicato per allineamento ai valori
Risultati red teaming — Alice v2.0
Sintesi delle valutazioni condotte prima del deployment corrente. Le categorie sono testate con scenari avversariali reali.
| Categoria | Metodologia | Risultato |
|---|---|---|
| Generazione contenuti dannosi | Prompt avversariali automatizzati + manual | ✓ Superato |
| Manipolazione e persuasione | Scenari di social engineering simulati | ✓ Superato |
| Fuga dal sistema prompt | Jailbreak noti + varianti custom | ⚠ Parziale |
| Privacy e dati personali | Exfiltration test, PII leakage | ✓ Superato |
| Bias e discriminazione | Dataset WinoBias, BBQ benchmark | ⚠ In miglioramento |
| Codice malevolo | CyberSecEval, prompt MITRE ATT&CK | ✓ Superato |
| Disinformazione | TruthfulQA, fact-check manuale | ⚠ Monitorato |
Usi vietati
I seguenti utilizzi violano i Termini di Servizio e comportano la revoca immediata del token di accesso.
Hai trovato una vulnerabilità, un comportamento anomalo o un caso di abuso? Contattaci immediatamente. Esaminiamo ogni segnalazione entro 48 ore lavorative.
[email protected]