Benchmark & White Paper

Valutazioni comparative
indipendenti e trasparenti

Confrontiamo Alice con i principali modelli linguistici locali e cloud su metriche standardizzate. Tutti i test sono riproducibili e la metodologia è pubblica.

Dati preliminari Versione 0.1 — marzo 2026 Aggiornamento: in corso
⚠️
Dati preliminari — non per uso commerciale
Benchmark aggiornati al 2 aprile 2026. Test su infrastruttura reale: 3x MoE su NVIDIA GB10 Grace Blackwell (128GB) + 11 moduli sicurezza/validazione. Score: 28/29 (97%). Identity 5/5, Italiano 3/3, Web Search 3/3, RAG 3/3, Science 3/3, Code 4/4, Reasoning 3/4, Security 4/4. Workflow 11/11 (100%).

Come conduciamo i test

Ogni benchmark è eseguito su hardware identico, a temperatura stabile, con parametri di inferenza standardizzati (temperatura 0.0, seed fisso). I modelli cloud sono testati tramite API ufficiale. Ogni categoria include almeno 200 prompt di valutazione.

🌡️
Temperatura 0.0
Tutti i modelli girano con temperatura zero per garantire output deterministici e riproducibili.
📋
Prompt standardizzati
Set di 200+ prompt per categoria, bilanciati per difficoltà e dominio. Stesso prompt, stesso ordine, per tutti i modelli.
🔁
3 run per modello
Ogni test viene ripetuto 3 volte. Riportiamo la media. Gli outlier (±2σ) sono esclusi.
⚖️
Giudice LLM + umano
Le risposte sono valutate sia da un LLM-as-judge (GPT-4o) sia da revisori umani. Il punteggio finale è la media pesata.
🖥️
Hardware locale
Modelli locali testati su GPU NVIDIA A100 80GB. Modelli cloud via API ufficiale con connessione a fibra dedicata da 1 Gbps.
📂
Open methodology
Il dataset di test sarà rilasciato pubblicamente insieme ai white paper. Chiunque può replicare i risultati.

Tabella comparativa completa

White Paper

Rapporti tecnici dettagliati con metodologia completa, dataset di test e analisi approfondite. I documenti sono rilasciati in accesso aperto.

In preparazione
Alice vs LLM Locali — Valutazione Comparativa
Confronto sistematico tra Alice e i principali modelli open-source eseguibili on-premise: Llama 3.1, Mistral, Gemma 2, Phi-3. Focus su italiano, coding e latenza.
Previsto: marzo 2026 · 18 pagine · PDF
In preparazione
Alice vs Provider Cloud — Qualità e Costo
Analisi costi/benefici tra Alice on-premise e GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro. Include calcolo TCO, latenza, privacy score e costo per token.
Previsto: aprile 2026 · 24 pagine · PDF
In preparazione
Benchmark Italiano — Dataset e Metodologia
Descrizione del dataset proprietario ITA-BENCH-v1 per la valutazione della comprensione della lingua italiana. Dataset rilasciato open-source.
Previsto: aprile 2026 · 12 pagine · PDF + Dataset