Metodologia
Come conduciamo i test
Ogni benchmark è eseguito su hardware identico, a temperatura stabile, con parametri di inferenza standardizzati (temperatura 0.0, seed fisso). I modelli cloud sono testati tramite API ufficiale. Ogni categoria include almeno 200 prompt di valutazione.
Temperatura 0.0
Tutti i modelli girano con temperatura zero per garantire output deterministici e riproducibili.
Prompt standardizzati
Set di 200+ prompt per categoria, bilanciati per difficoltà e dominio. Stesso prompt, stesso ordine, per tutti i modelli.
3 run per modello
Ogni test viene ripetuto 3 volte. Riportiamo la media. Gli outlier (±2σ) sono esclusi.
Giudice LLM + umano
Le risposte sono valutate sia da un LLM-as-judge (GPT-4o) sia da revisori umani. Il punteggio finale è la media pesata.
Hardware locale
Modelli locali testati su GPU NVIDIA A100 80GB. Modelli cloud via API ufficiale con connessione a fibra dedicata da 1 Gbps.
Open methodology
Il dataset di test sarà rilasciato pubblicamente insieme ai white paper. Chiunque può replicare i risultati.
Riepilogo
Tabella comparativa completa
Documenti
White Paper
Rapporti tecnici dettagliati con metodologia completa, dataset di test e analisi approfondite. I documenti sono rilasciati in accesso aperto.
In preparazione
Alice vs LLM Locali — Valutazione Comparativa
Confronto sistematico tra Alice e i principali modelli open-source eseguibili on-premise: Llama 3.1, Mistral, Gemma 2, Phi-3. Focus su italiano, coding e latenza.
In preparazione
Alice vs Provider Cloud — Qualità e Costo
Analisi costi/benefici tra Alice on-premise e GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro. Include calcolo TCO, latenza, privacy score e costo per token.
In preparazione
Benchmark Italiano — Dataset e Metodologia
Descrizione del dataset proprietario ITA-BENCH-v1 per la valutazione della comprensione della lingua italiana. Dataset rilasciato open-source.