Synapse — Benchmark & White Paper

Metodologia

Come conduciamo i test

Ogni benchmark è eseguito su hardware identico, a temperatura stabile, con parametri di inferenza standardizzati (temperatura 0.0, seed fisso). I modelli cloud sono testati tramite API ufficiale. Ogni categoria include almeno 200 prompt di valutazione.

🌡️

Temperatura 0.0

Tutti i modelli girano con temperatura zero per garantire output deterministici e riproducibili.

📋

Prompt standardizzati

Set di 200+ prompt per categoria, bilanciati per difficoltà e dominio. Stesso prompt, stesso ordine, per tutti i modelli.

🔁

3 run per modello

Ogni test viene ripetuto 3 volte. Riportiamo la media. Gli outlier (±2σ) sono esclusi.

⚖️

Giudice LLM + umano

Le risposte sono valutate sia da un LLM-as-judge (GPT-4o) sia da revisori umani. Il punteggio finale è la media pesata.

🖥️

Hardware locale

Modelli locali testati su GPU NVIDIA A100 80GB. Modelli cloud via API ufficiale con connessione a fibra dedicata da 1 Gbps.

📂

Open methodology

Il dataset di test sarà rilasciato pubblicamente insieme ai white paper. Chiunque può replicare i risultati.

Riepilogo

Tabella comparativa completa

Documenti

White Paper

Rapporti tecnici dettagliati con metodologia completa, dataset di test e analisi approfondite. I documenti sono rilasciati in accesso aperto.

In preparazione

Alice vs LLM Locali — Valutazione Comparativa

Confronto sistematico tra Alice e i principali modelli open-source eseguibili on-premise: Llama 3.1, Mistral, Gemma 2, Phi-3. Focus su italiano, coding e latenza.

Previsto: marzo 2026 · 18 pagine · PDF

In preparazione

Alice vs Provider Cloud — Qualità e Costo

Analisi costi/benefici tra Alice on-premise e GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro. Include calcolo TCO, latenza, privacy score e costo per token.

Previsto: aprile 2026 · 24 pagine · PDF

In preparazione

Benchmark Italiano — Dataset e Metodologia

Descrizione del dataset proprietario ITA-BENCH-v1 per la valutazione della comprensione della lingua italiana. Dataset rilasciato open-source.

Previsto: aprile 2026 · 12 pagine · PDF + Dataset

Valutazioni comparativeindipendenti e trasparenti

Come conduciamo i test

Tabella comparativa completa

White Paper

Valutazioni comparative
indipendenti e trasparenti