Model Arena - KeikenV Status Dashboard

Rank	Model	Arena Score	Identity Acc.	Persona Pres.	Latency	Throughput	Perplexity	Judge Score	Last Evaluated
Loading...

Arena Score: Weighted composite score (0-1) including DeepEval quality metrics.
Identity (45%) + Persona (25%) + Latency (10%) + Perplexity (10%) + Judge (10%)
Identity Acc.: Exact match rate for identity queries ("Who are you?" → "Keiken")
Persona Pres.: Keyword match rate for persona knowledge questions
Judge Score: DeepEval evaluation using local Ollama models (Helpfulness, Correctness, Coherence)

Model Arena Leaderboard