MEG4 BENCH

Comparación unificada: modelos × stacks × costo. Medido por nosotros, mismo harness — no fichas de marketing.

1 · MODELOS (calidad de código, EvalPlus)

MODELO	HUMANEVAL+ pass@1 base/plus	MBPP+ pass@1 base/plus	TRAZA mediana
QWEN3.6-27B BASE Q5_K_M · ollama	en curso…	en curso…	—
QWOPUS-CODER Q5_K_M · ollama	en curso…	en curso…	—
NVFP4 PROD :8021 NVFP4+MTP · vLLM	en curso…	en curso…	—

Mismo harness (EvalPlus), greedy, un modelo a la vez en la Spark. Q5_K_M parejo para los GGUF; NVFP4 (≈4-bit) es el de producción — mide el costo de fidelidad del FP4 rápido. $0 de API: todo corre local.

2 · STACKS DE GENERACIÓN (mismo work order)

STACK	WALL CLOCK por tarea (mismo work order)
MIXTO (planner 27B + M3 + Qwen3.7-Max)	dataset-capture 339s · plans-usage 287s · quota-digest 355s
27B SOLO	dataset-capture 166s
35B SOLO	dataset-capture 403s

Datos verificados de /tmp/ab3way.log y wall_*.txt (2026-06-12). El render Fable-local agotó el timeout (1700s). Calidad de output: elegila a ciegas en el blind test ↓

VERSIÓN A · VERSIÓN B · VERSIÓN C (blind test original, mismo plan, datos pseudonimizados)

3 · COSTO REAL (ledger, semana)

SOURCE	TOKENS (semana)	CALLS	COSTO €
max	59.1M	16,591	€0.00
local	559K	7	€0.01
m3	258K	4	€0.02
qwen	258K	4	€0.04

Del usage ledger (:9100, agregado por source — semana corriente). max = plan Max (costo marginal €0); local = la Spark; m3/qwen = planes API.

4 · GRILLA AMPLIADA

En cola: Q6_K vs NVFP4 (costo de fidelidad) · Qwen3.6-35B-A3B · Qwopus-v2-MTP · Aider polyglot para los ganadores. Se agregan acá a medida que corren.

meg4 · estático · regenerado por render_site.py