MEG4 BENCH

Comparación unificada: modelos × stacks × costo. Medido por nosotros, mismo harness — no fichas de marketing.

1 · MODELOS (calidad de código, EvalPlus)

MODELOHUMANEVAL+
pass@1 base/plus
MBPP+
pass@1 base/plus
TRAZA
mediana
QWEN3.6-27B BASE
Q5_K_M · ollama
en curso…en curso…
QWOPUS-CODER
Q5_K_M · ollama
en curso…en curso…
NVFP4 PROD :8021
NVFP4+MTP · vLLM
en curso…en curso…

Mismo harness (EvalPlus), greedy, un modelo a la vez en la Spark. Q5_K_M parejo para los GGUF; NVFP4 (≈4-bit) es el de producción — mide el costo de fidelidad del FP4 rápido. $0 de API: todo corre local.

2 · STACKS DE GENERACIÓN (mismo work order)

STACKWALL CLOCK por tarea (mismo work order)
MIXTO (planner 27B + M3 + Qwen3.7-Max)dataset-capture 339s · plans-usage 287s · quota-digest 355s
27B SOLOdataset-capture 166s
35B SOLOdataset-capture 403s

Datos verificados de /tmp/ab3way.log y wall_*.txt (2026-06-12). El render Fable-local agotó el timeout (1700s). Calidad de output: elegila a ciegas en el blind test ↓

VERSIÓN A · VERSIÓN B · VERSIÓN C (blind test original, mismo plan, datos pseudonimizados)

3 · COSTO REAL (ledger, semana)

SOURCETOKENS (semana)CALLSCOSTO €
max59.1M16,591€0.00
local559K7€0.01
m3258K4€0.02
qwen258K4€0.04

Del usage ledger (:9100, agregado por source — semana corriente). max = plan Max (costo marginal €0); local = la Spark; m3/qwen = planes API.

4 · GRILLA AMPLIADA

En cola: Q6_K vs NVFP4 (costo de fidelidad) · Qwen3.6-35B-A3B · Qwopus-v2-MTP · Aider polyglot para los ganadores. Se agregan acá a medida que corren.

meg4 · estático · regenerado por render_site.py