Comparación unificada: modelos × stacks × costo. Medido por nosotros, mismo harness — no fichas de marketing.
| MODELO | HUMANEVAL+ pass@1 base/plus |
MBPP+ pass@1 base/plus | TRAZA mediana |
|---|---|---|---|
| QWEN3.6-27B BASE Q5_K_M · ollama | en curso… | en curso… | — |
| QWOPUS-CODER Q5_K_M · ollama | en curso… | en curso… | — |
| NVFP4 PROD :8021 NVFP4+MTP · vLLM | en curso… | en curso… | — |
Mismo harness (EvalPlus), greedy, un modelo a la vez en la Spark. Q5_K_M parejo para los GGUF; NVFP4 (≈4-bit) es el de producción — mide el costo de fidelidad del FP4 rápido. $0 de API: todo corre local.
| STACK | WALL CLOCK por tarea (mismo work order) |
|---|---|
| MIXTO (planner 27B + M3 + Qwen3.7-Max) | dataset-capture 339s · plans-usage 287s · quota-digest 355s |
| 27B SOLO | dataset-capture 166s |
| 35B SOLO | dataset-capture 403s |
Datos verificados de /tmp/ab3way.log y wall_*.txt (2026-06-12). El render Fable-local agotó el timeout (1700s). Calidad de output: elegila a ciegas en el blind test ↓
VERSIÓN A · VERSIÓN B · VERSIÓN C (blind test original, mismo plan, datos pseudonimizados)
| SOURCE | TOKENS (semana) | CALLS | COSTO € |
|---|---|---|---|
| max | 59.1M | 16,591 | €0.00 |
| local | 559K | 7 | €0.01 |
| m3 | 258K | 4 | €0.02 |
| qwen | 258K | 4 | €0.04 |
Del usage ledger (:9100, agregado por source — semana corriente). max = plan Max (costo marginal €0); local = la Spark; m3/qwen = planes API.
En cola: Q6_K vs NVFP4 (costo de fidelidad) · Qwen3.6-35B-A3B · Qwopus-v2-MTP · Aider polyglot para los ganadores. Se agregan acá a medida que corren.
meg4 · estático · regenerado por render_site.py