LLMs locales en 2026: lo que realmente funciona en hardware de consumidor

Matthias Meyer

Los LLMs locales en 2026 funcionan en tres carriles de hardware: una CPU de 32 núcleos con 64GB+ RAM alcanza 10-25 tokens por segundo con Qwen 3 14B, una RTX 4090 logra 30-80 tokens por segundo con el mismo modelo y 8-15 tokens por segundo con Llama 3.3 70B en Q4, y un M3 o M4 Max con 64GB+ memoria unificada entrega 25-40 tokens por segundo en 14B. Stack por defecto: Ollama con Qwen 3 14B en Q4_K_M. Nada exótico. El espacio LLM local dejó de ser un nicho de aficionados. El hardware es razonable, los modelos son reales, el tooling es de calidad de producción. El único argumento que queda para cloud-only es la conveniencia, y hasta eso se está debilitando.

Hace dos años "correr un LLM en casa" significaba un fin de semana aburrido, un checkpoint Llama 7B y la lenta realización de que el output era apenas mejor que el autocompletado. A mediados de 2026 la imagen es diferente. Llama 3.3 8B corre más rápido en una CPU de 32 núcleos que GPT-3.5 Turbo en los servidores de OpenAI en 2023. Qwen 3 32B cabe cómodamente en una sola RTX 4090. Phi-4 14B se mantiene firme en benchmarks de tool-calling contra modelos frontera de hace un año.

Este es un mapa práctico del paisaje de LLMs locales a mayo de 2026. Sin "guía definitiva", sin links de afiliados, solo lo que realmente funciona.

La realidad del hardware

El encuadre honesto es este. Tienes tres carriles de hardware, y los tres producen resultados útiles.

Solo CPU con 32+ núcleos y 64GB+ RAM. Un Intel i9 o Ryzen 9 moderno con DDR5 alcanza 10-25 tokens por segundo en un modelo 7B-14B en cuantización Q4_K_M. Eso no es teoría. Eso es ollama run qwen3:14b en una workstation de 1500 euros. Para UX de chat, cualquier cosa por encima de 8 tokens por segundo se siente usable. Para batch summarization o agentes en background, incluso 5 tokens por segundo está bien. La trampa: modelos 32B+ caen a 2-5 tokens por segundo, y modelos 70B en Q4 llegan a 1-2 tokens por segundo. CPU es genial para modelos tamaño chat, doloroso para los grandes.

GPU de consumidor, RTX 4090 24GB o RTX 4080 16GB. Este es el sweet-spot para modelos 32B en Q4_K_M (unos 19GB VRAM) y modelos 70B en IQ3_M (unos 22GB VRAM). Las tasas de tokens caen en 30-80 tokens por segundo para 14B, 15-30 tokens por segundo para 32B, 8-15 tokens por segundo para 70B. Una 4090 más 64GB de RAM del sistema maneja básicamente cualquier cosa por debajo de 100B parámetros.

Apple Silicon, M3 Max o M4 Max con 64GB+ memoria unificada. Vibra distinta. MLX-LM ha alcanzado impresionantemente. 14B corre a 25-40 tokens por segundo, 70B en Q4 a 6-10 tokens por segundo. La memoria unificada es el desbloqueo. No pagas el impuesto GPU-VRAM. Trade-off: 3-5x más lento que NVIDIA equivalente cuando estás GPU-bound, más rápido que NVIDIA cuando estás memory-bound (que es la mayoría de escenarios LLM-locales).

Lo que no necesitas: una A100. Alquilar una por 1,50 USD por hora en RunPod o Lambda tiene sentido si entrenas, no si haces inferencia.

Los modelos que importan

El leaderboard cambia semanalmente. A mayo de 2026, estos son los modelos que al menos deberías conocer.

Qwen 3 (Alibaba, 7B/14B/32B/72B/235B-MoE). La serie de modelos locales más usada en 2026 según las estadísticas de descarga de Hugging Face. Tool-calling fuerte, ChatML nativo, calidad multilingüe (alemán, español, chino todos limpios). El 7B es el nuevo "default first try", el 14B es el sweet-spot de chat, el 32B compite con modelos cloud de tier medio en la mayoría de benchmarks.

Llama 3.3 (Meta, 8B/70B). El 70B cerró la brecha hacia GPT-4-clase en tareas de long-context. El 8B es la baseline de comparación que la mayoría de papers usan, incluyendo LongMemEval. Si tu evaluación downstream importa, corre Llama 3.3 8B como referencia.

Mistral Small / Mistral Nemo (Mistral, 12B/24B). All-rounders sólidos. Licencia Apache 2.0. Menos tuneado para tool-calls que Qwen pero más "neutral" en tono, a menudo preferido para tareas de summarization.

Phi-4 (Microsoft Research, 14B). Pega por encima de su peso en reasoning. Context window más pequeño que los otros (16k) pero la calidad de reasoning a 14B es sorprendente. Bueno para tareas con mucho código.

Gemma 3 (Google, 8B/27B). La contribución open-weight de Google. Fuerte en instruction-following, más débil en tool-use que Qwen. El 27B es interesante porque se sienta en el incómodo terreno medio que compite con el 32B Qwen.

Variantes destiladas DeepSeek-R1 (DeepSeek, 7B/14B/32B/70B). Destilaciones reasoning-tuned del modelo frontera R1. Output pesado de chain-of-thought. Útil para matemáticas, código, reasoning multi-step. No genial para chat de respuesta corta porque el modelo quiere pensar en voz alta.

GLM-4-9B (Zhipu, 9B). Subestimado. Fuerte para su tamaño, buen multilingüe, a menudo olvidado porque el alcance de marketing es más pequeño que el de Qwen.

Si quieres un default para empezar: Qwen 3 14B en Q4_K_M vía Ollama. No será el mejor en ninguna tarea específica, pero no será vergonzoso en ninguna.

El stack

Cuatro opciones reales a mediados de 2026.

Ollama es el camino más fácil. Una instalación, un comando, API HTTP compatible con OpenAI en localhost:11434. Trade-off: menos control sobre parámetros de sampling, menos control sobre elecciones de cuantización, settings por defecto son conservadores. Genial para prototipado, fino para producción si no necesitas tunear.

llama.cpp es el motor debajo de Ollama y la mayoría de otras herramientas LLM-locales. Si quieres control manual sobre variantes de cuantización, NUMA-tuning, samplers personalizados, comportamiento mmap, esto es a lo que recurres. Curva de aprendizaje más empinada. El binario llama-server también te da un API compatible con OpenAI.

vLLM con soporte CPU aterrizó propiamente en 2025 y ahora es de calidad de producción para serving. Si corres un modelo local detrás de múltiples usuarios concurrentes (equipo pequeño, herramienta interna), el batching de vLLM bate a Ollama y llama.cpp por amplio margen. Setup es más pesado.

LocalAI es un reemplazo drop-in de OpenAI que soporta múltiples backends (llama.cpp, gguf, transformers). Útil si quieres cambiar proveedores sin cambiar tu código de aplicación, o si quieres un servidor que maneje texto, embeddings y generación de imágenes.

MLX-LM es solo Apple Silicon y vale la pena llamarlo aparte. Si estás en un Mac, este es el camino. La performance es buena y la integración Python es limpia.

Para la mayoría de lectores: empieza con Ollama, muévete a llama.cpp cuando llegues a un límite, considera vLLM cuando tengas usuarios concurrentes.

Cuantización en 60 segundos

Cuantización es como tomas un modelo 70B que necesita 140GB en FP16 y lo metes en una GPU de 24GB. Los números en el nombre del archivo importan.

Q4_K_M es el default-default. Aproximadamente 4,5 bits por peso, calidad decente, tamaño razonable. 95% de usuarios no debería desviarse de esto en su primer intento.

Q5_K_M es el pequeño boost de calidad. Aproximadamente 5,5 bits por peso, 25% más grande, a menudo diferencia de calidad imperceptible. Vale la pena probarlo si tienes headroom.

Q6_K es la opción "casi sin pérdida". Aproximadamente 6,5 bits por peso, 50% más grande que Q4. Usa esto cuando la calidad importa más que la velocidad.

Q8_0 es esencialmente el modelo original. Dos veces el tamaño de Q4. Reservado para evaluaciones o cuando tienes VRAM abundante.

IQ4_XS es interesante. Misma huella de memoria que Q4_K_M pero usa un esquema de cuantización importance-aware que mejora la calidad. Más lento en evaluar (los metadatos de importance añaden overhead). Vale la pena probar para tareas sensibles a calidad.

IQ3_M y abajo son reducciones agresivas de tamaño. Útil cuando absolutamente necesitas un modelo 70B en una GPU de 16GB. La caída de calidad es real y notable.

El default Q4_K_M funciona. No lo pienses demasiado hasta que tengas una razón específica.

Eligiendo tu setup

Un árbol de decisión corto.

Si tienes un Mac con 32GB+ memoria unificada: instala Ollama, ejecuta ollama pull qwen3:14b, listo.

Si tienes una caja Linux con 64GB+ RAM y sin GPU: instala Ollama, corre Qwen 3 14B en Q4_K_M. Espera 10-15 tokens por segundo. Si eso es muy lento, prueba Qwen 3 7B y acepta una pequeña caída de calidad.

Si tienes una RTX 4090 o GPU de 24GB similar: instala Ollama, corre Qwen 3 32B en Q4_K_M. No te arrepentirás de esta combinación. Si quieres lo absolutamente mejor, corre Qwen 3 72B en IQ3_M y acepta que estás apretando el modelo.

Si corres para un equipo: vLLM, Qwen 3 14B, batch-size tuneado a tu concurrencia. El throughput-por-watt es inigualable.

Lo que viene Q3-Q4 2026

Tres tendencias visibles ahora mismo.

Mixture-of-Experts se está volviendo consumer-tractable. Qwen 3 235B-A22B es un modelo de 235B parámetros donde solo 22B están activos por token. Con cuantización agresiva, esto cabe en una workstation. Los próximos 6 meses verán más modelos MoE de clase 100B que efectivamente corren como modelos 20-30B en compute activo.

Modelos reasoning se están commoditizando. DeepSeek-R1 fue el primer modelo open reasoning-tuned ampliamente distribuido. Para Q4 2026, espera variantes reasoning de cada serie mayor. El trade-off (outputs más largos, mayor latencia) está siendo mejor entendido.

Marketplaces de LoRA están creciendo. Hugging Face tiene 20.000+ adaptadores LoRA para modelos base populares. El patrón de "modelo base compartido más especialización pluggable" está reemplazando el viejo enfoque "todos hacen fine-tune de su propio monolito".

El espacio de LLM local ya no es un nicho de aficionados. El hardware es razonable, los modelos son reales, el tooling es de calidad de producción. Si tu única razón para no correr un LLM local es "la nube es más fácil", ese argumento está en sus últimas piernas.

Fuentes

Model Card y benchmarks Qwen 3: huggingface.co/Qwen
Notas de release Llama 3.3: ai.meta.com/blog/llama-3-3
Paper LongMemEval (baselines Llama 3.1): arxiv.org/abs/2410.10813
Documentación Ollama: ollama.com/docs
Proyecto llama.cpp: github.com/ggerganov/llama.cpp
Backend CPU vLLM: docs.vllm.ai/en/latest/getting_started/cpu-installation.html
MLX-LM: github.com/ml-explore/mlx-lm
Comparación de cuantización (k-quants): github.com/ggerganov/llama.cpp/pull/1684
AscentCore Small LLM Benchmark Abril 2026: ascentcore.com/2026/04/01/small-llm-performance-benchmark