Local LLMs 2026: Was wirklich auf Consumer-Hardware läuft

Matthias Meyer

Lokale LLMs laufen 2026 auf drei Hardware-Spuren: 32-Core-CPU mit 64GB+ RAM erreicht 10-25 Tokens pro Sekunde mit Qwen 3 14B, eine RTX 4090 schafft 30-80 Tokens pro Sekunde mit demselben Modell und 8-15 Tokens pro Sekunde mit Llama 3.3 70B in Q4, und ein M3 oder M4 Max mit 64GB+ Unified Memory liefert 25-40 Tokens pro Sekunde auf 14B. Default-Stack: Ollama mit Qwen 3 14B in Q4_K_M. Nichts Exotisches. Lokale LLMs sind keine Hobbyisten-Nische mehr. Die Hardware ist erschwinglich, die Modelle sind real, das Tooling ist produktionsreif. Das einzige Argument für Cloud-only ist noch Bequemlichkeit, und selbst das wird schwächer.

Vor zwei Jahren hieß "ein LLM zu Hause laufen lassen" — gelangweiltes Wochenende, ein 7B Llama-Checkpoint und die langsame Erkenntnis, dass der Output kaum besser war als Autocomplete. Mitte 2026 sieht es anders aus. Llama 3.3 8B läuft auf einer 32-Core-CPU schneller als GPT-3.5 Turbo damals 2023 auf den OpenAI-Servern. Qwen 3 32B passt bequem auf eine einzelne RTX 4090. Phi-4 14B hält in Tool-Calling-Benchmarks gegen Frontier-Modelle von vor einem Jahr mit.

Das ist eine praktische Karte der Local-LLM-Landschaft Stand Mai 2026. Kein "Ultimate Guide", keine Affiliate-Links, nur das was wirklich funktioniert.

Die Hardware-Realität

Die ehrliche Einordnung lautet so. Du hast drei Hardware-Spuren, und alle drei produzieren brauchbare Ergebnisse.

Nur CPU mit 32+ Cores und 64GB+ RAM. Eine moderne Intel i9 oder Ryzen 9 mit DDR5 erreicht 10-25 Tokens pro Sekunde auf einem 7B-14B Modell in Q4_K_M-Quantisierung. Das ist nicht theoretisch. Das ist ollama run qwen3:14b auf einer 1500-Euro-Workstation. Für Chat-UX fühlt sich alles über 8 Tokens pro Sekunde nutzbar an. Für Batch-Summarization oder Background-Agents reichen sogar 5 Tokens pro Sekunde. Der Haken: 32B+ Modelle fallen auf 2-5 Tokens pro Sekunde, und 70B-Modelle in Q4 landen bei 1-2 Tokens pro Sekunde. CPU ist gut für Chat-Modelle, schmerzhaft für die großen.

Consumer-GPU, RTX 4090 24GB oder RTX 4080 16GB. Das ist der Sweet-Spot für 32B-Modelle in Q4_K_M (etwa 19GB VRAM) und 70B-Modelle in IQ3_M (etwa 22GB VRAM). Token-Raten landen bei 30-80 Tokens pro Sekunde für 14B, 15-30 Tokens pro Sekunde für 32B, 8-15 Tokens pro Sekunde für 70B. Eine 4090 plus 64GB System-RAM bewältigt im Grunde alles unter 100B Parametern.

Apple Silicon, M3 Max oder M4 Max mit 64GB+ Unified Memory. Eigene Charakteristik. MLX-LM hat beeindruckend aufgeholt. 14B läuft mit 25-40 Tokens pro Sekunde, 70B in Q4 mit 6-10 Tokens pro Sekunde. Der Unified-Memory ist der Unterschied. Du zahlst keinen GPU-VRAM-Aufschlag. Trade-off: 3-5x langsamer als vergleichbare NVIDIA wenn du GPU-bound bist, schneller als NVIDIA wenn du Memory-bound bist (was die meisten Local-LLM-Szenarien sind).

Was du nicht brauchst: eine A100. Eine zu mieten für 1,50 USD pro Stunde auf RunPod oder Lambda macht Sinn wenn du trainierst, nicht wenn du Inferenz machst.

Die Modelle die zählen

Das Leaderboard ändert sich wöchentlich. Stand Mai 2026 sind das die Modelle die du zumindest kennen solltest.

Qwen 3 (Alibaba, 7B/14B/32B/72B/235B-MoE). Die meistgenutzte Local-Modell-Serie 2026 laut Hugging-Face-Download-Statistiken. Starkes Tool-Calling, natives ChatML, mehrsprachige Qualität (Deutsch, Spanisch, Chinesisch alle sauber). Das 7B ist der neue "Default-First-Try", das 14B der Chat-Sweet-Spot, das 32B konkurriert mit Mid-Tier-Cloud-Modellen in den meisten Benchmarks.

Llama 3.3 (Meta, 8B/70B). Das 70B hat den Abstand zu GPT-4-Klasse bei Long-Context-Tasks geschlossen. Das 8B ist die Vergleichs-Baseline die die meisten Paper benutzen, einschließlich LongMemEval. Wenn deine nachgelagerte Evaluation zählt, lass Llama 3.3 8B als Referenz laufen.

Mistral Small / Mistral Nemo (Mistral, 12B/24B). Solide Allrounder. Apache 2.0 lizenziert. Weniger Tool-Call-getuned als Qwen aber "neutraler" im Ton, oft bevorzugt für Summarization-Tasks.

Phi-4 (Microsoft Research, 14B). Schlägt für seine Größe weit über. Kleinerer Context als die anderen (16k) aber die Reasoning-Qualität bei 14B ist überraschend. Gut für code-lastige Aufgaben.

Gemma 3 (Google, 8B/27B). Googles Open-Weight-Beitrag. Stark im Instruction-Following, schwächer im Tool-Use als Qwen. Das 27B ist interessant weil es im awkward Mittelfeld sitzt und mit dem 32B Qwen konkurriert.

DeepSeek-R1 destillierte Varianten (DeepSeek, 7B/14B/32B/70B). Reasoning-getunte Destillationen vom R1-Frontier-Modell. Heftiger Chain-of-Thought-Output. Nützlich für Mathe, Code, Multi-Step-Reasoning. Nicht super für Short-Answer-Chat weil das Modell laut denken will.

GLM-4-9B (Zhipu, 9B). Unterschätzt. Stark für seine Größe, gut mehrsprachig, oft vergessen weil die Marketing-Reichweite kleiner ist als bei Qwen.

Wenn du einen Default zum Starten willst: Qwen 3 14B in Q4_K_M via Ollama. Es wird nicht das Beste in einer spezifischen Aufgabe sein, aber es wird in keiner Aufgabe peinlich sein.

Der Stack

Vier echte Optionen Stand Mitte 2026.

Ollama ist der einfachste Pfad. Eine Installation, ein Befehl, OpenAI-kompatibles HTTP-API auf localhost:11434. Trade-off: weniger Kontrolle über Sampling-Parameter, weniger Kontrolle über Quantization-Wahl, Default-Settings sind konservativ. Gut für Prototyping, gut für Produktion wenn du nicht tunen musst.

llama.cpp ist die Engine unter Ollama und den meisten anderen Local-LLM-Tools. Wenn du manuelle Kontrolle über Quantization-Varianten, NUMA-Tuning, Custom-Sampler, mmap-Verhalten willst, dann greifst du dazu. Steilere Lernkurve. Das llama-server Binary gibt dir auch ein OpenAI-kompatibles API.

vLLM mit CPU-Support ist 2025 sauber gelandet und ist jetzt produktionsreif für Serving. Wenn du ein lokales Modell hinter mehreren gleichzeitigen Usern laufen lässt (kleines Team, internes Tool), schlägt vLLMs Batching Ollama und llama.cpp deutlich. Setup ist aufwändiger.

LocalAI ist ein Drop-in-OpenAI-Ersatz der mehrere Backends unterstützt (llama.cpp, gguf, transformers). Nützlich wenn du Provider tauschen willst ohne deinen Application-Code zu ändern, oder wenn du einen Server willst der Text, Embeddings und Image Generation handhabt.

MLX-LM ist nur Apple Silicon und es lohnt sich es separat zu nennen. Wenn du auf einem Mac bist, das ist der Pfad. Die Performance ist gut und die Python-Integration ist sauber.

Für die meisten Leser: starte mit Ollama, wechsle zu llama.cpp wenn du an ein Limit stößt, ziehe vLLM in Betracht wenn du gleichzeitige User hast.

Quantization in 60 Sekunden

Quantization ist wie du ein 70B-Modell das 140GB in FP16 braucht auf eine 24GB-GPU quetschst. Die Zahlen im Dateinamen zählen.

Q4_K_M ist der Default-Default. Etwa 4,5 Bits pro Gewicht, anständige Qualität, vernünftige Größe. 95% der User sollten beim ersten Versuch nicht abweichen.

Q5_K_M ist der kleine Qualitäts-Boost. Etwa 5,5 Bits pro Gewicht, 25% größer, oft kein wahrnehmbarer Qualitätsunterschied. Wert es zu probieren wenn du Headroom hast.

Q6_K ist die "fast verlustfreie" Option. Etwa 6,5 Bits pro Gewicht, 50% größer als Q4. Nutze das wenn Qualität wichtiger ist als Geschwindigkeit.

Q8_0 ist im Grunde das Original-Modell. Doppelt so groß wie Q4. Reserviert für Evaluierungen oder wenn du reichlich VRAM hast.

IQ4_XS ist interessant. Gleicher Memory-Footprint wie Q4_K_M aber nutzt ein Importance-Aware-Quantization-Schema das die Qualität verbessert. Langsamer in der Auswertung (die Importance-Metadata fügt Overhead hinzu). Wert es zu probieren für qualitäts-sensitive Tasks.

IQ3_M und darunter sind aggressive Größen-Reduktionen. Nützlich wenn du absolut ein 70B-Modell auf einer 16GB-GPU brauchst. Qualitätsverlust ist real und spürbar.

Der Q4_K_M-Default funktioniert. Überdenk das nicht bis du einen spezifischen Grund hast.

Dein Setup wählen

Ein kurzer Entscheidungs-Baum.

Wenn du einen Mac mit 32GB+ Unified Memory hast: installiere Ollama, führe ollama pull qwen3:14b aus, fertig.

Wenn du eine Linux-Box mit 64GB+ RAM und keine GPU hast: installiere Ollama, lass Qwen 3 14B in Q4_K_M laufen. Erwarte 10-15 Tokens pro Sekunde. Wenn das zu langsam ist, probier Qwen 3 7B und akzeptier einen kleinen Qualitätsverlust.

Wenn du eine RTX 4090 oder ähnliche 24GB-GPU hast: installiere Ollama, lass Qwen 3 32B in Q4_K_M laufen. Du wirst diese Kombination nicht bereuen. Wenn du das absolute Beste willst, lass Qwen 3 72B in IQ3_M laufen und akzeptier dass du das Modell quetschst.

Wenn du für ein Team servierst: vLLM, Qwen 3 14B, Batch-Size auf deine Concurrency getuned. Der Throughput-pro-Watt ist unschlagbar.

Was Q3-Q4 2026 bringt

Drei Trends die jetzt sichtbar sind.

Mixture-of-Experts wird consumer-tauglich. Qwen 3 235B-A22B ist ein 235B-Parameter-Modell bei dem nur 22B pro Token aktiv sind. Mit aggressiver Quantization passt das auf eine Workstation. Die nächsten 6 Monate werden mehr 100B-Klasse MoE-Modelle bringen die effektiv als 20-30B-Modelle im aktiven Compute laufen.

Reasoning-Modelle werden commoditisiert. DeepSeek-R1 war das erste weit verbreitete Reasoning-getunte Open-Modell. Bis Q4 2026 erwarte Reasoning-Varianten jeder Major-Serie. Der Trade-off (längere Outputs, höhere Latenz) wird besser verstanden.

LoRA-Marketplaces wachsen. Hugging Face hat 20.000+ LoRA-Adapter für populäre Base-Modelle. Das Muster "geteiltes Base-Modell plus pluggable Spezialisierung" ersetzt den alten "jeder fine-tuned seinen eigenen Monolithen"-Ansatz.

Der Local-LLM-Raum ist keine Hobbyisten-Nische mehr. Die Hardware ist erschwinglich, die Modelle sind real, das Tooling ist produktionsreif. Wenn dein einziger Grund kein lokales LLM zu betreiben ist "die Cloud ist einfacher", dann steht dieses Argument auf wackeligen Beinen.

Quellen

Qwen 3 Model-Card und Benchmarks: huggingface.co/Qwen
Llama 3.3 Release Notes: ai.meta.com/blog/llama-3-3
LongMemEval Paper (Llama 3.1 Baselines): arxiv.org/abs/2410.10813
Ollama-Dokumentation: ollama.com/docs
llama.cpp Projekt: github.com/ggerganov/llama.cpp
vLLM CPU-Backend: docs.vllm.ai/en/latest/getting_started/cpu-installation.html
MLX-LM: github.com/ml-explore/mlx-lm
Quantization-Vergleich (k-quants): github.com/ggerganov/llama.cpp/pull/1684
AscentCore Small LLM Benchmark April 2026: ascentcore.com/2026/04/01/small-llm-performance-benchmark