Modelle im Vergleich – Benchmark-Übersicht
Wo findet man Benchmarks?
| Quelle |
URL |
Besonderheit |
| Ollama Bibliothek |
ollama.com/library |
Offizielle Modell-Übersicht |
| Artificial Analysis |
artificialanalysis.ai/leaderboards |
Intelligence Index, Speed, Latenz – 300+ Modelle |
| Onyx Self-Hosted LLM |
onyx.app/self-hosted-llm-leaderboard |
VRAM-Anforderungen, Lizenzen, sortierbar |
| WhatLLM |
whatllm.org |
LiveCodeBench für Coding-Benchmarks |
Ollama-Modelle im Überblick
Kleine Modelle (3–5 GB) – für schwache Hardware
| Modell |
Größe |
Stärken |
Ideal für |
gemma3:4b |
3,3 GB |
Multimodal, schnell |
Einstieg, Bilder verstehen |
qwen3.5:7b |
~4,7 GB |
Multilingual, sehr effizient |
Schnelle Aufgaben |
llama3.2:3b |
2,0 GB |
Sehr klein, schnell |
Einfache Chats |
glm4:9b |
5,5 GB |
26 Sprachen, 128k Kontext |
Allround, Deutsch sehr gut |
Mittlere Modelle (8–11 GB) – Sweet Spot für 32 GB RAM
| Modell |
Größe |
MMLU |
HumanEval |
Ideal für |
phi4 |
9,1 GB |
~80% |
– |
Reasoning, Analyse |
phi4-reasoning |
11 GB |
– |
– |
Tiefes Reasoning, Mathe |
qwen2.5-coder:14b |
9 GB |
– |
~85% |
Coding-Spezialist ⭐ |
deepseek-r1:14b |
9 GB |
~82% |
~85% |
Reasoning & Debugging |
gemma3:12b |
8,1 GB |
~75% |
~75% |
Allround, multimodal |
Große Modelle (18–20 GB) – für 32+ GB RAM
| Modell |
Größe |
Stärken |
qwen3-coder:30b |
19 GB |
Bester lokaler Coding-Assistent, 256k Kontext |
deepseek-r1:32b |
~20 GB |
Stärkstes lokales Reasoning-Modell |
gemma4:26b |
~18 GB |
MoE-Architektur, sehr effizient |
Empfehlung nach Hardware
8 GB RAM → gemma3:4b oder qwen3.5:7b
16 GB RAM → phi4:14b oder deepseek-r1:14b
32 GB RAM → qwen3-coder:30b oder qwen2.5:32b ← Empfohlen für Entwickler
64+ GB RAM → deepseek-r1:32b oder llama3.3:70b (mit Q4)
Modell nach Use-Case
| Use-Case |
Bestes Modell |
| Allgemeine Fragen & Deutsch |
llama3.2 oder glm4:9b |
| Softwarekonzepte & Planung |
deepseek-r1:14b oder phi4 |
| Code schreiben (Go, Python, etc.) |
qwen2.5-coder:14b ⭐ |
| Code reviewen |
deepseek-r1:14b |
| Mathe & Logik |
deepseek-r1 oder glm4 |
| Schnell & ressourcensparend |
mistral:7b oder gemma3:4b |
| Agenten-Workflows |
gpt-oss:20b oder deepseek-r1:14b |
Wie weit kommen Open-Source-Modelle an Cloud-KIs heran?
| Modell |
Opus-4.6-Nähe |
Lokal auf 32 GB? |
| GLM-5.1 |
~95% |
❌ Nur API |
| MiniMax M2.5 |
~99% |
❌ Nur API |
| DeepSeek V3.2 |
~85% |
❌ Zu groß (671B) |
| deepseek-r1:32b |
~75% |
⚠️ Knapp |
| phi4-reasoning |
~65% |
✅ Gut |
| deepseek-r1:14b |
~65% |
✅ Gut |
Fazit: Frontier-Qualität wie Claude Opus lokal auf Consumer-Hardware ist Stand 2026 noch nicht möglich. Für die meisten Alltagsaufgaben ist deepseek-r1:14b oder phi4-reasoning aber überraschend gut.
gpt-oss:20b – Besonderheiten
OpenAIs erstes Open-Weight-Modell:
- 131.072 Token Kontext (~131k)
- Mixture-of-Experts: 21B Parameter, 3,6B aktiv
- 16 GB RAM erforderlich
- Native Function Calling, Web-Browsing, Structured Outputs
- Konfigurierbares Reasoning: low / medium / high
Besonders geeignet für: Agenten-Workflows, mehrstufige Aufgaben