Zum Inhalt

Modelle im Vergleich – Benchmark-Übersicht

Wo findet man Benchmarks?

Quelle URL Besonderheit
Ollama Bibliothek ollama.com/library Offizielle Modell-Übersicht
Artificial Analysis artificialanalysis.ai/leaderboards Intelligence Index, Speed, Latenz – 300+ Modelle
Onyx Self-Hosted LLM onyx.app/self-hosted-llm-leaderboard VRAM-Anforderungen, Lizenzen, sortierbar
WhatLLM whatllm.org LiveCodeBench für Coding-Benchmarks

Ollama-Modelle im Überblick

Kleine Modelle (3–5 GB) – für schwache Hardware

Modell Größe Stärken Ideal für
gemma3:4b 3,3 GB Multimodal, schnell Einstieg, Bilder verstehen
qwen3.5:7b ~4,7 GB Multilingual, sehr effizient Schnelle Aufgaben
llama3.2:3b 2,0 GB Sehr klein, schnell Einfache Chats
glm4:9b 5,5 GB 26 Sprachen, 128k Kontext Allround, Deutsch sehr gut

Mittlere Modelle (8–11 GB) – Sweet Spot für 32 GB RAM

Modell Größe MMLU HumanEval Ideal für
phi4 9,1 GB ~80% Reasoning, Analyse
phi4-reasoning 11 GB Tiefes Reasoning, Mathe
qwen2.5-coder:14b 9 GB ~85% Coding-Spezialist ⭐
deepseek-r1:14b 9 GB ~82% ~85% Reasoning & Debugging
gemma3:12b 8,1 GB ~75% ~75% Allround, multimodal

Große Modelle (18–20 GB) – für 32+ GB RAM

Modell Größe Stärken
qwen3-coder:30b 19 GB Bester lokaler Coding-Assistent, 256k Kontext
deepseek-r1:32b ~20 GB Stärkstes lokales Reasoning-Modell
gemma4:26b ~18 GB MoE-Architektur, sehr effizient

Empfehlung nach Hardware

8 GB  RAM  → gemma3:4b    oder  qwen3.5:7b
16 GB RAM  → phi4:14b     oder  deepseek-r1:14b
32 GB RAM  → qwen3-coder:30b  oder  qwen2.5:32b   ← Empfohlen für Entwickler
64+ GB RAM → deepseek-r1:32b  oder  llama3.3:70b (mit Q4)

Modell nach Use-Case

Use-Case Bestes Modell
Allgemeine Fragen & Deutsch llama3.2 oder glm4:9b
Softwarekonzepte & Planung deepseek-r1:14b oder phi4
Code schreiben (Go, Python, etc.) qwen2.5-coder:14b
Code reviewen deepseek-r1:14b
Mathe & Logik deepseek-r1 oder glm4
Schnell & ressourcensparend mistral:7b oder gemma3:4b
Agenten-Workflows gpt-oss:20b oder deepseek-r1:14b

Wie weit kommen Open-Source-Modelle an Cloud-KIs heran?

Modell Opus-4.6-Nähe Lokal auf 32 GB?
GLM-5.1 ~95% ❌ Nur API
MiniMax M2.5 ~99% ❌ Nur API
DeepSeek V3.2 ~85% ❌ Zu groß (671B)
deepseek-r1:32b ~75% ⚠️ Knapp
phi4-reasoning ~65% ✅ Gut
deepseek-r1:14b ~65% ✅ Gut

Fazit: Frontier-Qualität wie Claude Opus lokal auf Consumer-Hardware ist Stand 2026 noch nicht möglich. Für die meisten Alltagsaufgaben ist deepseek-r1:14b oder phi4-reasoning aber überraschend gut.


gpt-oss:20b – Besonderheiten

ollama pull gpt-oss:20b

OpenAIs erstes Open-Weight-Modell: - 131.072 Token Kontext (~131k) - Mixture-of-Experts: 21B Parameter, 3,6B aktiv - 16 GB RAM erforderlich - Native Function Calling, Web-Browsing, Structured Outputs - Konfigurierbares Reasoning: low / medium / high

Besonders geeignet für: Agenten-Workflows, mehrstufige Aufgaben