Modelle im Vergleich – Benchmark-Übersicht

Wo findet man Benchmarks?

Quelle	URL	Besonderheit
Ollama Bibliothek	ollama.com/library	Offizielle Modell-Übersicht
Artificial Analysis	artificialanalysis.ai/leaderboards	Intelligence Index, Speed, Latenz – 300+ Modelle
Onyx Self-Hosted LLM	onyx.app/self-hosted-llm-leaderboard	VRAM-Anforderungen, Lizenzen, sortierbar
WhatLLM	whatllm.org	LiveCodeBench für Coding-Benchmarks

Ollama-Modelle im Überblick

Kleine Modelle (3–5 GB) – für schwache Hardware

Modell	Größe	Stärken	Ideal für
`gemma3:4b`	3,3 GB	Multimodal, schnell	Einstieg, Bilder verstehen
`qwen3.5:7b`	~4,7 GB	Multilingual, sehr effizient	Schnelle Aufgaben
`llama3.2:3b`	2,0 GB	Sehr klein, schnell	Einfache Chats
`glm4:9b`	5,5 GB	26 Sprachen, 128k Kontext	Allround, Deutsch sehr gut

Mittlere Modelle (8–11 GB) – Sweet Spot für 32 GB RAM

Modell	Größe	MMLU	HumanEval	Ideal für
`phi4`	9,1 GB	~80%	–	Reasoning, Analyse
`phi4-reasoning`	11 GB	–	–	Tiefes Reasoning, Mathe
`qwen2.5-coder:14b`	9 GB	–	~85%	Coding-Spezialist ⭐
`deepseek-r1:14b`	9 GB	~82%	~85%	Reasoning & Debugging
`gemma3:12b`	8,1 GB	~75%	~75%	Allround, multimodal

Große Modelle (18–20 GB) – für 32+ GB RAM

Modell	Größe	Stärken
`qwen3-coder:30b`	19 GB	Bester lokaler Coding-Assistent, 256k Kontext
`deepseek-r1:32b`	~20 GB	Stärkstes lokales Reasoning-Modell
`gemma4:26b`	~18 GB	MoE-Architektur, sehr effizient

Empfehlung nach Hardware

8 GB  RAM  → gemma3:4b    oder  qwen3.5:7b
16 GB RAM  → phi4:14b     oder  deepseek-r1:14b
32 GB RAM  → qwen3-coder:30b  oder  qwen2.5:32b   ← Empfohlen für Entwickler
64+ GB RAM → deepseek-r1:32b  oder  llama3.3:70b (mit Q4)

Modell nach Use-Case

Use-Case	Bestes Modell
Allgemeine Fragen & Deutsch	`llama3.2` oder `glm4:9b`
Softwarekonzepte & Planung	`deepseek-r1:14b` oder `phi4`
Code schreiben (Go, Python, etc.)	`qwen2.5-coder:14b` ⭐
Code reviewen	`deepseek-r1:14b`
Mathe & Logik	`deepseek-r1` oder `glm4`
Schnell & ressourcensparend	`mistral:7b` oder `gemma3:4b`
Agenten-Workflows	`gpt-oss:20b` oder `deepseek-r1:14b`

Wie weit kommen Open-Source-Modelle an Cloud-KIs heran?

Modell	Opus-4.6-Nähe	Lokal auf 32 GB?
GLM-5.1	~95%	❌ Nur API
MiniMax M2.5	~99%	❌ Nur API
DeepSeek V3.2	~85%	❌ Zu groß (671B)
deepseek-r1:32b	~75%	⚠️ Knapp
phi4-reasoning	~65%	✅ Gut
deepseek-r1:14b	~65%	✅ Gut

Fazit: Frontier-Qualität wie Claude Opus lokal auf Consumer-Hardware ist Stand 2026 noch nicht möglich. Für die meisten Alltagsaufgaben ist deepseek-r1:14b oder phi4-reasoning aber überraschend gut.

gpt-oss:20b – Besonderheiten

ollama pull gpt-oss:20b

OpenAIs erstes Open-Weight-Modell: - 131.072 Token Kontext (~131k) - Mixture-of-Experts: 21B Parameter, 3,6B aktiv - 16 GB RAM erforderlich - Native Function Calling, Web-Browsing, Structured Outputs - Konfigurierbares Reasoning: low / medium / high

Besonders geeignet für: Agenten-Workflows, mehrstufige Aufgaben