Heimserver & Mini PCs für lokale KI
Die VRAM-Faustregel
Q4-Quantisierung: ~0,5 GB pro Milliarde Parameter
7B Modell → ~4-5 GB VRAM
14B Modell → ~8-9 GB VRAM
32B Modell → ~18-20 GB VRAM
70B Modell → ~40-43 GB VRAM
Hardware-Tiers nach Budget (Desktop)
Einstieg (~600–800 €) – Gut für 7–14B Modelle
GPU: NVIDIA RTX 4060 Ti 16 GB (~400 €)
RAM: 32 GB DDR5
CPU: Ryzen 5 7600 oder Intel i5-13600K
SSD: 1 TB NVMe
→ 15–25 Token/Sek auf 7B Modellen
→ Läuft: gemma3:12b, glm4:9b, qwen2.5-coder:14b, phi4
Mittelklasse (~1.200–1.500 €) – Sweet Spot
GPU: RTX 3090 24 GB (gebraucht ~700 €) ← Bestes Preis/Leistung!
RAM: 64 GB DDR5
CPU: Ryzen 7 7800X3D
SSD: 2 TB NVMe
→ 20–40 Token/Sek auf 14B, 10–20 auf 32B
→ Läuft: qwen3-coder:30b, deepseek-r1:32b
High-End (~2.000–2.500 €)
GPU: NVIDIA RTX 4090 24 GB (~1.800 €)
RAM: 128 GB DDR5
CPU: Ryzen 9 7950X
SSD: 4 TB NVMe
→ 40–80 Token/Sek auf 14B, 20–40 auf 32B
→ Alle Modelle bis 70B (mit Q4)
Linux Mini PCs – Mac Mini M4 Pro Alternative
Für 24/7-Betrieb: kompakt, leise, stromsparend.
Grundproblem: Der Mac Mini M4 Pro hat durch Unified Memory (CPU+GPU teilen RAM) einen Architektur-Vorteil. Aber Linux-Mini-PCs sind günstiger und haben ausbaubaren RAM – ein entscheidender Vorteil.
🏆 Beelink SER10 MAX – Bestes Preis/Leistungs-Verhältnis
CPU: AMD Ryzen AI 9 HX 470 (12 Kerne, Zen 5)
GPU: AMD Radeon 890M (16 RDNA3 CU) – beste integrierte GPU
RAM: bis 96 GB DDR5 (upgradeable SO-DIMM!) ⭐
SSD: 2× M.2 NVMe Slots (PCIe 4.0)
Netz: 2× 2,5 GbE LAN
TDP: ~35–65W
Preis: ~700–750 €
Linux: Ubuntu 24.04 läuft problemlos ✅
GEEKOM GT15 Max – Stärkste integrierte GPU (Intel Arc)
CPU: Intel Core Ultra 9 285H (22 Kerne)
GPU: Intel Arc 140T – 77 TOPS (vs. Apple M4: 38 TOPS)
NPU: 13 TOPS dediziert
RAM: bis 96 GB DDR5 (SO-DIMM)
SSD: 2× M.2 NVMe + WiFi 7 + 2× 2,5 GbE
Preis: ~750–900 €
Linux: Ubuntu 24.04 kompatibel ✅
Minisforum UM890 Pro – Mit eGPU-Option
CPU: AMD Ryzen 9 8945HS (8 Kerne, Zen 4)
GPU: AMD Radeon 780M
RAM: bis 96 GB DDR5
SSD: 2× M.2 NVMe + OCuLink-Port ← eGPU möglich!
Preis: ~500–650 €
Linux: ✅ sehr gut unterstützt
Der OCuLink-Port ermöglicht eine externe NVIDIA-GPU mit nahezu nativer PCIe-Performance.
Direkter Vergleich
| Mac Mini M4 Pro | Beelink SER10 | GEEKOM GT15 | Minisforum UM890 | |
|---|---|---|---|---|
| Preis | ~1.400 € | ~700 € | ~850 € | ~600 € |
| RAM max | 64 GB (fest!) | 96 GB | 96 GB | 96 GB |
| RAM ausbaubar | ❌ verlötet | ✅ SO-DIMM | ✅ SO-DIMM | ✅ SO-DIMM |
| NVMe Slots | 1× | 2× | 2× | 2× + OCuLink |
| Linux | ⚠️ möglich | ✅ nativ | ✅ nativ | ✅ nativ |
| Verbrauch idle | ~6W | ~15W | ~20W | ~15W |
| LLM-Perf (14B) | ~15–20 tok/s | ~8–12 tok/s | ~10–15 tok/s | ~8–12 tok/s |
Was man für dauerhaften 24/7-Betrieb braucht
✅ Ubuntu Server (headless, kein Desktop)
✅ Ollama als systemd-Service (autostart)
✅ Open WebUI für Netzwerkzugriff
✅ Mindestens 2 TB SSD (Modelle werden groß!)
✅ Gute Kühlung / Gehäuse mit Airflow
✅ Optional: Wake-on-LAN
5-Node Cluster aus alten Büro-PCs (i5-7500T)
| Kriterium | Bewertung |
|---|---|
| Kleine Modelle (3–4B) | ✅ Funktioniert gut (~6 tok/s) |
| Mittlere Modelle (7B) | ⚠️ Möglich, aber langsam (~2 tok/s) |
| Große Modelle (20B+) | ⚠️ Nur verteilt via llama.cpp RPC |
| Mehrere Nutzer parallel | ✅ Gut (jeder Node = eigenes Modell) |
| Dauerbetrieb (24/7) | ✅ i5-7500T ist sparsam (~35W) |
Fazit: Eine einzelne gebrauchte RTX 3090 (~700 €) schlägt den gesamten 5-Node-Cluster bei KI-Inferenz um Faktor 10–20.
Verteilte Inferenz mit llama.cpp RPC
# Auf allen Worker-Maschinen:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build --target llama-rpc-server -j4
# Worker starten:
./build/bin/llama-rpc-server --host 0.0.0.0 --port 50052
# Auf Coordinator – Modell verteilt laden:
./build/bin/llama-cli \
--model ./model-20b-q4.gguf \
--rpc 192.168.1.101:50052,192.168.1.102:50052,192.168.1.103:50052,192.168.1.104:50052 \
--n-gpu-layers 0