Heimserver & Mini PCs für lokale KI

Die VRAM-Faustregel

Q4-Quantisierung: ~0,5 GB pro Milliarde Parameter

  7B  Modell  →   ~4-5 GB VRAM
  14B Modell  →   ~8-9 GB VRAM
  32B Modell  →  ~18-20 GB VRAM
  70B Modell  →  ~40-43 GB VRAM

Hardware-Tiers nach Budget (Desktop)

Einstieg (~600–800 €) – Gut für 7–14B Modelle

GPU:  NVIDIA RTX 4060 Ti 16 GB  (~400 €)
RAM:  32 GB DDR5
CPU:  Ryzen 5 7600 oder Intel i5-13600K
SSD:  1 TB NVMe
→ 15–25 Token/Sek auf 7B Modellen
→ Läuft: gemma3:12b, glm4:9b, qwen2.5-coder:14b, phi4

Mittelklasse (~1.200–1.500 €) – Sweet Spot

GPU:  RTX 3090 24 GB (gebraucht ~700 €) ← Bestes Preis/Leistung!
RAM:  64 GB DDR5
CPU:  Ryzen 7 7800X3D
SSD:  2 TB NVMe
→ 20–40 Token/Sek auf 14B, 10–20 auf 32B
→ Läuft: qwen3-coder:30b, deepseek-r1:32b

High-End (~2.000–2.500 €)

GPU:  NVIDIA RTX 4090 24 GB (~1.800 €)
RAM:  128 GB DDR5
CPU:  Ryzen 9 7950X
SSD:  4 TB NVMe
→ 40–80 Token/Sek auf 14B, 20–40 auf 32B
→ Alle Modelle bis 70B (mit Q4)

Linux Mini PCs – Mac Mini M4 Pro Alternative

Für 24/7-Betrieb: kompakt, leise, stromsparend.

Grundproblem: Der Mac Mini M4 Pro hat durch Unified Memory (CPU+GPU teilen RAM) einen Architektur-Vorteil. Aber Linux-Mini-PCs sind günstiger und haben ausbaubaren RAM – ein entscheidender Vorteil.

🏆 Beelink SER10 MAX – Bestes Preis/Leistungs-Verhältnis

CPU:   AMD Ryzen AI 9 HX 470 (12 Kerne, Zen 5)
GPU:   AMD Radeon 890M (16 RDNA3 CU) – beste integrierte GPU
RAM:   bis 96 GB DDR5 (upgradeable SO-DIMM!) ⭐
SSD:   2× M.2 NVMe Slots (PCIe 4.0)
Netz:  2× 2,5 GbE LAN
TDP:   ~35–65W
Preis: ~700–750 €
Linux: Ubuntu 24.04 läuft problemlos ✅

GEEKOM GT15 Max – Stärkste integrierte GPU (Intel Arc)

CPU:   Intel Core Ultra 9 285H (22 Kerne)
GPU:   Intel Arc 140T – 77 TOPS (vs. Apple M4: 38 TOPS)
NPU:   13 TOPS dediziert
RAM:   bis 96 GB DDR5 (SO-DIMM)
SSD:   2× M.2 NVMe + WiFi 7 + 2× 2,5 GbE
Preis: ~750–900 €
Linux: Ubuntu 24.04 kompatibel ✅

Minisforum UM890 Pro – Mit eGPU-Option

CPU:   AMD Ryzen 9 8945HS (8 Kerne, Zen 4)
GPU:   AMD Radeon 780M
RAM:   bis 96 GB DDR5
SSD:   2× M.2 NVMe + OCuLink-Port ← eGPU möglich!
Preis: ~500–650 €
Linux: ✅ sehr gut unterstützt

Der OCuLink-Port ermöglicht eine externe NVIDIA-GPU mit nahezu nativer PCIe-Performance.

Direkter Vergleich

	Mac Mini M4 Pro	Beelink SER10	GEEKOM GT15	Minisforum UM890
Preis	~1.400 €	~700 €	~850 €	~600 €
RAM max	64 GB (fest!)	96 GB	96 GB	96 GB
RAM ausbaubar	❌ verlötet	✅ SO-DIMM	✅ SO-DIMM	✅ SO-DIMM
NVMe Slots	1×	2×	2×	2× + OCuLink
Linux	⚠️ möglich	✅ nativ	✅ nativ	✅ nativ
Verbrauch idle	~6W	~15W	~20W	~15W
LLM-Perf (14B)	~15–20 tok/s	~8–12 tok/s	~10–15 tok/s	~8–12 tok/s

Was man für dauerhaften 24/7-Betrieb braucht

✅ Ubuntu Server (headless, kein Desktop)
✅ Ollama als systemd-Service (autostart)
✅ Open WebUI für Netzwerkzugriff
✅ Mindestens 2 TB SSD (Modelle werden groß!)
✅ Gute Kühlung / Gehäuse mit Airflow
✅ Optional: Wake-on-LAN

5-Node Cluster aus alten Büro-PCs (i5-7500T)

Kriterium	Bewertung
Kleine Modelle (3–4B)	✅ Funktioniert gut (~6 tok/s)
Mittlere Modelle (7B)	⚠️ Möglich, aber langsam (~2 tok/s)
Große Modelle (20B+)	⚠️ Nur verteilt via llama.cpp RPC
Mehrere Nutzer parallel	✅ Gut (jeder Node = eigenes Modell)
Dauerbetrieb (24/7)	✅ i5-7500T ist sparsam (~35W)

Fazit: Eine einzelne gebrauchte RTX 3090 (~700 €) schlägt den gesamten 5-Node-Cluster bei KI-Inferenz um Faktor 10–20.

Verteilte Inferenz mit llama.cpp RPC

# Auf allen Worker-Maschinen:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && cmake -B build && cmake --build build --target llama-rpc-server -j4

# Worker starten:
./build/bin/llama-rpc-server --host 0.0.0.0 --port 50052

# Auf Coordinator – Modell verteilt laden:
./build/bin/llama-cli \
  --model ./model-20b-q4.gguf \
  --rpc 192.168.1.101:50052,192.168.1.102:50052,192.168.1.103:50052,192.168.1.104:50052 \
  --n-gpu-layers 0