GPU & VRAM – Grundlagen für lokale KI

GPU ermitteln auf Ubuntu 24.04

# Schnellste Methode
lspci | grep -i vga

# Detaillierte Ausgabe
lspci -v | grep -A 10 -i "vga\|display\|3d"

Wie viel VRAM hat die GPU?

# NVIDIA
nvidia-smi

# AMD
rocm-smi
# oder:
sudo cat /sys/class/drm/card0/device/mem_info_vram_total

# Intel
sudo apt install intel-gpu-tools && sudo intel_gpu_top

Wird die GPU von Ollama erkannt?

ollama ps  # Zeigt laufende Modelle und Beschleuniger

# Logs prüfen
journalctl -u ollama -f

In den Logs sollte stehen:

# NVIDIA erkannt ✅
level=INFO msg="inference compute" library=cuda name="NVIDIA RTX 3080" total="10.0 GiB"

# Nur CPU ⚠️
level=INFO msg="inference compute" library=cpu

GPU-Typen und ihre KI-Eignung

GPU	VRAM	Eignet sich für
NVIDIA RTX 4060 Ti	16 GB	Modelle bis 13B (Q4)
NVIDIA RTX 3080	10 GB	Modelle bis 13B (Q4)
NVIDIA RTX 3090	24 GB	Modelle bis 32B (Q4) ⭐ bestes Preis/Leistung gebraucht
NVIDIA RTX 4090	24 GB	Alle Modelle bis 32B, sehr schnell
AMD RX 6800 XT	16 GB	Experimentell, ROCm erforderlich
Intel Arc (integriert)	Kein eigener VRAM	IPEX-LLM, mäßige Verbesserung
Integrierte GPU allg.	Kein VRAM	Nicht nutzbar, CPU-Fallback

NVIDIA Treiber installieren (Ubuntu)

# Prüfen ob bereits installiert
nvidia-smi

# Falls nicht: Automatisch besten Treiber installieren
sudo ubuntu-drivers autoinstall
sudo reboot

# Nach Neustart prüfen
nvidia-smi

Intel Arc (Meteor Lake / integriert) mit IPEX-LLM

Für integrierte Intel Arc GPUs (wie im Lenovo Laptop mit Core Ultra):

# Prüfen ob renderD128 vorhanden
ls /dev/dri/
# Muss renderD128 enthalten ✅

# IPEX-LLM Docker mit Intel Arc Support
docker run -d --restart=always \
  --net=bridge \
  --device=/dev/dri \
  -p 11434:11434 \
  -v ~/.ollama/models:/root/.ollama/models \
  -e OLLAMA_INTEL_GPU=true \
  -e ONEAPI_DEVICE_SELECTOR=level_zero:0 \
  -e DEVICE=Arc \
  --shm-size="16g" \
  --name=ipex-llm \
  intelanalytics/ipex-llm-inference-cpp-xpu:latest \
  bash -c "cd /llm/scripts/ && source ipex-llm-init --gpu --device Arc && bash start-ollama.sh"

Empfehlung: Bei integrierten GPUs ist der Aufwand für GPU-Beschleunigung oft nicht lohnenswert. Standard CPU-Modus in Ollama reicht für den Einstieg völlig aus.

Erwartete Geschwindigkeit (Token/Sekunde)

Setup	3B Modell	7B Modell	14B Modell
RTX 4090 (24 GB)	~80 tok/s	~50 tok/s	~30 tok/s
RTX 3090 (24 GB)	~60 tok/s	~40 tok/s	~25 tok/s
RTX 3080 (10 GB)	~50 tok/s	~35 tok/s	CPU-Fallback
Intel Core Ultra 7 (CPU)	~8 tok/s	~5 tok/s	~3 tok/s
i5-7500T (CPU)	~6 tok/s	~2 tok/s	❌ zu langsam

Ab ~5 Token/Sek ist Chat gut nutzbar.