Zum Inhalt

GPU & VRAM – Grundlagen für lokale KI

GPU ermitteln auf Ubuntu 24.04

# Schnellste Methode
lspci | grep -i vga

# Detaillierte Ausgabe
lspci -v | grep -A 10 -i "vga\|display\|3d"

Wie viel VRAM hat die GPU?

# NVIDIA
nvidia-smi

# AMD
rocm-smi
# oder:
sudo cat /sys/class/drm/card0/device/mem_info_vram_total

# Intel
sudo apt install intel-gpu-tools && sudo intel_gpu_top

Wird die GPU von Ollama erkannt?

ollama ps  # Zeigt laufende Modelle und Beschleuniger

# Logs prüfen
journalctl -u ollama -f

In den Logs sollte stehen:

# NVIDIA erkannt ✅
level=INFO msg="inference compute" library=cuda name="NVIDIA RTX 3080" total="10.0 GiB"

# Nur CPU ⚠️
level=INFO msg="inference compute" library=cpu

GPU-Typen und ihre KI-Eignung

GPU VRAM Eignet sich für
NVIDIA RTX 4060 Ti 16 GB Modelle bis 13B (Q4)
NVIDIA RTX 3080 10 GB Modelle bis 13B (Q4)
NVIDIA RTX 3090 24 GB Modelle bis 32B (Q4) ⭐ bestes Preis/Leistung gebraucht
NVIDIA RTX 4090 24 GB Alle Modelle bis 32B, sehr schnell
AMD RX 6800 XT 16 GB Experimentell, ROCm erforderlich
Intel Arc (integriert) Kein eigener VRAM IPEX-LLM, mäßige Verbesserung
Integrierte GPU allg. Kein VRAM Nicht nutzbar, CPU-Fallback

NVIDIA Treiber installieren (Ubuntu)

# Prüfen ob bereits installiert
nvidia-smi

# Falls nicht: Automatisch besten Treiber installieren
sudo ubuntu-drivers autoinstall
sudo reboot

# Nach Neustart prüfen
nvidia-smi

Intel Arc (Meteor Lake / integriert) mit IPEX-LLM

Für integrierte Intel Arc GPUs (wie im Lenovo Laptop mit Core Ultra):

# Prüfen ob renderD128 vorhanden
ls /dev/dri/
# Muss renderD128 enthalten ✅

# IPEX-LLM Docker mit Intel Arc Support
docker run -d --restart=always \
  --net=bridge \
  --device=/dev/dri \
  -p 11434:11434 \
  -v ~/.ollama/models:/root/.ollama/models \
  -e OLLAMA_INTEL_GPU=true \
  -e ONEAPI_DEVICE_SELECTOR=level_zero:0 \
  -e DEVICE=Arc \
  --shm-size="16g" \
  --name=ipex-llm \
  intelanalytics/ipex-llm-inference-cpp-xpu:latest \
  bash -c "cd /llm/scripts/ && source ipex-llm-init --gpu --device Arc && bash start-ollama.sh"

Empfehlung: Bei integrierten GPUs ist der Aufwand für GPU-Beschleunigung oft nicht lohnenswert. Standard CPU-Modus in Ollama reicht für den Einstieg völlig aus.


Erwartete Geschwindigkeit (Token/Sekunde)

Setup 3B Modell 7B Modell 14B Modell
RTX 4090 (24 GB) ~80 tok/s ~50 tok/s ~30 tok/s
RTX 3090 (24 GB) ~60 tok/s ~40 tok/s ~25 tok/s
RTX 3080 (10 GB) ~50 tok/s ~35 tok/s CPU-Fallback
Intel Core Ultra 7 (CPU) ~8 tok/s ~5 tok/s ~3 tok/s
i5-7500T (CPU) ~6 tok/s ~2 tok/s ❌ zu langsam

Ab ~5 Token/Sek ist Chat gut nutzbar.