GPU & VRAM – Grundlagen für lokale KI
GPU ermitteln auf Ubuntu 24.04
# Schnellste Methode
lspci | grep -i vga
# Detaillierte Ausgabe
lspci -v | grep -A 10 -i "vga\|display\|3d"
Wie viel VRAM hat die GPU?
# NVIDIA
nvidia-smi
# AMD
rocm-smi
# oder:
sudo cat /sys/class/drm/card0/device/mem_info_vram_total
# Intel
sudo apt install intel-gpu-tools && sudo intel_gpu_top
Wird die GPU von Ollama erkannt?
In den Logs sollte stehen:
# NVIDIA erkannt ✅
level=INFO msg="inference compute" library=cuda name="NVIDIA RTX 3080" total="10.0 GiB"
# Nur CPU ⚠️
level=INFO msg="inference compute" library=cpu
GPU-Typen und ihre KI-Eignung
| GPU | VRAM | Eignet sich für |
|---|---|---|
| NVIDIA RTX 4060 Ti | 16 GB | Modelle bis 13B (Q4) |
| NVIDIA RTX 3080 | 10 GB | Modelle bis 13B (Q4) |
| NVIDIA RTX 3090 | 24 GB | Modelle bis 32B (Q4) ⭐ bestes Preis/Leistung gebraucht |
| NVIDIA RTX 4090 | 24 GB | Alle Modelle bis 32B, sehr schnell |
| AMD RX 6800 XT | 16 GB | Experimentell, ROCm erforderlich |
| Intel Arc (integriert) | Kein eigener VRAM | IPEX-LLM, mäßige Verbesserung |
| Integrierte GPU allg. | Kein VRAM | Nicht nutzbar, CPU-Fallback |
NVIDIA Treiber installieren (Ubuntu)
# Prüfen ob bereits installiert
nvidia-smi
# Falls nicht: Automatisch besten Treiber installieren
sudo ubuntu-drivers autoinstall
sudo reboot
# Nach Neustart prüfen
nvidia-smi
Intel Arc (Meteor Lake / integriert) mit IPEX-LLM
Für integrierte Intel Arc GPUs (wie im Lenovo Laptop mit Core Ultra):
# Prüfen ob renderD128 vorhanden
ls /dev/dri/
# Muss renderD128 enthalten ✅
# IPEX-LLM Docker mit Intel Arc Support
docker run -d --restart=always \
--net=bridge \
--device=/dev/dri \
-p 11434:11434 \
-v ~/.ollama/models:/root/.ollama/models \
-e OLLAMA_INTEL_GPU=true \
-e ONEAPI_DEVICE_SELECTOR=level_zero:0 \
-e DEVICE=Arc \
--shm-size="16g" \
--name=ipex-llm \
intelanalytics/ipex-llm-inference-cpp-xpu:latest \
bash -c "cd /llm/scripts/ && source ipex-llm-init --gpu --device Arc && bash start-ollama.sh"
Empfehlung: Bei integrierten GPUs ist der Aufwand für GPU-Beschleunigung oft nicht lohnenswert. Standard CPU-Modus in Ollama reicht für den Einstieg völlig aus.
Erwartete Geschwindigkeit (Token/Sekunde)
| Setup | 3B Modell | 7B Modell | 14B Modell |
|---|---|---|---|
| RTX 4090 (24 GB) | ~80 tok/s | ~50 tok/s | ~30 tok/s |
| RTX 3090 (24 GB) | ~60 tok/s | ~40 tok/s | ~25 tok/s |
| RTX 3080 (10 GB) | ~50 tok/s | ~35 tok/s | CPU-Fallback |
| Intel Core Ultra 7 (CPU) | ~8 tok/s | ~5 tok/s | ~3 tok/s |
| i5-7500T (CPU) | ~6 tok/s | ~2 tok/s | ❌ zu langsam |
Ab ~5 Token/Sek ist Chat gut nutzbar.