Tokens & Kontext – Grundkonzepte
Das Wort „Token" hat zwei völlig verschiedene Bedeutungen
Das ist eine der häufigsten Verwirrungsquellen beim Einstieg in KI-Themen.
Bedeutung 1: Token = Abrechnungseinheit (kommerzielle KIs)
Bei Claude, ChatGPT, Gemini usw. ist ein Token eine kostenpflichtige Verbrauchseinheit – du zahlst pro Token den das Modell liest oder schreibt.
Claude API: ~$3 pro 1 Million Input-Tokens
ChatGPT: ~$2,50 pro 1 Million Input-Tokens
→ Hier ist Token = Geld
Bedeutung 2: Token = Technische Texteinheit (jedes KI-Modell)
Bei Ollama und lokalen Modellen bedeutet Token nichts anderes als eine Maßeinheit für Textmenge – wie Zentimeter für Länge. Kostenlos oder nicht, jedes Sprachmodell verarbeitet Text intern als Tokens.
"Ich programmiere gerne in Go."
→ ["Ich", " program", "miere", " gerne", " in", " Go", "."]
→ 7 Tokens
Faustregel:
1 Token ≈ 0,75 Wörter (Englisch)
1 Token ≈ 0,50 Wörter (Deutsch – längere Wörter)
Was bedeutet „64.000 Token Kontext-Länge"?
Das ist das Kurzzeitgedächtnis des Modells – wie viel Text es gleichzeitig „im Kopf halten" kann.
Das Kontext-Fenster visualisiert
┌─────────────────────────────────────────────┐
│ KONTEXT-FENSTER (64k) │
│ │
│ • Deine SOUL.md / Regeln (~2k) │
│ • Bisheriger Chat-Verlauf (~10k) │
│ • Geöffnete Code-Dateien (~20k) │
│ • Aufgaben & Erinnerungen (~5k) │
│ • Noch freier Platz (~27k) ✅ │
└─────────────────────────────────────────────┘
Modell mit nur 4.000 Token Kontext:
┌────────────────────┐
│ Regeln (~2k) │
│ Code (~2k) │
│ Rest? ❌ VOLL! │
└────────────────────┘
→ Agent vergisst nach wenigen Nachrichten alles
Was bedeutet MMLU und HumanEval?
MMLU — Massive Multitask Language Understanding
Ein Wissens- und Verständnis-Test mit Multiple-Choice-Fragen aus 57 Themenbereichen.
~50% → Raten (Zufallsniveau bei 4 Antworten)
~70% → Durchschnittlicher Mensch
~80% → Guter Student / Fachmann
~86% → GPT-4 (Maßstab)
~90%+ → Besser als die meisten Experten
HumanEval — Code-Generierungs-Benchmark
Das Modell bekommt eine Funktionsbeschreibung und muss den Code ergänzen. Getestet mit echten Unit-Tests.
Pass@1: Prozentsatz der Aufgaben beim ersten Versuch korrekt gelöst
~60% → Grundlegend brauchbar
~75% → Solider Coding-Assistent
~85% → Sehr gut, GPT-4-Niveau
~92% → Frontier-Level (qwen3-coder)
Was bedeutet VRAM (Q4)?
VRAM = Video RAM = Speicher deiner Grafikkarte.
Q4 = Quantisierung auf 4 Bit. Das Modell wird komprimiert:
Original (FP16): Llama 70B → ~140 GB ❌
Q4-Quantisiert: Llama 70B → ~40 GB ✅
Qualitätsverlust durch Q4: < 2% — kaum spürbar
| Quantisierung | Qualität | Speicher |
|---|---|---|
| FP16 | 100% | Voll |
| Q8 | ~99% | Halb |
| Q4 | ~98% | Viertel ← Standard bei Ollama |
| Q2 | ~90% | Sehr wenig (spürbare Einbußen) |