Tokens & Kontext – Grundkonzepte

Das Wort „Token" hat zwei völlig verschiedene Bedeutungen

Das ist eine der häufigsten Verwirrungsquellen beim Einstieg in KI-Themen.

Bedeutung 1: Token = Abrechnungseinheit (kommerzielle KIs)

Bei Claude, ChatGPT, Gemini usw. ist ein Token eine kostenpflichtige Verbrauchseinheit – du zahlst pro Token den das Modell liest oder schreibt.

Claude API:  ~$3 pro 1 Million Input-Tokens
ChatGPT:     ~$2,50 pro 1 Million Input-Tokens
→ Hier ist Token = Geld

Bedeutung 2: Token = Technische Texteinheit (jedes KI-Modell)

Bei Ollama und lokalen Modellen bedeutet Token nichts anderes als eine Maßeinheit für Textmenge – wie Zentimeter für Länge. Kostenlos oder nicht, jedes Sprachmodell verarbeitet Text intern als Tokens.

"Ich programmiere gerne in Go."
→ ["Ich", " program", "miere", " gerne", " in", " Go", "."]
→ 7 Tokens

Faustregel:
  1 Token ≈ 0,75 Wörter (Englisch)
  1 Token ≈ 0,50 Wörter (Deutsch – längere Wörter)

Was bedeutet „64.000 Token Kontext-Länge"?

Das ist das Kurzzeitgedächtnis des Modells – wie viel Text es gleichzeitig „im Kopf halten" kann.

64.000 Token ≈ ca. 48.000 deutsche Wörter
             ≈ ein kompletter Roman
             ≈ ~500 KB Code

Das Kontext-Fenster visualisiert

┌─────────────────────────────────────────────┐
│           KONTEXT-FENSTER (64k)              │
│                                              │
│  • Deine SOUL.md / Regeln       (~2k)        │
│  • Bisheriger Chat-Verlauf      (~10k)       │
│  • Geöffnete Code-Dateien       (~20k)       │
│  • Aufgaben & Erinnerungen      (~5k)        │
│  • Noch freier Platz            (~27k)  ✅   │
└─────────────────────────────────────────────┘

Modell mit nur 4.000 Token Kontext:
┌────────────────────┐
│  Regeln  (~2k)     │
│  Code    (~2k)     │
│  Rest?  ❌ VOLL!   │
└────────────────────┘
→ Agent vergisst nach wenigen Nachrichten alles

Was bedeutet MMLU und HumanEval?

MMLU — Massive Multitask Language Understanding

Ein Wissens- und Verständnis-Test mit Multiple-Choice-Fragen aus 57 Themenbereichen.

~50%  → Raten (Zufallsniveau bei 4 Antworten)
~70%  → Durchschnittlicher Mensch
~80%  → Guter Student / Fachmann
~86%  → GPT-4 (Maßstab)
~90%+ → Besser als die meisten Experten

HumanEval — Code-Generierungs-Benchmark

Das Modell bekommt eine Funktionsbeschreibung und muss den Code ergänzen. Getestet mit echten Unit-Tests.

Pass@1: Prozentsatz der Aufgaben beim ersten Versuch korrekt gelöst

~60%  → Grundlegend brauchbar
~75%  → Solider Coding-Assistent
~85%  → Sehr gut, GPT-4-Niveau
~92%  → Frontier-Level (qwen3-coder)

Was bedeutet VRAM (Q4)?

VRAM = Video RAM = Speicher deiner Grafikkarte.

Q4 = Quantisierung auf 4 Bit. Das Modell wird komprimiert:

Original (FP16):  Llama 70B → ~140 GB  ❌
Q4-Quantisiert:   Llama 70B →  ~40 GB  ✅

Qualitätsverlust durch Q4: < 2% — kaum spürbar

Quantisierung	Qualität	Speicher
FP16	100%	Voll
Q8	~99%	Halb
Q4	~98%	Viertel ← Standard bei Ollama
Q2	~90%	Sehr wenig (spürbare Einbußen)