KI & Automation
Was ist ein Tokenizer?
Ein Tokenizer zerlegt Text in Tokens, bevor ein KI-Modell ihn verarbeitet. Die Tokenisierung beeinflusst Kosten, Kontextlänge und wie gut ein Modell verschiedene Sprachen versteht.
Ein Tokenizer ist die Software, die Text in Tokens zerlegt, bevor ein KI-Modell ihn verarbeitet. Tokens sind die Grundbausteine, mit denen Sprachmodelle arbeiten. Sie entsprechen ungefähr Silben oder kurzen Wörtern, nicht zwingend ganzen Wörtern.
Jedes Modell hat seinen eigenen Tokenizer. OpenAI nutzt tiktoken, Anthropic einen eigenen Tokenizer für Claude. Das Ergebnis: Derselbe Text hat bei verschiedenen Modellen unterschiedlich viele Tokens, was Kosten und Kontextlänge beeinflusst.
Wie Tokenisierung funktioniert
Das englische Wort “cat” ist typischerweise ein Token. “Unbelievable” kann in drei Tokens zerlegt werden: “Un”, “believ”, “able”. Im Deutschen wird es komplizierter: „Kraftfahrzeugsteuer” können sechs oder mehr Tokens sein, abhängig vom Tokenizer.
Das hat praktische Konsequenzen. Deutsch braucht bei gleicher Aussage mehr Tokens als Englisch. Eine Faustregel: Ein deutsches Wort entspricht etwa 1,5-2 Tokens. Ein englisches etwa 1 Token. Wer also Kosten für deutsche KI-Anwendungen kalkuliert, muss mit höheren Token-Zahlen rechnen als für englischen Text.
Warum das für Entwickler relevant ist
Wenn du ein Prompt-Template baust und weißt, dass ein Produktname maximal 50 Zeichen lang ist, schätzt du nicht einfach 50 Tokens. Du rechnest mit dem Tokenizer des jeweiligen Modells, um den genauen Wert zu ermitteln. OpenAI bietet dafür das Tool „Tokenizer” auf ihrer Website an, mit dem du jeden Text manuell prüfen kannst.
Beim Aufbau von RAG-Systemen ist der Tokenizer entscheidend für die Chunk-Größe. 500 Tokens bedeuten bei einer deutschen Wissensbasis etwas anderes als bei einer englischen. Wir konfigurieren Chunking-Parameter immer sprachspezifisch.
Mehr zu den technischen Grundlagen von KI-Systemen unter KI-Implementierung. Für individuelle Softwarelösungen mit KI-Integration sieh dir auch Softwareentwicklung an. Termin buchen.
Lass uns herausfinden, was bei dir möglich ist.
Kostenlos, unverbindlich, ohne Verkaufsdruck. Wir schauen uns gemeinsam an, wo du stehst, was dich bremst und was die nächsten sinnvollen Schritte wären.