Zum Inhalt springen
Business.Digital Business.Digital
KI & Automation

KI & Automation

Was ist Chunking?

Chunking teilt Texte in kleinere Abschnitte auf, bevor sie als Embeddings gespeichert werden. Die Chunk-Größe beeinflusst direkt die Präzision semantischer Suchen.

Robot hält einen Datei-Stack der in kleinere Segmente aufgeteilt wird

Chunking bezeichnet das Aufteilen langer Texte in kleinere Abschnitte, sogenannte Chunks, bevor sie als Embeddings in einem Vektorstore gespeichert werden. Klingt technisch, hat aber massive Auswirkungen auf die Qualität eines RAG-Systems.

Das Problem: Wenn du ein ganzes 50-seitiges Handbuch als ein einziges Embedding speicherst, enthält der resultierende Vektor so viel vermischte Information, dass er bei keiner spezifischen Frage wirklich gut passt. Du brauchst kleinere, präzisere Einheiten.

Die richtige Chunk-Größe finden

Es gibt keine universell richtige Chunk-Größe. Als Faustregel: Chunks zwischen 300 und 800 Tokens funktionieren für die meisten Anwendungsfälle gut. Kleiner als 200 Tokens verliert der Chunk oft den nötigen Kontext. Größer als 1.000 Tokens wird er zu unspezifisch.

Für technische Dokumentationen mit vielen Einzelfakten empfehlen wir kleinere Chunks (250-400 Tokens), damit jede spezifische Information ihren eigenen Vektor bekommt. Für narrative Texte wie Blog-Artikel oder Fallstudien sind größere Chunks (500-800 Tokens) sinnvoller, damit Zusammenhänge erhalten bleiben.

Ein häufiger Fehler: Chunks werden mechanisch nach Zeichenzahl aufgeteilt, mitten in einem Satz. Besser ist semantisches Chunking, das an natürlichen Grenzen trennt. Absätze, Überschriften, Aufzählungspunkte. Die meisten Frameworks wie LangChain oder LlamaIndex bieten dafür fertige Implementierungen.

Overlap als Sicherheitsnetz

Eine bewährte Technik ist das Hinzufügen von Overlap. Die letzten 50-100 Tokens eines Chunks werden als Anfang des nächsten Chunks wiederholt. Das stellt sicher, dass Information an Chunk-Grenzen nicht verloren geht. Bei einem Overlap von 10-20% bleibt der Kontext erhalten, ohne den Speicherbedarf zu verdoppeln.

Die Chunk-Strategie ist einer der wenigen Parameter bei RAG-Systemen, der regelmäßige Evaluation erfordert. Was bei einem Kunden gut funktioniert, muss bei einem anderen nicht passen. Wir testen verschiedene Konfigurationen und messen die Retrievalqualität, bevor wir ein System produktiv nehmen.

Mehr über den Aufbau von RAG-Systemen und KI-Wissensdatenbanken findest du unter KI-Implementierung. Fragen? Meld dich direkt.

Lass uns herausfinden, was bei dir möglich ist.

Kostenlos, unverbindlich, ohne Verkaufsdruck. Wir schauen uns gemeinsam an, wo du stehst, was dich bremst und was die nächsten sinnvollen Schritte wären.

Weiterführende Ressourcen

Alles was du brauchst, um dein Business zu digitalisieren – von praktischen Tools bis hin zu tiefgehendem Expertenwissen.

Tools & Services

Nützliche Helfer für deinen Geschäftsalltag.

Magazin

Praxiswissen zu Digitalisierung, E-Commerce und Automation.

FAQ

Antworten und Erklärungen zu digitalen Themen.