KI & Automation
Was ist Data Cleaning für KI?
Data Cleaning bereitet Daten auf, bevor eine KI sie verarbeitet. Schlechte Daten führen zu schlechten Ergebnissen. Duplikate entfernen, Formate vereinheitlichen, Fehler korrigieren.
Data Cleaning ist die Aufbereitung von Daten, bevor sie von einem KI-System verarbeitet werden. Es geht darum, Fehler, Inkonsistenzen und Duplikate zu entfernen, Formate zu vereinheitlichen und sicherzustellen, dass die Eingabedaten verlässlich und vollständig sind.
„Garbage in, garbage out” gilt nirgends so konsequent wie bei KI. Ein Sprachmodell kann aus schlechten Eingaben keine guten Ausgaben produzieren. Wenn du Produktbeschreibungen in einem RAG-System speicherst und diese Beschreibungen voller HTML-Tags, doppelter Leerzeichen, Sonderzeichen und inkonsistenter Formatierung sind, wird das Retrieval und die Antwortqualität leiden.
Was Data Cleaning konkret bedeutet
Für Textdaten sind typische Schritte: HTML-Tags entfernen, überschüssige Leerzeichen und Zeilenumbrüche bereinigen, Kodierungsfehler beheben (kaputte Sonderzeichen wie ü statt ü), Duplikate identifizieren und zusammenführen, unvollständige Einträge ergänzen oder aussortieren.
Für strukturierte Daten wie Produktkataloge oder CRM-Exporte kommen hinzu: Datumsformate vereinheitlichen, leere Pflichtfelder identifizieren, numerische Werte auf plausible Bereiche prüfen (Preis von 0 oder -50 ist ein Datenfehler), Kategorien normalisieren (ist es “T-Shirt”, “T Shirt” oder “Tshirt”?).
Für ein RAG-System haben wir einmal einen Produktkatalog eines Kunden aufbereitet, der 8.000 Einträge enthielt. Nach dem Cleaning waren es noch 6.500 bereinigte, eindeutige Einträge. Die Retrieval-Qualität war danach messbar besser.
Data Cleaning als kontinuierlicher Prozess
Das ist kein einmaliger Schritt vor dem ersten Launch. Wenn laufend neue Daten ins System kommen, braucht es eine Cleaning-Pipeline, die neue Einträge automatisch verarbeitet. Manuelles Cleaning bei 50 Produkten ist machbar. Bei 500 neuen Produkten pro Monat nicht mehr.
Wie wir Daten-Pipelines für KI-Systeme strukturieren, zeige ich unter KI-Implementierung und Automation. Termin vereinbaren für eine Einschätzung deiner Datensituation.
Lass uns herausfinden, was bei dir möglich ist.
Kostenlos, unverbindlich, ohne Verkaufsdruck. Wir schauen uns gemeinsam an, wo du stehst, was dich bremst und was die nächsten sinnvollen Schritte wären.