KI & Automation
Was ist Data-Cleaning für KI?
Data-Cleaning bereitet Daten auf, bevor eine KI sie verarbeitet. Schlechte Daten führen zu schlechten Ergebnissen. Duplikate entfernen, Formate vereinheitlichen, Fehler korrigieren.
Data Cleaning ist die Aufbereitung von Daten, bevor sie von einem KI-System verarbeitet werden. Es geht darum, Fehler, Inkonsistenzen und Duplikate zu entfernen, Formate zu vereinheitlichen und sicherzustellen, dass die Eingabedaten verlässlich und vollständig sind.
„Garbage in, garbage out” gilt nirgends so konsequent wie bei KI. Ein Sprachmodell kann aus schlechten Eingaben keine guten Ausgaben produzieren. Wenn du Produktbeschreibungen in einem RAG-System speicherst und diese Beschreibungen voller HTML-Tags, doppelter Leerzeichen, Sonderzeichen und inkonsistenter Formatierung sind, wird das Retrieval und die Antwortqualität leiden.
Was Data Cleaning konkret bedeutet
Für Textdaten sind typische Schritte: HTML-Tags entfernen, überschüssige Leerzeichen und Zeilenumbrüche bereinigen, Kodierungsfehler beheben (kaputte Sonderzeichen wie ü statt ü), Duplikate identifizieren und zusammenführen, unvollständige Einträge ergänzen oder aussortieren.
Für strukturierte Daten wie Produktkataloge oder CRM-Exporte kommen hinzu: Datumsformate vereinheitlichen, leere Pflichtfelder identifizieren, numerische Werte auf plausible Bereiche prüfen (Preis von 0 oder -50 ist ein Datenfehler), Kategorien normalisieren (ist es “T-Shirt”, “T Shirt” oder “Tshirt”?).
Für ein RAG-System haben wir einmal einen Produktkatalog eines Kunden aufbereitet, der 8.000 Einträge enthielt. Nach dem Cleaning waren es noch 6.500 bereinigte, eindeutige Einträge. Die Retrieval-Qualität war danach messbar besser.
Data Cleaning als kontinuierlicher Prozess
Das ist kein einmaliger Schritt vor dem ersten Launch. Wenn laufend neue Daten ins System kommen, braucht es eine Cleaning-Pipeline, die neue Einträge automatisch verarbeitet. Manuelles Cleaning bei 50 Produkten ist machbar. Bei 500 neuen Produkten pro Monat nicht mehr.
Wie wir Daten-Pipelines für KI-Systeme strukturieren, zeige ich unter KI-Implementierung und Automation. Termin vereinbaren für eine Einschätzung deiner Datensituation.
Verwandte Fragen
- → Was ist Actionable Intelligence (Verwertbare Intelligenz)?
- → Was ist Big Data und welche Rolle spielt es in der KI?
- → Was ist Data-Mining und wie unterscheidet es sich von KI?
- → Was ist Data-Science und wer braucht einen Data Scientist?
- → Was ist Kognitives Computing und wie hängt es mit KI zusammen?
Vertiefend lesen
Beiträge aus unserem Magazin, die das Thema ausführlicher behandeln.
Wir setzen das mit dir um
Diese Leistungen passen zur Frage. Erstgespräche sind kostenlos.
Mehr zu KI & Automation
Diese Seite gehört zum KI-Leitfaden für den Mittelstand
Im Leitfaden findest du den vollständigen Überblick zum Thema. Hier sind die wichtigsten weiterführenden Pfade.
Wissen ist gut, Umsetzung ist besser
Du willst „Was ist Data-Cleaning für KI" in deinem Unternehmen umsetzen?
Wir setzen genau diese Themen für mittelständische Unternehmen aus dem DACH-Raum täglich um. Wenn du Klarheit für dein Projekt brauchst, sprich uns an.
Kostenloses Erstgespräch
30 Minuten, in denen wir gemeinsam einordnen, was für dein Geschäft sinnvoll ist und welche nächsten Schritte sich rechnen.
Termin buchenWebsite-Check anfordern
Du willst erst eine ehrliche Einschätzung? Wir analysieren deine Website kostenlos auf Schwächen und Potenziale.
Check startenNewsletter abonnieren
1× im Monat: KI- und Automations-Tipps für den Mittelstand. Kein Spam, jederzeit kündbar.
Zum Newsletter