Datenbereinigung für CRM-Migration: Deduplizierung, Normalisierung, Anreicherung

Eine CRM-Migration ist die beste Gelegenheit, die Datenqualität zu verbessern. Die meisten Teams verpassen sie, weil sie die Bereinigung als Aufgabe nach der Migration behandeln — etwas, das nach dem Go-live erledigt wird, wenn die Dinge sich beruhigt haben. Die Dinge beruhigen sich nicht. Der Post-Migrations-Rückstand wird nie abgebaut. Und sechs Monate später arbeiten die Vertriebsmitarbeiter mit einem neuen System, das dieselben schlechten Daten wie das alte enthält, plus neue Fehler, die beim Import entstanden sind.

Die RevOps-Leiterin eines Unternehmens führte eine Migration von 8.000 Kontakten von HubSpot zu einem neuen CRM durch. Nach dem Import entdeckte sie 2.400 doppelte Kontakte. Eine 3-stündige Deduplizierungssitzung vor dem Export hätte das verhindert. Stattdessen dauerte die Bereinigung drei Wochen und erforderte einen teilweisen Re-Import. (Wenn Sie speziell von HubSpot migrieren, beschreibt der Wechsel von HubSpot zu Rework die Datenmodellunterschiede, die diesen Bereinigungsschritt noch wichtiger machen.)

Dieser Leitfaden gibt Ihnen die Bereinigungssequenz, die dieses Ergebnis verhindert. Arbeiten Sie diese Schritte der Reihe nach in Ihrem Quellsystem durch. Exportieren Sie keinen einzigen Datensatz, bevor Sie fertig sind.

Schritt 1: Deduplizierungsstrategie

Die Deduplizierung hat zwei Phasen: Duplikate identifizieren und entscheiden, was damit zu tun ist. Führen Sie keine Zusammenführungen durch, bis Sie für jeden Match-Typ eine klare Entscheidungsregel haben.

Match-Regel-Hierarchie:

  1. Exakter E-Mail-Match: Zwei Datensätze mit derselben E-Mail-Adresse sind mit großer Wahrscheinlichkeit dieselbe Person. Sicheres automatisches Zusammenführen. Der Datensatz mit mehr Feldausfüllungen (mehr nicht-leeren Feldern) gewinnt.
  2. Vorname + Nachname + Unternehmen Fuzzy-Match: Zwei Datensätze, bei denen der Name ähnlich ist (John Smith vs. Jonathan Smith) und der Unternehmensname gleich oder ähnlich ist. Zur manuellen Überprüfung in die Warteschlange stellen — kein automatisches Zusammenführen.
  3. Telefon-Match: Dieselbe Telefonnummer auf zwei verschiedenen Datensätzen. Geringere Konfidenz als E-Mail — Firmenrufnummern erscheinen auf vielen Kontakten. Nur manuelle Überprüfung.
  4. Unternehmensdomänen-Match auf demselben Kontakt: Zwei Datensätze für „Sarah Jones" und „S. Jones" mit derselben E-Mail-Domäne. Mittlere Konfidenz. Manuelle Überprüfung.

Entscheidungslogik-Tabelle für Deduplizierung

Match-Typ Konfidenz Aktion
Exakter E-Mail-Match Hoch Automatisch zusammenführen — Datensatz mit mehr Daten behalten
Name + Unternehmen Fuzzy-Match (>85 % Ähnlichkeit) Mittel Zur manuellen Überprüfung einreihen
Telefon exakter Match, gleiches Unternehmen Mittel Zur manuellen Überprüfung einreihen
Nur Name (kein Unternehmen, keine E-Mail) Niedrig Markieren, kein automatisches Zusammenführen
Nur E-Mail-Domänen-Match Niedrig Überspringen — zu viele False Positives

Schwellenwert für automatisches Zusammenführen: Setzen Sie automatisches Zusammenführen nur für exakte E-Mail-Matches. Alles darunter erfordert menschliche Augen. Ein aggressives automatisches Zusammenführen, das fälschlicherweise zwei verschiedene Personen desselben Unternehmens zusammenführt, korrumpiert die Deal-Historie und Beziehungsdaten auf eine Weise, die schwer zu entwirren ist.

Schritt 2: Tools für die Deduplizierung

Die Tool-Wahl hängt von Ihrem Quellsystem und der Datensatzgröße ab.

HubSpot (nativ): Kontakte > Aktionen > Duplikate verwalten. HubSpot präsentiert Paare zur Überprüfung mit einem Nebeneinander-Vergleich. Es führt die Zusammenführung nativ durch — Sie wählen den Gewinnerdatensatz, und die gesamte Verbindungshistorie wird beibehalten. Grenze: Es verarbeitet jeweils ein Paar, was für bis zu etwa 5.000 Kontakte handhabbar ist, aber darüber hinaus langsam wird.

Salesforce (nativ): Setup > Duplikatverwaltung. Definieren Sie eine Duplikatregel (Match-Feld: E-Mail, Match-Typ: Exakt) und führen Sie sie als Bericht aus. Verwenden Sie das Kontakte-Zusammenführen-Tool für einzelne Zusammenführungen. Für die Bulk-Deduplizierung in Salesforce sind die nativen Tools begrenzt — für Datensätze über 10.000 Kontakten ist ein Drittanbieter-Tool schneller.

Pipedrive (begrenzte native Unterstützung): Pipedrive markiert potenzielle Duplikate in der Kontaktansicht, hat aber kein Bulk-Dedup-Tool. Exportieren Sie in CSV, führen Sie die Deduplizierung in einer Tabellenkalkulation oder einem Drittanbieter-Tool durch und importieren Sie dann die bereinigte Datei erneut.

Drittanbieter-Tools für große Datensätze:

  • Dedupely (dedupely.com): Speziell für HubSpot und Salesforce entwickelt. Verarbeitet Bulk-Zusammenführungen mit regelbasierter Automatisierung. Gut für 10.000+ Datensätze.
  • Dedupe.io: Arbeitet mit CSV-Exporten aus jedem CRM. Laden Sie Ihre Datei hoch, konfigurieren Sie Match-Regeln und laden Sie die deduplizierte Datei herunter.
  • Cloudingo (cloudingo.com): Salesforce-spezifisch. Bessere Benutzeroberfläche als native Tools für komplexe Merge-Regeln.

Vor dem Ausführen eines Dedup-Tools: Erstellen Sie ein vollständiges Backup. Laden Sie jedes Objekt als CSV herunter. Bewahren Sie es an einem zugänglichen Ort auf. Sie können eine Bulk-Zusammenführung in den meisten Systemen nicht zuverlässig rückgängig machen, und Sie benötigen den Zustand vor der Zusammenführung, falls etwas schief geht.

Schritt 3: Telefonnummern-Normalisierung

Telefon-Felder sind die unordentlichsten Daten in jedem CRM. Sie finden: +1 (555) 234-5678, 555-234-5678, 5552345678, +15552345678, 555.234.5678 x102 und (555) 234-5678. Dieselbe Nummer, sieben verschiedene Formate.

Zielstandard: E.164-Format. Dies ist der internationale Standard: + gefolgt von Ländervorwahl gefolgt von der Teilnehmernummer, ohne Leerzeichen oder Formatierungszeichen. US-Nummer in E.164: +15552345678.

Normalisierungsschritte:

  1. Alle nicht-numerischen Zeichen entfernen: (, ), -, ., Leerzeichen entfernen
  2. Wenn die Nummer 10 Stellen hat und Sie US-basiert sind, +1 voranstellen
  3. Wenn die Nummer mit 1 beginnt und 11 Stellen hat, + voranstellen
  4. Auf Durchwahlen im Haupttelefon-Feld prüfen — alles nach „x", „ext" oder „Ext" — in ein separates Durchwahl-Feld extrahieren

Regex für grundlegende Telefon-Bereinigung (funktioniert in Google Sheets über REGEXREPLACE):

Nicht-numerisch entfernen: =REGEXREPLACE(A2,"[^0-9+]","")

US 10-stellige Nummer prüfen: =IF(LEN(REGEXREPLACE(A2,"[^0-9]",""))=10, "+1"&REGEXREPLACE(A2,"[^0-9]",""), A2)

Für große Datensätze behandelt ein Python-Skript mit der phonenumbers-Bibliothek internationale Nummern zuverlässiger als Regex. Aber für die meisten Sales-Ops-Teams, die in einer Tabellenkalkulation arbeiten, deckt der Regex-Ansatz 90 % der Fälle ab.

Schritt 4: E-Mail-Validierung

Vor der Migration entfernt die Bulk-E-Mail-Validierung Kontakte, die bei der ersten Outreach-Kampagne im neuen System Hard-Bounces erzeugen. Ungültige E-Mail-Datensätze sind es nicht wert, migriert zu werden.

Bulk-Validierungstools:

  • ZeroBounce: Laden Sie eine CSV hoch und erhalten Sie einen Status pro E-Mail (gültig, ungültig, catch-all, Spamtrap, Missbrauch). Etwa 0,008 $ pro E-Mail für große Batches.
  • NeverBounce: Ähnliche Preisgestaltung und Funktionalität.
  • Hunter.io E-Mail-Verifizierer: Langsamer, aber nützlich für die Überprüfung bestimmter Domains.

Was mit jedem Validierungsergebnis zu tun ist:

Status Aktion
Gültig Migrieren
Ungültig (Hard-Bounce-Historie) Aus der Migration entfernen, archivieren
Catch-all (Domain akzeptiert alles) Mit dem Tag „unverifiziert" migrieren
Spamtrap Löschen, nicht migrieren
Missbrauch (häufige Beschwerde-Historie) Aus der Migration entfernen
Rolladressen (info@, sales@, admin@) Markieren — nur migrieren, wenn keine individuelle Kontakt-E-Mail vorhanden

Löschen Sie keine ungültigen Kontakte, ohne zu prüfen, ob sie mit Deals verbunden sind. Ein Kontakt mit einer ungültigen E-Mail könnte eine offene Opportunity angehängt haben.

Schritt 5: Lebenszyklus-Stufen-Normalisierung

Dieses Feld verursacht nach der Migration mehr Verwirrung als fast alles andere. Quellsysteme sammeln über Zeit Lebenszyklus-Stufen an, da sich Prozessdefinitionen ändern. Zum Zeitpunkt der Migration haben Sie möglicherweise 9 verschiedene Stufenwerte, die auf 4 im Ziel abgebildet werden müssen.

Beginnen Sie damit, alle unterschiedlichen Lebenszyklus-Stufenwerte aus Ihrem Quellsystem zu exportieren. In Salesforce: SELECT Status, COUNT(Id) FROM Lead GROUP BY Status. In HubSpot: Kontakte exportieren und die Lebenszyklus-Stufen-Spalte in Excel pivotieren.

Erstellen Sie dann Ihre Zuordnung:

Lebenszyklus-Stufen-Zuordnungsvorlage

Quellsystem-Wert Anzahl Zielsystem-Wert Hinweise
New Lead 1.240 Lead Direkte Zuordnung
Open Lead 890 Lead Mit obigem kombinieren
Marketing Qualified Lead 430 MQL Direkte Zuordnung
Product Qualified Lead 180 MQL Zu MQL zuordnen, wenn Ziel kein PQL hat
Sales Accepted Lead 220 SQL Direkte Zuordnung
Sales Qualified Lead 310 SQL Mit obigem kombinieren
Demo Scheduled 145 SQL Als SQL behalten, Aktivitätsnotiz hinzufügen
Negotiation 88 SQL Als späte SQL behandeln
Customer 2.100 Kunde Direkte Zuordnung
Churned 340 Kunde (inaktiv) Als inaktiv markieren
Evangelist 45 Kunde Zu Kunde zuordnen, Tag hinzufügen
Disqualified 670 Disqualifiziert Direkte Zuordnung

Dokumentieren Sie diese Zuordnung und lassen Sie sie von der Vertriebsleitung genehmigen, bevor Sie importieren.

Schritt 6: Datumsfeld-Normalisierung

Datumsfelder schlagen lautlos fehl. Sie importieren ohne Fehler, aber die Werte sind falsch — was bedeutet, dass Ihre datumsbasierten Berichte und Automatisierungsregeln auf eine Weise brechen, die Sie erst bemerken, wenn ein Vertriebsmitarbeiter falsche Datumsangaben auf Folgeaufgaben entdeckt.

Zielstandard: ISO 8601, formatiert als JJJJ-MM-TT (z. B. 2025-06-15). Dieses Format ist über Gebietsschemas hinweg eindeutig und wird von jedem CRM-Import-Tool akzeptiert.

Häufige Probleme:

  • MM/TT/JJJJ vs. TT/MM/JJJJ: Ein Abschlussdatum von „06/07/2024" ist der 7. Juni im US-Format und der 6. Juli im UK/EU-Format.
  • Textzeichenfolgen: Einträge wie „Q3 2024", „Jahresende", „TBD" in Datumsfeldern.
  • Timezone-Offsets: Einige Systeme exportieren Daten als ISO 8601 mit Zeitzone. Entfernen Sie den Timezone-Offset und konvertieren Sie vor dem Import nach UTC.
  • Unix-Timestamps: Einige Export-Tools geben Zeitstempel als Millisekunden seit Epoch aus.

Schritt 7: Anreicherungsentscheidungen

Die Migration ist der einzige Moment, in dem Anreicherung am meisten Sinn ergibt. Sie berühren bereits jeden Datensatz, die Daten sind in einem sauberen Zustand (nach Deduplizierung und Normalisierung), und das Ziel-CRM beginnt frisch.

Wann Sie vor der Migration anreichern:

  • Ihre Unternehmensnamen-Vervollständigungsrate liegt unter 70 %
  • Sie haben Kontakte ohne Berufsbezeichnung und ohne Unternehmensverbindung
  • Sie migrieren zu einem CRM mit Unternehmens-Datenobjekten, die genaue Firmografiken benötigen

Kostenlose Anreicherungsoptionen:

  • Clearbit Reveal (jetzt Breeze Intelligence in HubSpot): Reichert automatisch Unternehmensdaten aus der E-Mail-Domain an.
  • Apollo.io: Hat einen kostenlosen Plan mit 50 Anreicherungen pro Monat.
  • LinkedIn manuelle Suche: Langsam, aber zuverlässig für wichtige Accounts.

Schritt 8: QA des bereinigten Datensatzes

Nach Deduplizierung, Normalisierung, Validierung und (optional) Anreicherung müssen Sie überprüfen, dass der Bereinigungsprozess selbst keine Fehler eingeführt hat.

Post-Bereinigung QA-Checkliste

Prüfung Vor der Bereinigung Nach der Bereinigung Status
Gesamtanzahl der Kontakte [Basiswert] Sollte niedriger sein (Dedup)
Duplikatschätzung (E-Mail) [Basiswert %] <1 %
E-Mail-Feld: gültige Adressen [Basiswert %] >90 %
Telefon-Feld: E.164-Format [Basiswert %] >85 %
Lebenszyklus-Stufe: Null-Werte [Basiswert Anzahl] <2 %
Datumsfelder: ISO 8601-Format [Basiswert %] >95 %
Land-Feld: standardisiert [Basiswert %] >95 %
Unternehmensnamen-Vervollständigung [Basiswert %] [Ziel %]

Führen Sie diese Checkliste zuerst an einer 500-Zeilen-Stichprobe durch. Exportieren Sie 500 zufällige Datensätze, bereinigen Sie sie mit Ihrem Prozess und überprüfen Sie die Ausgabe anhand der Checkliste.

Häufige Fallstricke

Deduplizierung ohne vorheriges Backup durchführen. Eine Bulk-Zusammenführung ist in den meisten Systemen irreversibel. Die 10 Minuten für einen CSV-Backup sind jedes Mal die Investition wert.

Aggressive automatische Zusammenführungsschwellen, die legitime separate Kontakte zerstören. Zwei Personen namens „Michael Chen" im selben Unternehmen sind nicht dieselbe Person. Automatisches Zusammenführen auf Basis von Name + Unternehmen ohne Prüfung von E-Mail oder Telefon erzeugt einen korrumpierten Datensatz.

Anreichern von Daten, die die Feldzuordnung nicht überleben. Wenn Ihre Feldzuordnungsdokument keine „LinkedIn URL" als Zielfeld enthält, ist das Anreichern von LinkedIn-URLs verschwendete Mühe.

Telefonnummern normalisieren ohne auf Durchwahlen zu prüfen. Ein Normalisierungsskript, das alle nicht-numerischen Zeichen entfernt, wandelt „+1 (555) 234-5678 x102" in „+15552345678102" um — eine 13-stellige Nummer, die gültig aussieht, es aber nicht ist.

Was als Nächstes zu tun ist

Versuchen Sie nicht, alles auf einmal zu bereinigen. Exportieren Sie diese Woche eine 500-Zeilen-Stichprobe, wenden Sie die Bereinigungsschritte in diesem Leitfaden an und führen Sie die QA-Checkliste durch. Überprüfen Sie, ob die Ausgabe korrekt aussieht. Führen Sie dann — und erst dann — denselben Prozess mit Ihrem vollständigen Datensatz durch.

Die Reihenfolge ist wichtig:

  1. Zuerst Deduplizierung (damit Sie keine Datensätze normalisieren, die Sie gleich zusammenführen)
  2. Dann E-Mail-Validierung (ungültige Datensätze vor der Anreicherung entfernen)
  3. Drittens Normalisierung (Telefon, Land, Daten, Lebenszyklus-Stufe)
  4. Zuletzt Anreicherung (optional, nur zu sauberen Datensätzen hinzufügen)
  5. QA des vollständig bereinigten Datensatzes anhand der Checkliste vor dem Export

Weitere Ressourcen