Data Migration Guide
Datenbereinigung für CRM-Migration: Deduplizierung, Normalisierung, Anreicherung
Eine CRM-Migration ist die beste Gelegenheit, die Datenqualität zu verbessern. Die meisten Teams verpassen sie, weil sie die Bereinigung als Aufgabe nach der Migration behandeln — etwas, das nach dem Go-live erledigt wird, wenn die Dinge sich beruhigt haben. Die Dinge beruhigen sich nicht. Der Post-Migrations-Rückstand wird nie abgebaut. Und sechs Monate später arbeiten die Vertriebsmitarbeiter mit einem neuen System, das dieselben schlechten Daten wie das alte enthält, plus neue Fehler, die beim Import entstanden sind.
Die RevOps-Leiterin eines Unternehmens führte eine Migration von 8.000 Kontakten von HubSpot zu einem neuen CRM durch. Nach dem Import entdeckte sie 2.400 doppelte Kontakte. Eine 3-stündige Deduplizierungssitzung vor dem Export hätte das verhindert. Stattdessen dauerte die Bereinigung drei Wochen und erforderte einen teilweisen Re-Import. (Wenn Sie speziell von HubSpot migrieren, beschreibt der Wechsel von HubSpot zu Rework die Datenmodellunterschiede, die diesen Bereinigungsschritt noch wichtiger machen.)
Dieser Leitfaden gibt Ihnen die Bereinigungssequenz, die dieses Ergebnis verhindert. Arbeiten Sie diese Schritte der Reihe nach in Ihrem Quellsystem durch. Exportieren Sie keinen einzigen Datensatz, bevor Sie fertig sind.
Schritt 1: Deduplizierungsstrategie
Die Deduplizierung hat zwei Phasen: Duplikate identifizieren und entscheiden, was damit zu tun ist. Führen Sie keine Zusammenführungen durch, bis Sie für jeden Match-Typ eine klare Entscheidungsregel haben.
Match-Regel-Hierarchie:
- Exakter E-Mail-Match: Zwei Datensätze mit derselben E-Mail-Adresse sind mit großer Wahrscheinlichkeit dieselbe Person. Sicheres automatisches Zusammenführen. Der Datensatz mit mehr Feldausfüllungen (mehr nicht-leeren Feldern) gewinnt.
- Vorname + Nachname + Unternehmen Fuzzy-Match: Zwei Datensätze, bei denen der Name ähnlich ist (John Smith vs. Jonathan Smith) und der Unternehmensname gleich oder ähnlich ist. Zur manuellen Überprüfung in die Warteschlange stellen — kein automatisches Zusammenführen.
- Telefon-Match: Dieselbe Telefonnummer auf zwei verschiedenen Datensätzen. Geringere Konfidenz als E-Mail — Firmenrufnummern erscheinen auf vielen Kontakten. Nur manuelle Überprüfung.
- Unternehmensdomänen-Match auf demselben Kontakt: Zwei Datensätze für „Sarah Jones" und „S. Jones" mit derselben E-Mail-Domäne. Mittlere Konfidenz. Manuelle Überprüfung.
Entscheidungslogik-Tabelle für Deduplizierung
| Match-Typ | Konfidenz | Aktion |
|---|---|---|
| Exakter E-Mail-Match | Hoch | Automatisch zusammenführen — Datensatz mit mehr Daten behalten |
| Name + Unternehmen Fuzzy-Match (>85 % Ähnlichkeit) | Mittel | Zur manuellen Überprüfung einreihen |
| Telefon exakter Match, gleiches Unternehmen | Mittel | Zur manuellen Überprüfung einreihen |
| Nur Name (kein Unternehmen, keine E-Mail) | Niedrig | Markieren, kein automatisches Zusammenführen |
| Nur E-Mail-Domänen-Match | Niedrig | Überspringen — zu viele False Positives |
Schwellenwert für automatisches Zusammenführen: Setzen Sie automatisches Zusammenführen nur für exakte E-Mail-Matches. Alles darunter erfordert menschliche Augen. Ein aggressives automatisches Zusammenführen, das fälschlicherweise zwei verschiedene Personen desselben Unternehmens zusammenführt, korrumpiert die Deal-Historie und Beziehungsdaten auf eine Weise, die schwer zu entwirren ist.
Schritt 2: Tools für die Deduplizierung
Die Tool-Wahl hängt von Ihrem Quellsystem und der Datensatzgröße ab.
HubSpot (nativ): Kontakte > Aktionen > Duplikate verwalten. HubSpot präsentiert Paare zur Überprüfung mit einem Nebeneinander-Vergleich. Es führt die Zusammenführung nativ durch — Sie wählen den Gewinnerdatensatz, und die gesamte Verbindungshistorie wird beibehalten. Grenze: Es verarbeitet jeweils ein Paar, was für bis zu etwa 5.000 Kontakte handhabbar ist, aber darüber hinaus langsam wird.
Salesforce (nativ): Setup > Duplikatverwaltung. Definieren Sie eine Duplikatregel (Match-Feld: E-Mail, Match-Typ: Exakt) und führen Sie sie als Bericht aus. Verwenden Sie das Kontakte-Zusammenführen-Tool für einzelne Zusammenführungen. Für die Bulk-Deduplizierung in Salesforce sind die nativen Tools begrenzt — für Datensätze über 10.000 Kontakten ist ein Drittanbieter-Tool schneller.
Pipedrive (begrenzte native Unterstützung): Pipedrive markiert potenzielle Duplikate in der Kontaktansicht, hat aber kein Bulk-Dedup-Tool. Exportieren Sie in CSV, führen Sie die Deduplizierung in einer Tabellenkalkulation oder einem Drittanbieter-Tool durch und importieren Sie dann die bereinigte Datei erneut.
Drittanbieter-Tools für große Datensätze:
- Dedupely (dedupely.com): Speziell für HubSpot und Salesforce entwickelt. Verarbeitet Bulk-Zusammenführungen mit regelbasierter Automatisierung. Gut für 10.000+ Datensätze.
- Dedupe.io: Arbeitet mit CSV-Exporten aus jedem CRM. Laden Sie Ihre Datei hoch, konfigurieren Sie Match-Regeln und laden Sie die deduplizierte Datei herunter.
- Cloudingo (cloudingo.com): Salesforce-spezifisch. Bessere Benutzeroberfläche als native Tools für komplexe Merge-Regeln.
Vor dem Ausführen eines Dedup-Tools: Erstellen Sie ein vollständiges Backup. Laden Sie jedes Objekt als CSV herunter. Bewahren Sie es an einem zugänglichen Ort auf. Sie können eine Bulk-Zusammenführung in den meisten Systemen nicht zuverlässig rückgängig machen, und Sie benötigen den Zustand vor der Zusammenführung, falls etwas schief geht.
Schritt 3: Telefonnummern-Normalisierung
Telefon-Felder sind die unordentlichsten Daten in jedem CRM. Sie finden: +1 (555) 234-5678, 555-234-5678, 5552345678, +15552345678, 555.234.5678 x102 und (555) 234-5678. Dieselbe Nummer, sieben verschiedene Formate.
Zielstandard: E.164-Format. Dies ist der internationale Standard: + gefolgt von Ländervorwahl gefolgt von der Teilnehmernummer, ohne Leerzeichen oder Formatierungszeichen. US-Nummer in E.164: +15552345678.
Normalisierungsschritte:
- Alle nicht-numerischen Zeichen entfernen: (, ), -, ., Leerzeichen entfernen
- Wenn die Nummer 10 Stellen hat und Sie US-basiert sind, +1 voranstellen
- Wenn die Nummer mit 1 beginnt und 11 Stellen hat, + voranstellen
- Auf Durchwahlen im Haupttelefon-Feld prüfen — alles nach „x", „ext" oder „Ext" — in ein separates Durchwahl-Feld extrahieren
Regex für grundlegende Telefon-Bereinigung (funktioniert in Google Sheets über REGEXREPLACE):
Nicht-numerisch entfernen: =REGEXREPLACE(A2,"[^0-9+]","")
US 10-stellige Nummer prüfen: =IF(LEN(REGEXREPLACE(A2,"[^0-9]",""))=10, "+1"®EXREPLACE(A2,"[^0-9]",""), A2)
Für große Datensätze behandelt ein Python-Skript mit der phonenumbers-Bibliothek internationale Nummern zuverlässiger als Regex. Aber für die meisten Sales-Ops-Teams, die in einer Tabellenkalkulation arbeiten, deckt der Regex-Ansatz 90 % der Fälle ab.
Schritt 4: E-Mail-Validierung
Vor der Migration entfernt die Bulk-E-Mail-Validierung Kontakte, die bei der ersten Outreach-Kampagne im neuen System Hard-Bounces erzeugen. Ungültige E-Mail-Datensätze sind es nicht wert, migriert zu werden.
Bulk-Validierungstools:
- ZeroBounce: Laden Sie eine CSV hoch und erhalten Sie einen Status pro E-Mail (gültig, ungültig, catch-all, Spamtrap, Missbrauch). Etwa 0,008 $ pro E-Mail für große Batches.
- NeverBounce: Ähnliche Preisgestaltung und Funktionalität.
- Hunter.io E-Mail-Verifizierer: Langsamer, aber nützlich für die Überprüfung bestimmter Domains.
Was mit jedem Validierungsergebnis zu tun ist:
| Status | Aktion |
|---|---|
| Gültig | Migrieren |
| Ungültig (Hard-Bounce-Historie) | Aus der Migration entfernen, archivieren |
| Catch-all (Domain akzeptiert alles) | Mit dem Tag „unverifiziert" migrieren |
| Spamtrap | Löschen, nicht migrieren |
| Missbrauch (häufige Beschwerde-Historie) | Aus der Migration entfernen |
| Rolladressen (info@, sales@, admin@) | Markieren — nur migrieren, wenn keine individuelle Kontakt-E-Mail vorhanden |
Löschen Sie keine ungültigen Kontakte, ohne zu prüfen, ob sie mit Deals verbunden sind. Ein Kontakt mit einer ungültigen E-Mail könnte eine offene Opportunity angehängt haben.
Schritt 5: Lebenszyklus-Stufen-Normalisierung
Dieses Feld verursacht nach der Migration mehr Verwirrung als fast alles andere. Quellsysteme sammeln über Zeit Lebenszyklus-Stufen an, da sich Prozessdefinitionen ändern. Zum Zeitpunkt der Migration haben Sie möglicherweise 9 verschiedene Stufenwerte, die auf 4 im Ziel abgebildet werden müssen.
Beginnen Sie damit, alle unterschiedlichen Lebenszyklus-Stufenwerte aus Ihrem Quellsystem zu exportieren. In Salesforce: SELECT Status, COUNT(Id) FROM Lead GROUP BY Status. In HubSpot: Kontakte exportieren und die Lebenszyklus-Stufen-Spalte in Excel pivotieren.
Erstellen Sie dann Ihre Zuordnung:
Lebenszyklus-Stufen-Zuordnungsvorlage
| Quellsystem-Wert | Anzahl | Zielsystem-Wert | Hinweise |
|---|---|---|---|
| New Lead | 1.240 | Lead | Direkte Zuordnung |
| Open Lead | 890 | Lead | Mit obigem kombinieren |
| Marketing Qualified Lead | 430 | MQL | Direkte Zuordnung |
| Product Qualified Lead | 180 | MQL | Zu MQL zuordnen, wenn Ziel kein PQL hat |
| Sales Accepted Lead | 220 | SQL | Direkte Zuordnung |
| Sales Qualified Lead | 310 | SQL | Mit obigem kombinieren |
| Demo Scheduled | 145 | SQL | Als SQL behalten, Aktivitätsnotiz hinzufügen |
| Negotiation | 88 | SQL | Als späte SQL behandeln |
| Customer | 2.100 | Kunde | Direkte Zuordnung |
| Churned | 340 | Kunde (inaktiv) | Als inaktiv markieren |
| Evangelist | 45 | Kunde | Zu Kunde zuordnen, Tag hinzufügen |
| Disqualified | 670 | Disqualifiziert | Direkte Zuordnung |
Dokumentieren Sie diese Zuordnung und lassen Sie sie von der Vertriebsleitung genehmigen, bevor Sie importieren.
Schritt 6: Datumsfeld-Normalisierung
Datumsfelder schlagen lautlos fehl. Sie importieren ohne Fehler, aber die Werte sind falsch — was bedeutet, dass Ihre datumsbasierten Berichte und Automatisierungsregeln auf eine Weise brechen, die Sie erst bemerken, wenn ein Vertriebsmitarbeiter falsche Datumsangaben auf Folgeaufgaben entdeckt.
Zielstandard: ISO 8601, formatiert als JJJJ-MM-TT (z. B. 2025-06-15). Dieses Format ist über Gebietsschemas hinweg eindeutig und wird von jedem CRM-Import-Tool akzeptiert.
Häufige Probleme:
- MM/TT/JJJJ vs. TT/MM/JJJJ: Ein Abschlussdatum von „06/07/2024" ist der 7. Juni im US-Format und der 6. Juli im UK/EU-Format.
- Textzeichenfolgen: Einträge wie „Q3 2024", „Jahresende", „TBD" in Datumsfeldern.
- Timezone-Offsets: Einige Systeme exportieren Daten als ISO 8601 mit Zeitzone. Entfernen Sie den Timezone-Offset und konvertieren Sie vor dem Import nach UTC.
- Unix-Timestamps: Einige Export-Tools geben Zeitstempel als Millisekunden seit Epoch aus.
Schritt 7: Anreicherungsentscheidungen
Die Migration ist der einzige Moment, in dem Anreicherung am meisten Sinn ergibt. Sie berühren bereits jeden Datensatz, die Daten sind in einem sauberen Zustand (nach Deduplizierung und Normalisierung), und das Ziel-CRM beginnt frisch.
Wann Sie vor der Migration anreichern:
- Ihre Unternehmensnamen-Vervollständigungsrate liegt unter 70 %
- Sie haben Kontakte ohne Berufsbezeichnung und ohne Unternehmensverbindung
- Sie migrieren zu einem CRM mit Unternehmens-Datenobjekten, die genaue Firmografiken benötigen
Kostenlose Anreicherungsoptionen:
- Clearbit Reveal (jetzt Breeze Intelligence in HubSpot): Reichert automatisch Unternehmensdaten aus der E-Mail-Domain an.
- Apollo.io: Hat einen kostenlosen Plan mit 50 Anreicherungen pro Monat.
- LinkedIn manuelle Suche: Langsam, aber zuverlässig für wichtige Accounts.
Schritt 8: QA des bereinigten Datensatzes
Nach Deduplizierung, Normalisierung, Validierung und (optional) Anreicherung müssen Sie überprüfen, dass der Bereinigungsprozess selbst keine Fehler eingeführt hat.
Post-Bereinigung QA-Checkliste
| Prüfung | Vor der Bereinigung | Nach der Bereinigung | Status |
|---|---|---|---|
| Gesamtanzahl der Kontakte | [Basiswert] | Sollte niedriger sein (Dedup) | |
| Duplikatschätzung (E-Mail) | [Basiswert %] | <1 % | |
| E-Mail-Feld: gültige Adressen | [Basiswert %] | >90 % | |
| Telefon-Feld: E.164-Format | [Basiswert %] | >85 % | |
| Lebenszyklus-Stufe: Null-Werte | [Basiswert Anzahl] | <2 % | |
| Datumsfelder: ISO 8601-Format | [Basiswert %] | >95 % | |
| Land-Feld: standardisiert | [Basiswert %] | >95 % | |
| Unternehmensnamen-Vervollständigung | [Basiswert %] | [Ziel %] |
Führen Sie diese Checkliste zuerst an einer 500-Zeilen-Stichprobe durch. Exportieren Sie 500 zufällige Datensätze, bereinigen Sie sie mit Ihrem Prozess und überprüfen Sie die Ausgabe anhand der Checkliste.
Häufige Fallstricke
Deduplizierung ohne vorheriges Backup durchführen. Eine Bulk-Zusammenführung ist in den meisten Systemen irreversibel. Die 10 Minuten für einen CSV-Backup sind jedes Mal die Investition wert.
Aggressive automatische Zusammenführungsschwellen, die legitime separate Kontakte zerstören. Zwei Personen namens „Michael Chen" im selben Unternehmen sind nicht dieselbe Person. Automatisches Zusammenführen auf Basis von Name + Unternehmen ohne Prüfung von E-Mail oder Telefon erzeugt einen korrumpierten Datensatz.
Anreichern von Daten, die die Feldzuordnung nicht überleben. Wenn Ihre Feldzuordnungsdokument keine „LinkedIn URL" als Zielfeld enthält, ist das Anreichern von LinkedIn-URLs verschwendete Mühe.
Telefonnummern normalisieren ohne auf Durchwahlen zu prüfen. Ein Normalisierungsskript, das alle nicht-numerischen Zeichen entfernt, wandelt „+1 (555) 234-5678 x102" in „+15552345678102" um — eine 13-stellige Nummer, die gültig aussieht, es aber nicht ist.
Was als Nächstes zu tun ist
Versuchen Sie nicht, alles auf einmal zu bereinigen. Exportieren Sie diese Woche eine 500-Zeilen-Stichprobe, wenden Sie die Bereinigungsschritte in diesem Leitfaden an und führen Sie die QA-Checkliste durch. Überprüfen Sie, ob die Ausgabe korrekt aussieht. Führen Sie dann — und erst dann — denselben Prozess mit Ihrem vollständigen Datensatz durch.
Die Reihenfolge ist wichtig:
- Zuerst Deduplizierung (damit Sie keine Datensätze normalisieren, die Sie gleich zusammenführen)
- Dann E-Mail-Validierung (ungültige Datensätze vor der Anreicherung entfernen)
- Drittens Normalisierung (Telefon, Land, Daten, Lebenszyklus-Stufe)
- Zuletzt Anreicherung (optional, nur zu sauberen Datensätzen hinzufügen)
- QA des vollständig bereinigten Datensatzes anhand der Checkliste vor dem Export
Weitere Ressourcen

Victor Hoang
Co-Founder
On this page
- Schritt 1: Deduplizierungsstrategie
- Entscheidungslogik-Tabelle für Deduplizierung
- Schritt 2: Tools für die Deduplizierung
- Schritt 3: Telefonnummern-Normalisierung
- Schritt 4: E-Mail-Validierung
- Schritt 5: Lebenszyklus-Stufen-Normalisierung
- Lebenszyklus-Stufen-Zuordnungsvorlage
- Schritt 6: Datumsfeld-Normalisierung
- Schritt 7: Anreicherungsentscheidungen
- Schritt 8: QA des bereinigten Datensatzes
- Post-Bereinigung QA-Checkliste
- Häufige Fallstricke
- Was als Nächstes zu tun ist
- Weitere Ressourcen