Data Migration Guide
Limpeza de Dados para Migração de CRM: Deduplicação, Normalização e Enriquecimento
Uma migração de CRM é a melhor oportunidade que você terá para corrigir a qualidade dos seus dados. A maioria das equipes perde essa chance porque trata a limpeza como uma tarefa pós-migração — algo para resolver depois do go-live, quando as coisas desacelerarem. As coisas não desaceleram. O backlog pós-migração nunca é zerado. E seis meses depois, os reps estão trabalhando em um novo sistema com os mesmos dados ruins do anterior, mais os erros introduzidos durante a importação.
A líder de RevOps de uma empresa realizou uma migração de 8.000 contatos do HubSpot para um novo CRM. Ela encontrou 2.400 contatos duplicados após a importação. Uma sessão de deduplicação de 3 horas antes da exportação teria evitado o problema. Em vez disso, a limpeza levou três semanas e exigiu uma reimportação parcial. (Se você está migrando do HubSpot especificamente, mudando do HubSpot para o Rework apresenta as diferenças de modelo de dados que tornam esta etapa de limpeza ainda mais importante.)
Este guia oferece a sequência de limpeza que previne esse resultado. Siga estas etapas na ordem indicada no seu sistema de origem. Não exporte nenhum registro antes de terminar.
Etapa 1: Estratégia de Deduplicação
A deduplicação tem duas fases: identificar duplicatas e decidir o que fazer com elas. Não faça nenhum merge antes de ter uma regra de decisão clara para cada tipo de correspondência.
Hierarquia de regras de correspondência:
- Correspondência exata de e-mail: Dois registros com o mesmo endereço de e-mail quase certamente pertencem à mesma pessoa. Seguro para merge automático. O registro com mais campos preenchidos (mais campos não vazios) vence.
- Correspondência fuzzy de nome completo + empresa: Dois registros com nome similar (João Silva vs. João da Silva) e nome de empresa igual ou similar. Coloque na fila para revisão manual — não faça merge automático.
- Correspondência de telefone: Mesmo número de telefone em dois registros diferentes. Confiança menor do que e-mail — telefones fixos de empresa aparecem em muitos contatos. Apenas revisão manual.
- Correspondência de domínio de empresa no mesmo contato: Dois registros para "Sarah Jones" e "S. Jones" no mesmo domínio de e-mail. Confiança média. Revisão manual.
Tabela de Lógica de Decisão de Deduplicação
| Tipo de correspondência | Confiança | Ação |
|---|---|---|
| Correspondência exata de e-mail | Alta | Merge automático — manter registro com mais dados |
| Correspondência fuzzy de nome + empresa (>85% de similaridade) | Média | Colocar na fila para revisão manual |
| Correspondência exata de telefone, mesma empresa | Média | Colocar na fila para revisão manual |
| Apenas nome (sem empresa, sem e-mail) | Baixa | Sinalizar, não fazer merge automático |
| Apenas correspondência de domínio de e-mail | Baixa | Ignorar — muitos falsos positivos |
Limite para merge automático: Configure o merge automático apenas para correspondências exatas de e-mail. Qualquer coisa abaixo disso exige revisão humana. Um merge automático agressivo que combina incorretamente duas pessoas diferentes na mesma empresa corrompe o histórico de negócios e dados de relacionamento de formas difíceis de desfazer.
Etapa 2: Ferramentas para Deduplicação
A escolha da ferramenta depende do seu sistema de origem e do tamanho do conjunto de dados.
HubSpot (nativo): Contatos > Ações > Gerenciar Duplicatas. O HubSpot apresenta pares para revisão com comparação lado a lado. Ele faz o merge nativamente — você escolhe o registro vencedor e ele preserva todo o histórico de associações. Limite: processa um par por vez, o que é viável para até cerca de 5.000 contatos, mas é lento além disso.
Salesforce (nativo): Configurações > Gerenciamento de Duplicatas. Defina uma Regra de Duplicata (campo de correspondência: E-mail, tipo de correspondência: Exato) e execute como relatório. Use a ferramenta Mesclar Contatos para merges individuais. Para deduplicação em massa no Salesforce, as ferramentas nativas são limitadas — para conjuntos de dados com mais de 10.000 contatos, uma ferramenta de terceiros é mais rápida.
Pipedrive (suporte nativo limitado): O Pipedrive sinaliza possíveis duplicatas na visualização de contatos, mas não possui uma ferramenta de deduplicação em massa. Exporte para CSV, execute a deduplicação em uma planilha ou ferramenta de terceiros, depois reimporte o arquivo limpo.
Ferramentas de terceiros para grandes conjuntos de dados:
- Dedupely (dedupely.com): Criado especificamente para HubSpot e Salesforce. Lida com merge em massa com automação baseada em regras. Bom para 10.000+ registros.
- Dedupe.io: Funciona com exportações CSV de qualquer CRM. Faça upload do arquivo, configure regras de correspondência, baixe o arquivo deduplicado.
- Cloudingo (cloudingo.com): Específico para Salesforce. Interface melhor do que as ferramentas nativas para regras de merge complexas.
Antes de executar qualquer ferramenta de deduplicação: exporte um backup completo. Baixe todos os objetos como CSV. Guarde em local acessível. Você não consegue desfazer um merge em massa de forma confiável, e vai querer o estado pré-merge se algo der errado.
Etapa 3: Normalização de Número de Telefone
Os campos de telefone são os dados mais bagunçados em qualquer CRM. Você encontrará: +55 (11) 9234-5678, 11-9234-5678, 11923456789, +5511923456789, 11.9234.5678 x102, e (11) 9234-5678. Mesmo número, sete formatos diferentes.
Padrão alvo: Formato E.164. Este é o padrão internacional: + seguido pelo código do país, seguido pelo número do assinante, sem espaços ou caracteres de formatação. Número brasileiro em E.164: +5511923456789.
Etapas de normalização:
- Remover todos os caracteres não numéricos: remover (, ), -, ., espaços
- Se o número tiver 11 dígitos e você estiver no Brasil, adicione +55
- Se o número começar com 55 e tiver 13 dígitos, adicione +
- Verificar extensões no campo de telefone principal — qualquer coisa após "r.", "ramal" ou similar — extrair para um campo de extensão separado
Regex para limpeza básica de telefone (funciona no Google Sheets via REGEXREPLACE):
Remover não numéricos: =REGEXREPLACE(A2,"[^0-9+]","")
Verificar número brasileiro de 11 dígitos: =IF(LEN(REGEXREPLACE(A2,"[^0-9]",""))=11, "+55"®EXREPLACE(A2,"[^0-9]",""), A2)
Para grandes conjuntos de dados, um script Python usando a biblioteca phonenumbers lidará com números internacionais de forma mais confiável do que regex. Mas para a maioria das equipes de Sales Ops trabalhando em planilhas, a abordagem regex resolve 90% dos casos.
Etapa 4: Validação de E-mail
Antes da migração, a validação de e-mail em massa remove contatos que vão retornar hard bounce na primeira campanha de outreach no novo sistema. Registros com e-mail inválido não valem a pena ser migrados.
Ferramentas de validação em massa:
- ZeroBounce: Faça upload de um CSV, receba um status por e-mail (válido, inválido, catch-all, spamtrap, abuse). Cerca de $0,008 por e-mail para grandes lotes. Possui nível gratuito para testes.
- NeverBounce: Preços e capacidade semelhantes. Boa API se você quiser integrar em um script.
- Hunter.io Email Verifier: Mais lento, mas útil para verificações pontuais de domínios específicos.
O que fazer com cada resultado de validação:
| Status | Ação |
|---|---|
| Válido | Migrar |
| Inválido (histórico de hard bounce) | Remover da migração, arquivar |
| Catch-all (domínio aceita tudo) | Migrar com tag "não verificado" |
| Spamtrap | Excluir, não migrar |
| Abuse (histórico frequente de reclamações) | Remover da migração |
| Endereços de função (info@, vendas@, admin@) | Sinalizar — migrar apenas se não houver e-mail de contato individual |
Não exclua contatos inválidos sem verificar se eles têm negócios associados. Um contato com e-mail inválido pode ter uma oportunidade em aberto. Migre o registro (sem o e-mail ruim), limpe o e-mail manualmente e siga em frente.
Etapa 5: Normalização do Estágio de Ciclo de Vida
Este campo causa mais confusão pós-migração do que quase qualquer outra coisa. Os sistemas de origem acumulam estágios de ciclo de vida ao longo do tempo à medida que as definições de processo mudam. Quando você está migrando, pode ter 9 valores distintos de estágio que precisam ser mapeados para 4 no destino.
Comece exportando todos os valores distintos de estágio de ciclo de vida do seu sistema de origem. No Salesforce: SELECT Status, COUNT(Id) FROM Lead GROUP BY Status. No HubSpot: exporte contatos e faça uma tabela dinâmica na coluna de estágio de ciclo de vida no Excel. No Pipedrive: exporte contatos/leads e use um CONT.SE.
Antes de finalizar o mapeamento de valores, revise as definições de estágio de ciclo de lead do seu destino — as decisões de mapeamento que você fizer aqui irão orientar o roteamento, as automações e os relatórios no novo sistema.
Modelo de Mapeamento de Estágio de Ciclo de Vida
| Valor do sistema de origem | Contagem | Valor do sistema de destino | Notas |
|---|---|---|---|
| Novo Lead | 1.240 | Lead | Mapeamento direto |
| Lead Aberto | 890 | Lead | Combinar com acima |
| Lead Qualificado pelo Marketing | 430 | MQL | Mapeamento direto |
| Lead Qualificado pelo Produto | 180 | MQL | Mapear para MQL, a menos que o destino tenha PQL |
| Lead Aceito por Vendas | 220 | SQL | Mapeamento direto |
| Lead Qualificado por Vendas | 310 | SQL | Combinar com acima |
| Demo Agendada | 145 | SQL | Manter como SQL, adicionar nota de atividade |
| Negociação | 88 | SQL | Tratar como SQL de fase avançada |
| Cliente | 2.100 | Cliente | Mapeamento direto |
| Churn | 340 | Cliente (inativo) | Adicionar tag como inativo |
| Evangelista | 45 | Cliente | Mapear para cliente, adicionar tag |
| Desqualificado | 670 | Desqualificado | Mapeamento direto |
Documente este mapeamento e obtenha aprovação da liderança de vendas antes da importação. A definição de estágio de ciclo de vida afeta o roteamento, os relatórios e as cotas — não é uma decisão unilateral de operações.
Etapa 6: Normalização de Campos de Data
Campos de data falham silenciosamente. Eles importam sem erro, mas os valores estão errados — o que significa que seus relatórios baseados em datas e regras de automação quebram de formas que você não perceberá até que um rep note que suas tarefas de acompanhamento têm datas erradas.
Padrão alvo: ISO 8601, formatado como AAAA-MM-DD (ex.: 2025-06-15). Este formato é inequívoco entre localidades e aceito por todas as ferramentas de importação de CRM.
Problemas comuns:
- MM/DD/AAAA vs DD/MM/AAAA: Uma data de fechamento de "06/07/2024" é 6 de julho no formato norte-americano e 7 de junho no formato europeu. Se sua equipe tem reps internacionais que inseriram datas, você terá os dois no mesmo campo.
- Strings de texto: Entradas como "T3 2024", "Final do ano", "A definir" em campos de data. Estas não podem ser normalizadas programaticamente — revisão manual ou importação em branco.
- Offsets de fuso horário: Alguns sistemas exportam datas como ISO 8601 com fuso horário. Remova o offset de fuso horário e converta para UTC antes da importação.
- Unix timestamps: Algumas ferramentas de exportação geram timestamps em milissegundos desde a época. Converta com uma fórmula:
=TEXT(A2/86400000+"1/1/1970","AAAA-MM-DD")no Excel.
Para datas "desconhecidas": Se uma data de fechamento estiver vazia, deixe-a vazia — não preencha com uma data padrão. Em branco é honesto; uma data errada é enganosa.
Etapa 7: Decisões de Enriquecimento
A migração é o momento em que o enriquecimento faz mais sentido. Você já está tocando em cada registro, os dados estão em estado limpo (pós-deduplicação, pós-normalização), e o CRM de destino está começando do zero.
Quando enriquecer antes da migração:
- Sua taxa de preenchimento de nome de empresa está abaixo de 70%
- Você tem contatos sem cargo e sem associação de empresa
- Você está migrando para um CRM com objetos de dados em nível de empresa (como Contas no Salesforce ou Empresas no HubSpot) que precisam de firmographics precisos para configurar associações
Opções de enriquecimento gratuitas:
- Clearbit Reveal (agora Breeze Intelligence no HubSpot): Enriquece automaticamente dados de empresa a partir do domínio de e-mail. Nível gratuito limitado, mas útil para enriquecimento em massa dos domínios mais comuns.
- Apollo.io: Possui nível gratuito com 50 enriquecimentos por mês. Bom para verificações pontuais de registros específicos.
- Pesquisa manual no LinkedIn: Lento, mas confiável para contas-chave onde os dados realmente importam.
Quando pular o enriquecimento antes da migração:
- Seu mapeamento de campos não inclui os campos que você estaria enriquecendo
- Seu prazo é apertado — o enriquecimento adiciona 2 a 5 dias
- O CRM de destino tem uma integração de enriquecimento nativa que será executada automaticamente após a importação
Uma verificação importante: confirme que os campos enriquecidos sobreviverão ao mapeamento de campos da migração. Não há sentido em enriquecer "Número de Funcionários" se esse campo não tem um destino mapeado no novo sistema.
Etapa 8: Controle de Qualidade do Conjunto de Dados Limpo
Após deduplicação, normalização, validação e (opcionalmente) enriquecimento, você precisa verificar se o próprio processo de limpeza não introduziu erros.
Checklist de QA Pós-Limpeza
| Verificação | Antes da limpeza | Após a limpeza | Status |
|---|---|---|---|
| Contagem total de contatos | [linha de base] | Deve ser menor (dedup) | |
| Estimativa de duplicatas (e-mail) | [% da linha de base] | <1% | |
| Campo de e-mail: endereços válidos | [% da linha de base] | >90% | |
| Campo de telefone: formato E.164 | [% da linha de base] | >85% | |
| Estágio de ciclo de vida: valores nulos | [contagem da linha de base] | <2% | |
| Campos de data: formato ISO 8601 | [% da linha de base] | >95% | |
| Campo de país: padronizado | [% da linha de base] | >95% | |
| Preenchimento do nome da empresa | [% da linha de base] | [% alvo] |
Execute este checklist em uma amostra de 500 linhas primeiro. Exporte 500 registros aleatórios, limpe-os usando seu processo e verifique a saída em relação ao checklist. Se a amostra passar, aplique o mesmo processo ao conjunto de dados completo.
Verificação de sanidade da contagem de registros: Sua contagem de contatos pós-limpeza deve ser menor do que a pré-limpeza (a deduplicação removeu registros), mas não deve ser dramaticamente menor. Se você começou com 10.000 contatos e terminou com 4.000, ou você tinha um problema extremo de duplicação ou o script de limpeza excluiu registros que não deveria. Investigue antes de prosseguir.
Armadilhas Comuns
Executar dedup sem fazer backup primeiro. Um merge em massa é irreversível na maioria dos sistemas. Os 10 minutos necessários para exportar um backup CSV valem a pena todas as vezes.
Limites agressivos de merge automático destruindo contatos legítimos separados. Duas pessoas chamadas "Michael Chen" na mesma empresa não são a mesma pessoa. Fazer merge automático por nome + empresa sem verificar e-mail ou telefone primeiro cria um registro corrompido difícil de desfazer.
Enriquecer dados que não sobreviverão ao mapeamento de campos. Se o seu documento de mapeamento de campos não inclui "URL do LinkedIn" como campo de destino, enriquecer URLs do LinkedIn é esforço desperdiçado. Confirme quais campos estão sendo migrados antes de decidir o que enriquecer.
Normalizar números de telefone sem verificar extensões. Um script de normalização que remove todos os caracteres não numéricos vai transformar "+55 (11) 9234-5678 r.102" em "+5511923456789102" — um número de 14 dígitos que parece válido mas não é. Trate as extensões antes da normalização.
Limpar o conjunto de dados completo sem testar em uma amostra primeiro. Todo script de limpeza tem casos extremos. Teste em 500 registros, verifique a saída e só então execute nos 50.000.
Próximos Passos
Não tente limpar tudo de uma vez. Esta semana, exporte uma amostra de 500 linhas, aplique as etapas de limpeza deste guia e execute o checklist de QA. Verifique se a saída parece correta. Então — e somente então — execute o mesmo processo no seu conjunto de dados completo.
A ordem importa:
- Deduplicação primeiro (para não normalizar registros que você está prestes a fazer merge)
- Validação de e-mail em segundo (remover registros inválidos antes do enriquecimento)
- Normalização em terceiro (telefone, país, datas, estágio de ciclo de vida)
- Enriquecimento por último (opcional, adicionar apenas aos registros limpos)
- QA do conjunto de dados limpo completo em relação ao checklist antes da exportação
Depois que seu conjunto de dados limpo passar pelo QA, você estará pronto para construir o documento de mapeamento de campos. Esse processo está coberto no próximo guia.
Saiba Mais

Victor Hoang
Co-Founder
On this page
- Etapa 1: Estratégia de Deduplicação
- Tabela de Lógica de Decisão de Deduplicação
- Etapa 2: Ferramentas para Deduplicação
- Etapa 3: Normalização de Número de Telefone
- Etapa 4: Validação de E-mail
- Etapa 5: Normalização do Estágio de Ciclo de Vida
- Modelo de Mapeamento de Estágio de Ciclo de Vida
- Etapa 6: Normalização de Campos de Data
- Etapa 7: Decisões de Enriquecimento
- Etapa 8: Controle de Qualidade do Conjunto de Dados Limpo
- Checklist de QA Pós-Limpeza
- Armadilhas Comuns
- Próximos Passos
- Saiba Mais