Limpeza de Dados para Migração de CRM: Deduplicação, Normalização e Enriquecimento

Uma migração de CRM é a melhor oportunidade que você terá para corrigir a qualidade dos seus dados. A maioria das equipes perde essa chance porque trata a limpeza como uma tarefa pós-migração — algo para resolver depois do go-live, quando as coisas desacelerarem. As coisas não desaceleram. O backlog pós-migração nunca é zerado. E seis meses depois, os reps estão trabalhando em um novo sistema com os mesmos dados ruins do anterior, mais os erros introduzidos durante a importação.

A líder de RevOps de uma empresa realizou uma migração de 8.000 contatos do HubSpot para um novo CRM. Ela encontrou 2.400 contatos duplicados após a importação. Uma sessão de deduplicação de 3 horas antes da exportação teria evitado o problema. Em vez disso, a limpeza levou três semanas e exigiu uma reimportação parcial. (Se você está migrando do HubSpot especificamente, mudando do HubSpot para o Rework apresenta as diferenças de modelo de dados que tornam esta etapa de limpeza ainda mais importante.)

Este guia oferece a sequência de limpeza que previne esse resultado. Siga estas etapas na ordem indicada no seu sistema de origem. Não exporte nenhum registro antes de terminar.

Etapa 1: Estratégia de Deduplicação

A deduplicação tem duas fases: identificar duplicatas e decidir o que fazer com elas. Não faça nenhum merge antes de ter uma regra de decisão clara para cada tipo de correspondência.

Hierarquia de regras de correspondência:

  1. Correspondência exata de e-mail: Dois registros com o mesmo endereço de e-mail quase certamente pertencem à mesma pessoa. Seguro para merge automático. O registro com mais campos preenchidos (mais campos não vazios) vence.
  2. Correspondência fuzzy de nome completo + empresa: Dois registros com nome similar (João Silva vs. João da Silva) e nome de empresa igual ou similar. Coloque na fila para revisão manual — não faça merge automático.
  3. Correspondência de telefone: Mesmo número de telefone em dois registros diferentes. Confiança menor do que e-mail — telefones fixos de empresa aparecem em muitos contatos. Apenas revisão manual.
  4. Correspondência de domínio de empresa no mesmo contato: Dois registros para "Sarah Jones" e "S. Jones" no mesmo domínio de e-mail. Confiança média. Revisão manual.

Tabela de Lógica de Decisão de Deduplicação

Tipo de correspondência Confiança Ação
Correspondência exata de e-mail Alta Merge automático — manter registro com mais dados
Correspondência fuzzy de nome + empresa (>85% de similaridade) Média Colocar na fila para revisão manual
Correspondência exata de telefone, mesma empresa Média Colocar na fila para revisão manual
Apenas nome (sem empresa, sem e-mail) Baixa Sinalizar, não fazer merge automático
Apenas correspondência de domínio de e-mail Baixa Ignorar — muitos falsos positivos

Limite para merge automático: Configure o merge automático apenas para correspondências exatas de e-mail. Qualquer coisa abaixo disso exige revisão humana. Um merge automático agressivo que combina incorretamente duas pessoas diferentes na mesma empresa corrompe o histórico de negócios e dados de relacionamento de formas difíceis de desfazer.

Etapa 2: Ferramentas para Deduplicação

A escolha da ferramenta depende do seu sistema de origem e do tamanho do conjunto de dados.

HubSpot (nativo): Contatos > Ações > Gerenciar Duplicatas. O HubSpot apresenta pares para revisão com comparação lado a lado. Ele faz o merge nativamente — você escolhe o registro vencedor e ele preserva todo o histórico de associações. Limite: processa um par por vez, o que é viável para até cerca de 5.000 contatos, mas é lento além disso.

Salesforce (nativo): Configurações > Gerenciamento de Duplicatas. Defina uma Regra de Duplicata (campo de correspondência: E-mail, tipo de correspondência: Exato) e execute como relatório. Use a ferramenta Mesclar Contatos para merges individuais. Para deduplicação em massa no Salesforce, as ferramentas nativas são limitadas — para conjuntos de dados com mais de 10.000 contatos, uma ferramenta de terceiros é mais rápida.

Pipedrive (suporte nativo limitado): O Pipedrive sinaliza possíveis duplicatas na visualização de contatos, mas não possui uma ferramenta de deduplicação em massa. Exporte para CSV, execute a deduplicação em uma planilha ou ferramenta de terceiros, depois reimporte o arquivo limpo.

Ferramentas de terceiros para grandes conjuntos de dados:

  • Dedupely (dedupely.com): Criado especificamente para HubSpot e Salesforce. Lida com merge em massa com automação baseada em regras. Bom para 10.000+ registros.
  • Dedupe.io: Funciona com exportações CSV de qualquer CRM. Faça upload do arquivo, configure regras de correspondência, baixe o arquivo deduplicado.
  • Cloudingo (cloudingo.com): Específico para Salesforce. Interface melhor do que as ferramentas nativas para regras de merge complexas.

Antes de executar qualquer ferramenta de deduplicação: exporte um backup completo. Baixe todos os objetos como CSV. Guarde em local acessível. Você não consegue desfazer um merge em massa de forma confiável, e vai querer o estado pré-merge se algo der errado.

Etapa 3: Normalização de Número de Telefone

Os campos de telefone são os dados mais bagunçados em qualquer CRM. Você encontrará: +55 (11) 9234-5678, 11-9234-5678, 11923456789, +5511923456789, 11.9234.5678 x102, e (11) 9234-5678. Mesmo número, sete formatos diferentes.

Padrão alvo: Formato E.164. Este é o padrão internacional: + seguido pelo código do país, seguido pelo número do assinante, sem espaços ou caracteres de formatação. Número brasileiro em E.164: +5511923456789.

Etapas de normalização:

  1. Remover todos os caracteres não numéricos: remover (, ), -, ., espaços
  2. Se o número tiver 11 dígitos e você estiver no Brasil, adicione +55
  3. Se o número começar com 55 e tiver 13 dígitos, adicione +
  4. Verificar extensões no campo de telefone principal — qualquer coisa após "r.", "ramal" ou similar — extrair para um campo de extensão separado

Regex para limpeza básica de telefone (funciona no Google Sheets via REGEXREPLACE):

Remover não numéricos: =REGEXREPLACE(A2,"[^0-9+]","")

Verificar número brasileiro de 11 dígitos: =IF(LEN(REGEXREPLACE(A2,"[^0-9]",""))=11, "+55"&REGEXREPLACE(A2,"[^0-9]",""), A2)

Para grandes conjuntos de dados, um script Python usando a biblioteca phonenumbers lidará com números internacionais de forma mais confiável do que regex. Mas para a maioria das equipes de Sales Ops trabalhando em planilhas, a abordagem regex resolve 90% dos casos.

Etapa 4: Validação de E-mail

Antes da migração, a validação de e-mail em massa remove contatos que vão retornar hard bounce na primeira campanha de outreach no novo sistema. Registros com e-mail inválido não valem a pena ser migrados.

Ferramentas de validação em massa:

  • ZeroBounce: Faça upload de um CSV, receba um status por e-mail (válido, inválido, catch-all, spamtrap, abuse). Cerca de $0,008 por e-mail para grandes lotes. Possui nível gratuito para testes.
  • NeverBounce: Preços e capacidade semelhantes. Boa API se você quiser integrar em um script.
  • Hunter.io Email Verifier: Mais lento, mas útil para verificações pontuais de domínios específicos.

O que fazer com cada resultado de validação:

Status Ação
Válido Migrar
Inválido (histórico de hard bounce) Remover da migração, arquivar
Catch-all (domínio aceita tudo) Migrar com tag "não verificado"
Spamtrap Excluir, não migrar
Abuse (histórico frequente de reclamações) Remover da migração
Endereços de função (info@, vendas@, admin@) Sinalizar — migrar apenas se não houver e-mail de contato individual

Não exclua contatos inválidos sem verificar se eles têm negócios associados. Um contato com e-mail inválido pode ter uma oportunidade em aberto. Migre o registro (sem o e-mail ruim), limpe o e-mail manualmente e siga em frente.

Etapa 5: Normalização do Estágio de Ciclo de Vida

Este campo causa mais confusão pós-migração do que quase qualquer outra coisa. Os sistemas de origem acumulam estágios de ciclo de vida ao longo do tempo à medida que as definições de processo mudam. Quando você está migrando, pode ter 9 valores distintos de estágio que precisam ser mapeados para 4 no destino.

Comece exportando todos os valores distintos de estágio de ciclo de vida do seu sistema de origem. No Salesforce: SELECT Status, COUNT(Id) FROM Lead GROUP BY Status. No HubSpot: exporte contatos e faça uma tabela dinâmica na coluna de estágio de ciclo de vida no Excel. No Pipedrive: exporte contatos/leads e use um CONT.SE.

Antes de finalizar o mapeamento de valores, revise as definições de estágio de ciclo de lead do seu destino — as decisões de mapeamento que você fizer aqui irão orientar o roteamento, as automações e os relatórios no novo sistema.

Modelo de Mapeamento de Estágio de Ciclo de Vida

Valor do sistema de origem Contagem Valor do sistema de destino Notas
Novo Lead 1.240 Lead Mapeamento direto
Lead Aberto 890 Lead Combinar com acima
Lead Qualificado pelo Marketing 430 MQL Mapeamento direto
Lead Qualificado pelo Produto 180 MQL Mapear para MQL, a menos que o destino tenha PQL
Lead Aceito por Vendas 220 SQL Mapeamento direto
Lead Qualificado por Vendas 310 SQL Combinar com acima
Demo Agendada 145 SQL Manter como SQL, adicionar nota de atividade
Negociação 88 SQL Tratar como SQL de fase avançada
Cliente 2.100 Cliente Mapeamento direto
Churn 340 Cliente (inativo) Adicionar tag como inativo
Evangelista 45 Cliente Mapear para cliente, adicionar tag
Desqualificado 670 Desqualificado Mapeamento direto

Documente este mapeamento e obtenha aprovação da liderança de vendas antes da importação. A definição de estágio de ciclo de vida afeta o roteamento, os relatórios e as cotas — não é uma decisão unilateral de operações.

Etapa 6: Normalização de Campos de Data

Campos de data falham silenciosamente. Eles importam sem erro, mas os valores estão errados — o que significa que seus relatórios baseados em datas e regras de automação quebram de formas que você não perceberá até que um rep note que suas tarefas de acompanhamento têm datas erradas.

Padrão alvo: ISO 8601, formatado como AAAA-MM-DD (ex.: 2025-06-15). Este formato é inequívoco entre localidades e aceito por todas as ferramentas de importação de CRM.

Problemas comuns:

  • MM/DD/AAAA vs DD/MM/AAAA: Uma data de fechamento de "06/07/2024" é 6 de julho no formato norte-americano e 7 de junho no formato europeu. Se sua equipe tem reps internacionais que inseriram datas, você terá os dois no mesmo campo.
  • Strings de texto: Entradas como "T3 2024", "Final do ano", "A definir" em campos de data. Estas não podem ser normalizadas programaticamente — revisão manual ou importação em branco.
  • Offsets de fuso horário: Alguns sistemas exportam datas como ISO 8601 com fuso horário. Remova o offset de fuso horário e converta para UTC antes da importação.
  • Unix timestamps: Algumas ferramentas de exportação geram timestamps em milissegundos desde a época. Converta com uma fórmula: =TEXT(A2/86400000+"1/1/1970","AAAA-MM-DD") no Excel.

Para datas "desconhecidas": Se uma data de fechamento estiver vazia, deixe-a vazia — não preencha com uma data padrão. Em branco é honesto; uma data errada é enganosa.

Etapa 7: Decisões de Enriquecimento

A migração é o momento em que o enriquecimento faz mais sentido. Você já está tocando em cada registro, os dados estão em estado limpo (pós-deduplicação, pós-normalização), e o CRM de destino está começando do zero.

Quando enriquecer antes da migração:

  • Sua taxa de preenchimento de nome de empresa está abaixo de 70%
  • Você tem contatos sem cargo e sem associação de empresa
  • Você está migrando para um CRM com objetos de dados em nível de empresa (como Contas no Salesforce ou Empresas no HubSpot) que precisam de firmographics precisos para configurar associações

Opções de enriquecimento gratuitas:

  • Clearbit Reveal (agora Breeze Intelligence no HubSpot): Enriquece automaticamente dados de empresa a partir do domínio de e-mail. Nível gratuito limitado, mas útil para enriquecimento em massa dos domínios mais comuns.
  • Apollo.io: Possui nível gratuito com 50 enriquecimentos por mês. Bom para verificações pontuais de registros específicos.
  • Pesquisa manual no LinkedIn: Lento, mas confiável para contas-chave onde os dados realmente importam.

Quando pular o enriquecimento antes da migração:

  • Seu mapeamento de campos não inclui os campos que você estaria enriquecendo
  • Seu prazo é apertado — o enriquecimento adiciona 2 a 5 dias
  • O CRM de destino tem uma integração de enriquecimento nativa que será executada automaticamente após a importação

Uma verificação importante: confirme que os campos enriquecidos sobreviverão ao mapeamento de campos da migração. Não há sentido em enriquecer "Número de Funcionários" se esse campo não tem um destino mapeado no novo sistema.

Etapa 8: Controle de Qualidade do Conjunto de Dados Limpo

Após deduplicação, normalização, validação e (opcionalmente) enriquecimento, você precisa verificar se o próprio processo de limpeza não introduziu erros.

Checklist de QA Pós-Limpeza

Verificação Antes da limpeza Após a limpeza Status
Contagem total de contatos [linha de base] Deve ser menor (dedup)
Estimativa de duplicatas (e-mail) [% da linha de base] <1%
Campo de e-mail: endereços válidos [% da linha de base] >90%
Campo de telefone: formato E.164 [% da linha de base] >85%
Estágio de ciclo de vida: valores nulos [contagem da linha de base] <2%
Campos de data: formato ISO 8601 [% da linha de base] >95%
Campo de país: padronizado [% da linha de base] >95%
Preenchimento do nome da empresa [% da linha de base] [% alvo]

Execute este checklist em uma amostra de 500 linhas primeiro. Exporte 500 registros aleatórios, limpe-os usando seu processo e verifique a saída em relação ao checklist. Se a amostra passar, aplique o mesmo processo ao conjunto de dados completo.

Verificação de sanidade da contagem de registros: Sua contagem de contatos pós-limpeza deve ser menor do que a pré-limpeza (a deduplicação removeu registros), mas não deve ser dramaticamente menor. Se você começou com 10.000 contatos e terminou com 4.000, ou você tinha um problema extremo de duplicação ou o script de limpeza excluiu registros que não deveria. Investigue antes de prosseguir.

Armadilhas Comuns

Executar dedup sem fazer backup primeiro. Um merge em massa é irreversível na maioria dos sistemas. Os 10 minutos necessários para exportar um backup CSV valem a pena todas as vezes.

Limites agressivos de merge automático destruindo contatos legítimos separados. Duas pessoas chamadas "Michael Chen" na mesma empresa não são a mesma pessoa. Fazer merge automático por nome + empresa sem verificar e-mail ou telefone primeiro cria um registro corrompido difícil de desfazer.

Enriquecer dados que não sobreviverão ao mapeamento de campos. Se o seu documento de mapeamento de campos não inclui "URL do LinkedIn" como campo de destino, enriquecer URLs do LinkedIn é esforço desperdiçado. Confirme quais campos estão sendo migrados antes de decidir o que enriquecer.

Normalizar números de telefone sem verificar extensões. Um script de normalização que remove todos os caracteres não numéricos vai transformar "+55 (11) 9234-5678 r.102" em "+5511923456789102" — um número de 14 dígitos que parece válido mas não é. Trate as extensões antes da normalização.

Limpar o conjunto de dados completo sem testar em uma amostra primeiro. Todo script de limpeza tem casos extremos. Teste em 500 registros, verifique a saída e só então execute nos 50.000.

Próximos Passos

Não tente limpar tudo de uma vez. Esta semana, exporte uma amostra de 500 linhas, aplique as etapas de limpeza deste guia e execute o checklist de QA. Verifique se a saída parece correta. Então — e somente então — execute o mesmo processo no seu conjunto de dados completo.

A ordem importa:

  1. Deduplicação primeiro (para não normalizar registros que você está prestes a fazer merge)
  2. Validação de e-mail em segundo (remover registros inválidos antes do enriquecimento)
  3. Normalização em terceiro (telefone, país, datas, estágio de ciclo de vida)
  4. Enriquecimento por último (opcional, adicionar apenas aos registros limpos)
  5. QA do conjunto de dados limpo completo em relação ao checklist antes da exportação

Depois que seu conjunto de dados limpo passar pelo QA, você estará pronto para construir o documento de mapeamento de campos. Esse processo está coberto no próximo guia.

Saiba Mais