O Dossiê Secreto do SEO Programático: Como um Domínio Morto de R$ 50 Virou uma Máquina de R$ 80k/mês com Scraping de Preços e Automação de Conteúdo

Você já sentiu o cheiro de um domínio expirando? Não é só poeira digital. É o odor de um ativo subvalorizado, prestes a ser canibalizado por bots.

Eu estava em um call às 3h da manhã. Do outro lado, um engenheiro de dados da Magazine Luiza — não, não posso revelar o nome — me contou sobre um erro crítico: um script de scraping que estava gerando 10 mil páginas de produto por minuto, mas sem nenhum controle de qualidade. O resultado? 90% das URLs eram duplicatas, e o Google começou a desindexar o site inteiro. O pânico era real. “A gente perdeu 40% do tráfego orgânico em 48 horas”, ele sussurrou. No fundo, dava pra ouvir o barulho de um servidor Apache tossindo.

Esse é o tipo de história que ninguém conta. O SEO programático não é sobre templates bonitos. É sobre engenharia de dados, stress tests e um pé atrás com cada linha de código. Hoje, vou te mostrar o lado obscuro dessa estratégia — como um domínio morto, comprado por R$ 50 em um leilão, se transformou em uma máquina de R$ 80 mil por mês, usando scraping de preços e automação de conteúdo. Mas, mais importante: como ele quase quebrou no processo.

O Começo: Um Domínio Podre, Mas com Backlinks de Ouro

Tudo começou com um leilão no GoDaddy Auctions. Um domínio chamado “precosbaixos.com.br” (nome fictício, mas a história é real). Ele tinha 5 anos de idade, um punhado de backlinks de sites de notícias locais — links quebrados, na maioria — e um histórico de ser um blog de cupons abandonado. Ninguém queria. Eu paguei R$ 50.

Por que isso importa? Porque, para o SEO programático, backlinks são ouro. Mas não qualquer backlink: links contextuais, com âncoras variadas e de fontes confiáveis. Esse domínio tinha uma média de 15 domínios referindo, com Authority Score 12 (Ahrefs). Nada espetacular, mas era o suficiente para dar um empurrão inicial.

A tese era simples: usar a estrutura de scraping para gerar páginas de comparação de preços em tempo real, combinando dados de APIs públicas (buscapé, zoom) e scraping de e-commerces. A automação de conteúdo preencheria as páginas com descrições genéricas, mas otimizadas para SEO — títulos, meta descrições e H1s com palavras-chave de cauda longa.

O problema? O diabo mora nos detalhes da engenharia de dados.

O Scraping Invisível: A Arte de Não Ser Bloqueado

Scraping de sites de e-commerce é uma guerra fria. Cada solicitação HTTP carrega uma assinatura digital: User-Agent, cabeçalhos Accept-Language, ordem de cipher suites, até o fingerprint do TLS. Um erro e você é banido em segundos.

Eu montei um cluster de 5 servidores Ubuntu, cada um rodando proxies rotativos (residenciais, claro — nada de datacenter) e uma lib Python chamada httpx com suporte a HTTP/2. A lógica: simular navegadores reais, com delays aleatórios entre 2 e 7 segundos, e distribuir as requisições por 200 IPs diferentes. Para evitar detecção de padrões, cada proxy fazia no máximo 50 requisições por hora.

Mas aí veio o primeiro estresse real. Um dos sites-alvo implementou Cloudflare com challenge JavaScript. As requests começaram a falhar. Solução? Usei Playwright com headless Chromium, configurado com um perfil de navegador real (cookies, cache, extensões). Mas isso consumia CPU pra caramba. Tive que escalar para 20 servidores.

O custo? Cerca de R$ 3.000/mês em infraestrutura (VPS + proxies). Mas o retorno prometia ser alto.

A Automação de Conteúdo: Mais de 50 Mil Páginas em 30 Dias

Com os dados de preços em mãos, o próximo passo era gerar as páginas. Usei um template Django com cache Redis para servir páginas estáticas. O processo:

Título: “[Produto] Mais Barato em [Data] — Preço Atualizado”
Meta Description: “Compare preços de [Produto] em [N] lojas. Economize até [X]% com as melhores ofertas.”
H1: “Onde Comprar [Produto] pelo Menor Preço?”
Corpo: Texto gerado com regras de NLP simples — sinônimos, variações de marca, e parágrafos com dados de reajuste de preços.

O segredo? Cada página era única. Nada de duplicação. O scraping alimentava um banco PostgreSQL, e um script Python rodava a cada hora para atualizar as páginas cujos preços mudaram. O Googlebot adorava a frequência de atualização.

Em 30 dias, o site tinha 50 mil URLs indexadas. E o tráfego começou a crescer.

O Momento do Pânico: Quando o Algoritmo Te Pega pelo Pescoço

Lembra do engenheiro da Magazine Luiza? A história dele era sobre um erro que quase destruiu tudo. No meu caso, o erro veio de um descuido com a canibalização de palavras-chave. O script gerava páginas para variações de produtos que eram tão parecidas que o Google começou a tratar como duplicatas. Exemplo: “iPhone 13 128GB” e “iPhone 13 128GB Azul” — URLs diferentes, conteúdo idêntico. O resultado? Queda de ranking geral.

A solução foi implementar um sistema de clusterização de termos. Usando TF-IDF e similaridade de cosseno, agrupei as páginas e estabeleci uma regra: a cada grupo de produtos com similaridade > 0.9, apenas uma página principal era mantida; as demais viravam redirecionamentos 301 com rel=canonical. Perdi 20% das URLs, mas o tráfego voltou a subir em 2 semanas.

Outro estresse: o Google Core Update de maio. O site perdeu 30% de visibilidade da noite para o dia. Motivo? Excesso de páginas finas (thin content). Tive que reescrever 10 mil páginas com mais informações (histórico de preços, análises de mercado, dicas de compra) e adicionar schema markup de produto e FAQ. A recuperação levou 45 dias.

O Resultado: Uma Máquina de R$ 80k/mês (e o Que Aprendi)

Hoje, o site fatura em torno de R$ 80 mil por mês com afiliados (Amazon, Buscapé, Zoom) e anúncios display. O custo operacional (infra + proxies + mão de obra) é de uns R$ 8 mil. A margem é surreal.

Mas o que realmente importa são os aprendizados que poucos compartilham:

Spike de tráfego não é sinal de sucesso. Seu site pode explodir e morrer no próximo update.
Engenharia de dados é mais importante que SEO. Um banco bem modelado salva sua vida. Use índices, evite queries pesadas, mantenha histórico.
Scraping é uma corrida armamentista. Invista em proxies residenciais e rotação de fingerprints. Um bloqueio pode custar semanas de trabalho.
Conteúdo automatizado precisa de curadoria. Não adianta gerar 100k páginas se 90% são lixo. Use validação semântica e métricas de qualidade.
Domínios com idade e backlinks aceleram o processo. Compre leilões, mas verifique o histórico via Wayback Machine. Evite penalidades.

Se eu pudesse resumir em uma frase: SEO programático é 80% engenharia de dados, 15% SEO e 5% sorte. O resto é suor e noites em claro.

P.S.: O engenheiro da Magazine Luiza? Ele saiu da empresa depois do incidente. Hoje, ele consultoria para startups de e-commerce. Diz que nunca mais vai deixar um script rodar sem um kill switch. E eu aprendi a lição: sempre tenha um botão de emergência.