Exemplos guiados

Casos reais de schema e selectorHint.

Cada pagina desta secao mostra um tipo real de site, como preencher o schema, o que evitar, quais seletores usar e qual resultado esperar no Intelbot.

/integrations/exampleslistselectorHint

Como usar

Do mais simples ao mais irregular

  • comece por uma estrutura parecida com a sua
  • suba de nivel quando a heuristica comecar a falhar
  • copie modo, campos e seletores para o seu workspace
  • em e-commerce, evite a home e prefira paginas de categoria

Regra pratica

Nao comece pela home de loja virtual

Em sites de e-commerce, a home costuma misturar carrosseis, vitrines de destaque, promocoes, mais vendidos e itens clonados pelo slider. Isso faz o modo list capturar produtos repetidos ou desalinhados.

Para obter uma saida melhor em JSON, CSV e XLSX, prefira sempre uma pagina de categoria com grade estavel, como /gatos/latas-e-saches ou /caes/racoes-secas.

Sequencia sugerida

Progressao de aprendizado

Nivel 1

books.toscrape.com

cards repetidos
Nivel 2

news.ycombinator.com

item em multiplas linhas
Nivel 3

lobste.rs

score, dominio, tags e comentarios misturados
Nivel 4

lojanimal.com.br

categoria estavel em vez de home com vitrines
Nivel 5

dafiti.com.br

falha inicial, revisao manual e depois validacao automatica real
Nivel 6

netshoes.com.br

card visivel incompleto e complemento por dado estruturado
Nivel 7

decathlon.com.br

card correto, mas nome capturado do slider interno
Nivel 8

madeiramadeira.com.br

cards editoriais e cards de produto na mesma pagina
Nivel 9

drogariasaopaulo.com.br

produto, compra, desconto e PBM no mesmo card

Biblioteca

Exemplos atuais

Catalogo de livros com cards repetidosNivel 1
books.toscrape.comregularcards repetidos

Exemplo de pagina de vitrine com cards regulares, ideal para aprender seletor estrutural em modo list.

Campos praticados: nome, preco, url

Lista de noticias do Hacker NewsNivel 2
news.ycombinator.comirregularitem em multiplas linhas

Exemplo de lista mais irregular, com titulo, URL e pontos em niveis diferentes do mesmo item.

Campos praticados: titulo, url, pontos

Curadoria editorial com score, byline e comentariosNivel 3
lobste.rsirregularidade altascore, dominio, tags e comentarios misturados

Exemplo mais dificil, com score, autoria variavel, tags, dominio e comentarios convivendo no mesmo item.

Campos praticados: titulo, url, pontos, comentarios

Categoria de e-commerce com saida pronta para ExcelNivel 4
lojanimal.com.brirregularidade operacionalcategoria estavel em vez de home com vitrines

Exemplo real de loja virtual em que a home gera duplicacoes e a pagina de categoria entrega uma planilha limpa.

Campos praticados: nome, preco, url

E-commerce dificil com ajuste fino de selectorHintNivel 5
dafiti.com.bre-commerce dificilfalha inicial, revisao manual e depois validacao automatica real

Exemplo real em que o modo automatico primeiro precisou de revisao de selectorHint, mas depois passou a fechar sozinho em outra categoria da mesma Dafiti.

Campos praticados: nome, preco, url

E-commerce dificil com preco oculto no runtimeNivel 6
netshoes.com.bre-commerce dificil com dado ocultocard visivel incompleto e complemento por dado estruturado

Exemplo real em que o preco nao estava sempre no card visivel e precisou ser complementado por JSON-LD, dataLayer e window.__INITIAL_STATE__.

Campos praticados: nome, preco, url

E-commerce dificil com nome contaminado por carrosselNivel 7
decathlon.com.bre-commerce dificil com semantica de nomecard correto, mas nome capturado do slider interno

Exemplo real em que o automatico ja acertava card, preco e URL, mas precisou aprender a ignorar o texto de navegacao do carrossel para fechar o nome real do produto.

Campos praticados: nome, preco, url

E-commerce dificil com grid mista e deduplicacao por URLNivel 8
madeiramadeira.com.bre-commerce dificil com vitrines mistascards editoriais e cards de produto na mesma pagina

Exemplo real em que o automatico precisou separar o card de produto da vitrine editorial, filtrar matches invalidos e deduplicar a saida por URL para fechar a planilha.

Campos praticados: nome, preco, url

E-commerce VTEX com subcards internos de compraNivel 9
drogariasaopaulo.com.bre-commerce dificil com subcards internosproduto, compra, desconto e PBM no mesmo card

Exemplo real em que o automatico precisava ignorar subcards de compra, desconto, PBM e checkout para capturar o card de produto real.

Campos praticados: nome, preco, url

Casos recentes

Testes ja executados sem pagina propria ainda

mercadolivre.com.brvalidado com excecoes residuais

Busca real fechou 46 linhas com planilha majoritariamente correta; restaram poucos erros de preco em cards promocionais com preco anterior, desconto e valor atual no mesmo bloco.

Testes anteriores apontaram 6 erros de preco dentre 46 itens lidos. Isso representa aproximadamente 13% de possibilidade de erro nesse caso.

Ja houve ocorrencia de bloqueio anti-bot e o Intelbot foi barrado em parte das tentativas.

Esse site pode funcionar, pode sair com erro residual baixo ou pode impedir totalmente a leitura.

americanas.com.brvalidado

Busca de notebook voltou a fechar lista estruturada apos o ajuste de itemKey para cards repetidos do grid, e a frente marketplace_search se sustentou em novos testes reais com SSD e monitor gamer 27.

A regressao local vinha do colapso de todos os cards em um unico itemKey da galeria inteira.

Com a heuristica corrigida para preferir o card repetido mais proximo, a suite voltou a validar 12 linhas com score 100.

Depois disso, a Americanas tambem fechou bem em SSD com cards mais compactos e em monitor gamer 27 com 16 linhas, score 100 e renderizacao via Playwright.

casasbahia.com.brlimite operacional

Playwright recebeu resposta bloqueada e o fallback fetch devolveu HTML estrutural com CSS e menus, sem lista real de produtos.

A planilha saiu com 12 linhas, mas nome e url vieram de blocos de CSS, navegacao e links genericos em vez de cards de produto.

O caso nao mede a qualidade do motor de marketplace_search; mede apenas que a origem nao entregou a grade real para extracao.

petz.com.brvalidado com fallback

Playwright bloqueou, mas o HTML estatico trouxe microdados e o motor passou a fechar 20 linhas com nome, preco e url.

Esse dominio ja precisou de fallback para HTML estatico com microdados quando o Playwright nao trouxe a melhor leitura.

amazon.com.brvalidado

Best Sellers de notebooks fechou com linhas coesas apos os ajustes de pareamento por itemKey e cobertura de preco alternativo.

Amazon Brasil validada em lista editorial e em cards com preco alternativo.

amazon.comvalidado

Amazon US fechou bem em pagina Best Sellers com planilha coesa para nome, preco e url.

Caso validado sem barreira anti-bot nessa classe de pagina.

amazon.comvalidado

Amazon US tambem fechou em busca livre com linhas coerentes para nome, preco e url.

Busca livre validada sem cruzamento entre cards depois do ajuste estrutural por itemKey.

amazon.comvalidado com excecoes residuais

A busca oscilou entre sucesso estrutural e respostas degradadas da propria Amazon, como JavaScript is disabled e Sorry! Something went wrong!.

Nao e challenge classico de captcha, mas a resposta degradada impede a leitura real da listagem quando aparece.

O Intelbot agora deve classificar esse padrao degradado como limite operacional, nao como planilha ruim comum.

Quando a origem entrega a grade real, a leitura pode voltar a fechar bem para nome, preco e url.

magazineluiza.com.brlimite anti-bot

Redirecionamento para Radware/PerfDrive; o Intelbot agora declara o limite operacional em vez de transformar captcha em produto.

O dominio ja devolveu challenge Radware/PerfDrive em vez da listagem real de produtos.

carrefour.com.brlimite anti-bot

Pagina de bloqueio com Acesso Bloqueado e Ray ID; o motor passou a classificar esse padrao como limite operacional.

O dominio ja devolveu pagina de bloqueio com Ray ID em vez da listagem real.

pontofrio.com.brlimite operacional

Pagina de erro/bloqueio com mensagens para fechar o navegador, limpar dados de navegacao e Reference ID em vez da listagem real.

O dominio ja devolveu uma pagina de erro operacional com orientacoes de navegador no lugar da lista de produtos.

Nesse cenario, o Intelbot pode capturar itens de suporte como se fossem linhas da lista se o bloqueio nao for tratado antes.

alibaba.comlimite operacional

A busca caiu em nocaptcha com deteccao de trafego incomum da rede.

O dominio devolveu pagina de nocaptcha em vez da listagem real.

shopee.com.brlimite operacional

A rota caiu em verify/traffic/error com pagina indisponivel e pedido de login em vez da lista real.

O caso exposto foi de verificacao/acesso e lista nao materializada no HTML util.

Faltando biblioteca

Sites ja testados que ainda merecem pagina propria

mercadolivre.com.bramericanas.com.brcasasbahia.com.brpetz.com.bramazon.com.bramazon.commagazineluiza.com.brcarrefour.com.brpontofrio.com.bralibaba.comshopee.com.br