books.toscrape.com
cards repetidosExemplos guiados
Casos reais de schema e selectorHint.
Cada pagina desta secao mostra um tipo real de site, como preencher o schema, o que evitar, quais seletores usar e qual resultado esperar no Intelbot.
Como usar
Do mais simples ao mais irregular
- comece por uma estrutura parecida com a sua
- suba de nivel quando a heuristica comecar a falhar
- copie modo, campos e seletores para o seu workspace
- em e-commerce, evite a home e prefira paginas de categoria
Regra pratica
Nao comece pela home de loja virtual
Em sites de e-commerce, a home costuma misturar carrosseis, vitrines de destaque, promocoes, mais vendidos e itens clonados pelo slider. Isso faz o modo list capturar produtos repetidos ou desalinhados.
Para obter uma saida melhor em JSON, CSV e XLSX, prefira sempre uma pagina de categoria com grade estavel, como /gatos/latas-e-saches ou /caes/racoes-secas.
Sequencia sugerida
Progressao de aprendizado
news.ycombinator.com
item em multiplas linhaslobste.rs
score, dominio, tags e comentarios misturadoslojanimal.com.br
categoria estavel em vez de home com vitrinesdafiti.com.br
falha inicial, revisao manual e depois validacao automatica realnetshoes.com.br
card visivel incompleto e complemento por dado estruturadodecathlon.com.br
card correto, mas nome capturado do slider internomadeiramadeira.com.br
cards editoriais e cards de produto na mesma paginadrogariasaopaulo.com.br
produto, compra, desconto e PBM no mesmo cardBiblioteca
Exemplos atuais
Exemplo de pagina de vitrine com cards regulares, ideal para aprender seletor estrutural em modo list.
Campos praticados: nome, preco, url
Exemplo de lista mais irregular, com titulo, URL e pontos em niveis diferentes do mesmo item.
Campos praticados: titulo, url, pontos
Exemplo mais dificil, com score, autoria variavel, tags, dominio e comentarios convivendo no mesmo item.
Campos praticados: titulo, url, pontos, comentarios
Exemplo real de loja virtual em que a home gera duplicacoes e a pagina de categoria entrega uma planilha limpa.
Campos praticados: nome, preco, url
Exemplo real em que o modo automatico primeiro precisou de revisao de selectorHint, mas depois passou a fechar sozinho em outra categoria da mesma Dafiti.
Campos praticados: nome, preco, url
Exemplo real em que o preco nao estava sempre no card visivel e precisou ser complementado por JSON-LD, dataLayer e window.__INITIAL_STATE__.
Campos praticados: nome, preco, url
Exemplo real em que o automatico ja acertava card, preco e URL, mas precisou aprender a ignorar o texto de navegacao do carrossel para fechar o nome real do produto.
Campos praticados: nome, preco, url
Exemplo real em que o automatico precisou separar o card de produto da vitrine editorial, filtrar matches invalidos e deduplicar a saida por URL para fechar a planilha.
Campos praticados: nome, preco, url
Exemplo real em que o automatico precisava ignorar subcards de compra, desconto, PBM e checkout para capturar o card de produto real.
Campos praticados: nome, preco, url
Casos recentes
Testes ja executados sem pagina propria ainda
Busca real fechou 46 linhas com planilha majoritariamente correta; restaram poucos erros de preco em cards promocionais com preco anterior, desconto e valor atual no mesmo bloco.
Testes anteriores apontaram 6 erros de preco dentre 46 itens lidos. Isso representa aproximadamente 13% de possibilidade de erro nesse caso.
Ja houve ocorrencia de bloqueio anti-bot e o Intelbot foi barrado em parte das tentativas.
Esse site pode funcionar, pode sair com erro residual baixo ou pode impedir totalmente a leitura.
Busca de notebook voltou a fechar lista estruturada apos o ajuste de itemKey para cards repetidos do grid, e a frente marketplace_search se sustentou em novos testes reais com SSD e monitor gamer 27.
A regressao local vinha do colapso de todos os cards em um unico itemKey da galeria inteira.
Com a heuristica corrigida para preferir o card repetido mais proximo, a suite voltou a validar 12 linhas com score 100.
Depois disso, a Americanas tambem fechou bem em SSD com cards mais compactos e em monitor gamer 27 com 16 linhas, score 100 e renderizacao via Playwright.
Playwright recebeu resposta bloqueada e o fallback fetch devolveu HTML estrutural com CSS e menus, sem lista real de produtos.
A planilha saiu com 12 linhas, mas nome e url vieram de blocos de CSS, navegacao e links genericos em vez de cards de produto.
O caso nao mede a qualidade do motor de marketplace_search; mede apenas que a origem nao entregou a grade real para extracao.
Playwright bloqueou, mas o HTML estatico trouxe microdados e o motor passou a fechar 20 linhas com nome, preco e url.
Esse dominio ja precisou de fallback para HTML estatico com microdados quando o Playwright nao trouxe a melhor leitura.
Best Sellers de notebooks fechou com linhas coesas apos os ajustes de pareamento por itemKey e cobertura de preco alternativo.
Amazon Brasil validada em lista editorial e em cards com preco alternativo.
Amazon US fechou bem em pagina Best Sellers com planilha coesa para nome, preco e url.
Caso validado sem barreira anti-bot nessa classe de pagina.
Amazon US tambem fechou em busca livre com linhas coerentes para nome, preco e url.
Busca livre validada sem cruzamento entre cards depois do ajuste estrutural por itemKey.
A busca oscilou entre sucesso estrutural e respostas degradadas da propria Amazon, como JavaScript is disabled e Sorry! Something went wrong!.
Nao e challenge classico de captcha, mas a resposta degradada impede a leitura real da listagem quando aparece.
O Intelbot agora deve classificar esse padrao degradado como limite operacional, nao como planilha ruim comum.
Quando a origem entrega a grade real, a leitura pode voltar a fechar bem para nome, preco e url.
Redirecionamento para Radware/PerfDrive; o Intelbot agora declara o limite operacional em vez de transformar captcha em produto.
O dominio ja devolveu challenge Radware/PerfDrive em vez da listagem real de produtos.
Pagina de bloqueio com Acesso Bloqueado e Ray ID; o motor passou a classificar esse padrao como limite operacional.
O dominio ja devolveu pagina de bloqueio com Ray ID em vez da listagem real.
Pagina de erro/bloqueio com mensagens para fechar o navegador, limpar dados de navegacao e Reference ID em vez da listagem real.
O dominio ja devolveu uma pagina de erro operacional com orientacoes de navegador no lugar da lista de produtos.
Nesse cenario, o Intelbot pode capturar itens de suporte como se fossem linhas da lista se o bloqueio nao for tratado antes.
A busca caiu em nocaptcha com deteccao de trafego incomum da rede.
O dominio devolveu pagina de nocaptcha em vez da listagem real.
A rota caiu em verify/traffic/error com pagina indisponivel e pedido de login em vez da lista real.
O caso exposto foi de verificacao/acesso e lista nao materializada no HTML util.
Faltando biblioteca