Exemplo guiado

books.toscrape.com

Este é um catálogo de produtos com cards repetidos e estrutura regular. É um dos melhores tipos de site para aprender como usar selectorHint em extrações no modo list.

catálogo de produtosmodo listcards repetidos

Objetivo

Extrair livros

  • nome do livro
  • preço
  • url

URL alvo:

books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html

Como preencher

Schema revisado antes de publicar

No modo da extração, selecione list. Cada dado que você quer extrair pede um set próprio no Intelbot com:

  • Nome do campo
  • Tipo
  • Descrição
  • Hint de seletor

Nome do campo: nome

Tipo: string

Descrição: Nome do livro no card da listagem

Hint de seletor: article.product_pod h3 a

Nome do campo: preço

Tipo: number

Descrição: Preço do livro no card da listagem

Hint de seletor: article.product_pod .price_color

Nome do campo: url

Tipo: url

Descrição: URL do livro no card da listagem

Hint de seletor: article.product_pod h3 a

Estrutura do item

Como ler a página mentalmente

Um item da listagem costuma aparecer assim:

<article class="product_pod"><h3><a href="https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html">A Light in the Attic</a></h3><p class="price_color">£51.77</p></article>

O Intelbot precisa entender que o nome, a URL e o preço, todos pertencem a esse mesmo item.

Como descobrir

Nome e URL

Clique com o botão direito no título de um livro, escolha Inspecionar e observe que o card do livro usa um padrão como:

<article class="product_pod"><h3><a href="catalogue/...">A Light in the Attic</a></h3></article>

O seletor estrutural mais útil aqui é:

article.product_pod h3 a

Ele funciona para o texto do nome e para a URL do link.

Como descobrir

Preço

Inspecione o preço e procure o elemento com a classe que se repete em todos os cards:

<p class="price_color">£51.77</p>

O seletor fica:

article.product_pod .price_color

Erros comuns

O que costuma dar errado

Usar modo single

Errado porque a página tem muitos livros. O modo correto é list.

Descrever como página inteira

Se a descrição falar em página inteira, a heurística pode puxar título da home ou dados soltos em vez de um item do card.

Deixar seletor em branco

A heurística pode até funcionar, mas em listas o resultado fica menos consistente do que com seletor por card.

Resultado esperado

Como saber se ficou bom

  • o retorno deve sair com mode igual a list
  • data deve trazer vários itens
  • cada item deve ter nome, preço e url alinhados
  • não deve sobrar só um item com título da página inteira