Exemplo guiado

news.ycombinator.com

Este é um site de notícias em lista, mais irregular do que um catálogo de produtos. Título, URL e pontos não aparecem todos no mesmo nível do DOM, por isso a definição correta do schema ajuda muito.

lista de notíciasmodo listestrutura irregular

Objetivo

Extrair notícias

  • título
  • url
  • pontos

URL alvo:

honeypot.net/2026/04/14/i-wrote-to-flocks-privacy.html

Como preencher

Schema revisado antes de publicar

No modo da extração, selecione list. Para cada dado desejado, preencha um set com:

  • Nome do campo
  • Tipo
  • Descrição
  • Hint de seletor

Nome do campo: título

Tipo: string

Descrição: Título do item na listagem

Hint de seletor: span.titleline > a

Nome do campo: url

Tipo: url

Descrição: URL principal do item na listagem

Hint de seletor: span.titleline > a

Nome do campo: pontos

Tipo: number

Descrição: Pontos do item na listagem

Hint de seletor: span.score

Estrutura do item

Como ler a página mentalmente

Um item da home costuma aparecer assim:

<span class="title"><a href="https://honeypot.net/2026/04/14/i-wrote-to-flocks-privacy.html">I wrote to Flock's privacy contact to opt out of their domestic spying program</a></span>

O Intelbot precisa entender que o título, a URL e os pontos, todos pertencem a esse mesmo item.

Como descobrir

Título e URL

Abra o Chrome, clique com o botão direito no título da notícia e escolha Inspecionar. O trecho relevante aparece assim:

<a href="https://honeypot.net/2026/04/14/i-wrote-to-flocks-privacy.html">I wrote to Flock's privacy contact to opt out of their domestic spying program</a>

O seletor correto é: span.titleline > a

O sinal > pega só o título mas não o domínio do site (que não interessa).

Como título e URL estão no mesmo a, os dois campos usam o mesmo seletor.

Como descobrir

Pontos

Inspecione a quantidade de pontos. O trecho costuma aparecer como:

<span class="score" id="score_47768813">60 points</span>

O seletor correto fica span.score.

Erros comuns

O que evitar

Descrição ampla demais para título

Errado: Título principal da página

Certo: Título do item na listagem

Seletor amplo demais para título e URL

Errado: span.titleline a

Certo: span.titleline > a

Descrição fraca para pontos

Errado: points

Certo: Pontos do item na listagem

Um ponto técnico importante: span.titleline > a é o seletor correto. O seletor amplo span.titleline a pode abrir margem para capturar links indesejados em estruturas menos previsíveis.

Resultado esperado

Como saber se ficou bom

  • o retorno deve sair com mode igual a list
  • cada item deve ter 1 título principal
  • título e url devem ficar alinhados
  • pontos deve vir preenchido na maioria dos itens e pode vir null em casos isolados
  • não devem aparecer linhas extras só com o domínio do site-fonte