Integrações

Guia de onboarding API e MCP

O Intelbot já expõe contrato OpenAPI, endpoint JSON e servidor MCP para as extrações publicadas. Este guia mostra o caminho mais curto para conectar.

/integrations/api/openapi/api/mcp

Pre-requisitos

Antes de consumir

  • ter uma conta no Intelbot
  • ter uma extração publicada
  • gerar um token próprio se o consumo for externo

Fluxo recomendado

Do workspace para a integração

1. Publique a extração com schema revisado.

2. Gere um token próprio no workspace da extração.

3. Descubra as specs em /api/openapi.

4. Baixe a spec em /api/extractions/{id}/openapi.

5. Consuma o GET /run ou a tool MCP intelbot.extraction.{id}.

Rotas

Portas principais

/integrations/api/openapi/api/extractions/{id}/openapi/api/extractions/{id}/run/api/mcp

Autenticação

Headers aceitos

Authorization: Bearer <token>x-intelbot-token: <token>

O token completo aparece apenas na resposta da geração ou rotação. A sessão do dono da extração também funciona no workspace.

HTTP

Exemplo rápido

curl -H "Authorization: Bearer <token>" https://intelbot.rcydigital.com/api/extractions/<id>/run

A resposta devolve `data`, `fields`, metadados de renderização, plano atual e snapshot de rate limit quando a chamada usa token.

Schema list

Quando o selectorHint faz diferença

Em catálogos HTML com cards repetidos, como https://books.toscrape.com/, o modo correto é list e os campos ficam mais consistentes quando cada dado aponta para um seletor do card.

nome / string

Título do livro no card da listagem

article.product_pod h3 a
preço / number

Preço do livro no card da listagem

article.product_pod .price_color
url / url

Link do livro no card da listagem

article.product_pod h3 a

Sem seletor específico, a heurística pode colapsar para um item só ou misturar título da página, preço isolado e URL da home. Com seletor estrutural por card, o Intelbot tende a alinhar item a item.

Em modo automático com IA, a primeira rodada pode acertar o schema lógico e ainda assim falhar no card real. O caso da Dafiti mostrou exatamente isso: nome, preço e url vieram como ideia correta, mas sem selectorHint a saída colapsou para uma única linha heurística.

Depois da entrada do resolvedor automático de seletores, uma segunda categoria da própria Dafiti, /bolsas-e-acessorios-infantis, já fechou sozinha com nome, preco e url. Então a leitura correta hoje é: o automático ainda pode falhar em e-commerce difícil, mas já começou a fechar categorias reais sem inspeção manual.

A Netshoes empurrou isso mais longe: em /tenis/masculino, o card visível já bastava para nome e url, mas o preco muitas vezes não estava ali de forma útil. Para fechar a planilha sem pedir seletor ao usuário leigo, o Intelbot passou a combinar o seletor do card com dados estruturados do runtime, como window.__INITIAL_STATE__, dataLayer e application/ld+json.

Em e-commerce, não use a home como primeira origem. Prefira página de categoria, porque a home costuma misturar várias vitrines, promoções e sliders clonados, o que prejudica o alinhamento da saída e da planilha.

A Decathlon abriu outra frente: o card já tinha preço e URL corretos, mas o campo nome foi contaminado por texto de navegação do carrossel dentro do próprio card. O ajuste certo não foi buscar mais HTML, e sim endurecer a semântica de nome para desconfiar de termos e seletores ligados a slider, navegação e controles internos.

A MadeiraMadeira adicionou outro tipo de dificuldade: a mesma categoria misturava vitrines editoriais e cards reais de produto. Para fechar a planilha, o Intelbot precisou melhorar a escolha do container, bloquear data:image como nome, descartar matches de preço que não coeriam para número e deduplicar a lista final por url.

Regra de origem

Home de loja virtual quase nunca é a melhor entrada

Evite a home

Ela costuma reunir destaque, promoção, mais vendidos e carrosséis na mesma leitura.

Prefira categoria

Categoria tende a ter grade repetida, menos duplicação e melhor saída para Excel.

Comece com o essencial

Para planilha, valide primeiro nome, preço e URL. Descrição pode ficar para uma segunda rodada.

Seletores

Como descobrir sem saber HTML

1. Abra a página alvo no navegador.

2. Clique com o botão direito no dado desejado e use Inspecionar.

3. No painel aberto, clique com o botão direito no trecho destacado.

4. Use Copy -> Copy selector.

5. Cole o valor em Hint de seletor no Intelbot.

6. Se vier grande demais, remova nth-child e trechos longos até ficar um padrão repetível.

Atalho prático

Como simplificar o seletor copiado

Copiado pelo navegador:body > div > section > div > ol > li:nth-child(1) > article > h3 > aMelhor para a lista inteira:article.product_pod h3 a

Remova trechos longos, evite nth-child(...) e preserve o padrão repetido do card, como article.product_pod, combinado com o elemento do dado, como h3 a ou .price_color.

MCP

Como conectar

1. initialize

Conecte no servidor `/api/mcp` e envie `initialize`.

2. tools/list

Descubra as extrações acessíveis pela sessão ou token atual.

3. tools/call

Execute a tool `intelbot.extraction.{id}` e leia o `structuredContent`.

Erros comuns

Diagnóstico rápido

401

Sessão ou token ausentes.

403

Token inválido, expirado ou revogado.

409

A extração ainda não tem schema válido.

429

O token atingiu o limite da janela atual.

500

A execução falhou durante a leitura ou extração.

Navegação

Onde continuar