A API de Extração de Código HTML oferece aos desenvolvedores uma forma simples, mas poderosa, de recuperar e processar o HTML bruto de qualquer página da web. Em vez de configurar manualmente raspadores, gerenciar agentes de usuário ou se preocupar com bloqueios, esta API fornece dados HTML limpos e consistentes que podem ser integrados diretamente em suas aplicações.
Com esta API, você pode:
Buscar o código-fonte HTML completo de qualquer URL publicamente acessível.
Potencializar pipelines de dados, rastreadores e analisadores de conteúdo sem configuração extra.
Usar o HTML extraído como base para construir raspadores da web, mecanismos de busca, ferramentas de SEO ou análises impulsionadas por IA.
Automatizar fluxos de trabalho como extração de metadados, análise de DOM e geração de conteúdo estruturado.
Seja você está trabalhando em mineração de dados, monitoramento de sites ou aprimoramento de ferramentas de SEO, a API de Extração de HTML economiza tempo ao lidar com toda a carga pesada de solicitações HTTP, cabeçalhos e recuperação de sites. É rápida, confiável e projetada para escalar com suas necessidades.
Permite que os usuários insiram uma URL e extraiam código HTML formatado além de metadados extras
Extrair HTML - Recursos do endpoint
| Objeto | Descrição |
|---|---|
url |
[Obrigatório] The URL of the page you want to extract the HTML code from. |
{"link_count":1,"image_count":0,"heading_tag_count":{"h1":1,"h2":0,"h3":0,"h4":0,"h5":0,"h6":0},"p_count":2,"character_encoding":"utf-8","page_language":null,"total_size_kb":1.25,"character_count":1283,"word_count":127,"line_count":54,"title":"Example Domain","description":null,"keywords":null,"final_url":"https://www.example.com/","status_code":200,"headers":{"headers":{"date":"Fri, 05 Sep 2025 14:58:16 GMT","content-length":"648","vary":"Accept-Encoding","content-encoding":"gzip","last-modified":"Mon, 13 Jan 2025 20:11:20 GMT","content-range":"bytes 0-647/648","content-type":"text/html","etag":"\"84238dfc8092e5d9c0dac8ef93371a07:1736799080.121134\"","connection":"keep-alive","accept-ranges":"bytes","cache-control":"max-age=86000","alt-svc":"h3=\":443\"; ma=93600,h3-29=\":443\"; ma=93600","x-status-normalized":"206->200"}},"html_code":"<html>"}
curl --location --request GET 'https://zylalabs.com/api/10189/html+code+extractor+api/19560/extract+html?url=https://forkthis.io/' --header 'Authorization: Bearer YOUR_API_KEY'
| Cabeçalho | Descrição |
|---|---|
Authorization
|
[Obrigatório] Deve ser Bearer access_key. Veja "Sua chave de acesso à API" acima quando você estiver inscrito. |
Sem compromisso de longo prazo. Faça upgrade, downgrade ou cancele a qualquer momento. O teste gratuito inclui até 50 requisições.
A API de Extração de HTML recupera o código-fonte HTML bruto de qualquer página da web acessível publicamente com uma única chamada de API
Você só precisa fornecer uma URL válida A API irá buscar e retornar o HTML da página
A API retorna uma resposta JSON contendo o conteúdo HTML completo como uma string Além de dados adicionais como link_count image_count heading_tag_count p_count character_encoding page_language total_size_kb character_count word_count line_count title description keywords final_url status_code e headers
A API retorna HTML estruturado que é analisado através da biblioteca BeautifulSoup
Absolutamente Pode ser usado para analisar metadados cabeçalhos tags e elementos de SEO na página diretamente do HTML
A versão atual extrai uma página por solicitação, mas você pode agrupar solicitações em seu aplicativo para lidar com várias URLs
A API é otimizada para velocidade tipicamente respondendo em milissegundos dependendo da complexidade e do tempo de carregamento do site
Raspagem de dados e coleta de dados Auditoria de SEO e análise de metadados Monitoramento e arquivamento de conteúdo Pesquisa e conjuntos de dados de aprendizado de máquina Construção de ferramentas de busca ou de rastreamento
Sim a API segue redirecionamentos 301 302 e retorna o HTML da página de destino final
A API busca apenas dados disponíveis publicamente Os usuários são responsáveis por cumprir os termos de serviço do site de destino e o robots.txt
O endpoint Extrair HTML retorna um objeto JSON contendo o código HTML completo da página da web solicitada, juntamente com metadados como contagem de links, contagem de imagens, tags de cabeçalho, codificação de caracteres e mais
Os campos principais incluem `link_count`, `image_count`, `heading_tag_count`, `title`, `description`, `final_url`, `status_code` e `html_code`. Estes fornecem informações sobre a estrutura e o conteúdo da página
A resposta está estruturada como um objeto JSON com campos aninhados Atributos principais incluem conteúdo HTML e metadados permitindo acesso fácil a pontos de dados específicos como `title` e `link_count`
O endpoint fornece informações sobre a estrutura da página da web, incluindo contagens de links, imagens, cabeçalhos e parágrafos, bem como o conteúdo HTML em si e detalhes da resposta HTTP
Os usuários podem personalizar solicitações especificando diferentes URLs para extrair HTML de várias páginas A API lida automaticamente com a busca e o processamento da URL fornecida
Por exemplo, `link_count` indica o número de hyperlinks na página, enquanto `heading_tag_count` fornece uma distribuição dos diferentes níveis de cabeçalho (h1, h2, etc.), ajudando os usuários a entender a hierarquia de conteúdo da página
A API busca dados ao vivo diretamente dos URLs especificados, garantindo que o HTML e os metadados reflitam o estado atual da página da web, sujeito à disponibilidade do site
Os casos de uso típicos incluem raspagem de dados para análise de dados auditorias de SEO para avaliar elementos na página monitoramento de conteúdo para mudanças e construção de ferramentas para mecanismos de busca ou crawlers
Casos de uso típicos incluem raspagem de dados para análise de dados auditorias de SEO para otimização de conteúdo e construção de crawlers ou mecanismos de busca que exigem dados HTML estruturados para processamento
Nível de serviço:
100%
Tempo de resposta:
7.660ms
Nível de serviço:
100%
Tempo de resposta:
8.219ms
Nível de serviço:
100%
Tempo de resposta:
68ms
Nível de serviço:
100%
Tempo de resposta:
2.507ms
Nível de serviço:
100%
Tempo de resposta:
3.636ms
Nível de serviço:
100%
Tempo de resposta:
652ms
Nível de serviço:
100%
Tempo de resposta:
1.332ms
Nível de serviço:
100%
Tempo de resposta:
3.321ms
Nível de serviço:
100%
Tempo de resposta:
2.697ms
Nível de serviço:
100%
Tempo de resposta:
10.154ms
Nível de serviço:
100%
Tempo de resposta:
1.233ms
Nível de serviço:
100%
Tempo de resposta:
1.358ms
Nível de serviço:
100%
Tempo de resposta:
2.405ms
Nível de serviço:
100%
Tempo de resposta:
2.990ms
Nível de serviço:
100%
Tempo de resposta:
98ms
Nível de serviço:
100%
Tempo de resposta:
389ms
Nível de serviço:
100%
Tempo de resposta:
289ms
Nível de serviço:
100%
Tempo de resposta:
83ms
Nível de serviço:
100%
Tempo de resposta:
3.033ms
Nível de serviço:
100%
Tempo de resposta:
10.349ms