Nem todo o conteúdo do seu site precisa ser indexado por mecanismos de pesquisa. Para evitar a indexação de algumas páginas, você pode usar uma robots meta tag ou x-robots-tag.
No entanto, muitas vezes os arquivos robots.txt e robots meta tags são usados incorretamente. Isso resulta em ações conflitantes que não trazem o resultado desejado: impedir que uma página seja indexada.
Neste guia, queremos ajudá-lo a entender como usar robots meta tags e x-robots-tag para controlar a indexação do conteúdo do seu site e identificar erros comuns.
Vamos abordar os seguintes pontos:
O que são Robots Meta Tags?
Uma Robots meta tag, também conhecida como robots tags, é um trecho de código HTML colocado na seção <head> de uma página e usado para controlar como os mecanismos de pesquisa rastreiam e indexam o URL.
Robots meta tag no código-fonte de uma página se parece com isso:
<meta name="robots" content="noindex, nofollow">
Essas tags são específicas da página e permitem que você instrua os mecanismos de pesquisa sobre como deseja que eles lidem com a página e se devem ou não considerá-la para indexação.
Por que utilizar as Robots Meta Tags?
Robots meta tags são usadas para controlar como o Google indexa o conteúdo da sua página. Por exemplo:
- Se a página deve ou não ser incluída nos resultados de pesquisa
- Se os links em uma página devem ou não ser seguidos (mesmo se ela estiver bloqueada para indexação)
- Solicitações para não indexar as imagens em uma página
- Solicitações para não mostrar os resultados armazenados em cache da página nas SERPs
- Solicitações para não apresentar um snippet (meta description) para a página nas SERPs
Para entender como você pode usar a robots meta tag, precisamos falar de diferentes atributos e diretivas. Também vamos compartilhar exemplos de código que você pode copiar e colar no cabeçalho de sua página para instruir os mecanismos de pesquisa a indexar sua página de uma determinada maneira.
Compreendendo os atributos e diretivas de Robots Meta Tag
Usar robots meta tags é bastante simples, uma vez que você entenda como definir os dois atributos: name (nome) e content (conteúdo). Ambos os atributos são obrigatórios, portanto, você precisa definir um valor para cada um deles.
Nome
O atributo name controla que os rastreadores e bots (user agents, também chamados de UA) devem seguir as instruções contidas na robots meta tag.
Para instruir todos os rastreadores a seguir as instruções, use:
<meta name="robots" content="disallow">
Na maioria dos casos, você vai usar isso como padrão, mas pode usar quantas meta robots tags diferentes forem necessárias para especificar instruções para diferentes rastreadores.
Existem centenas de diferentes agentes de usuário. Os mais comuns são:
- Google: Googlebot
- Bing: Bingbot
- DuckDuckGo: DuckDuckBot
- Baidu: Baiduspider
- Yandex: YandexBot
Conteúdo
O atributo content é usado para fornecer as instruções ao agente de usuário especificado.
É importante saber que se você não especificar uma meta robots tag em uma página, o padrão é indexar a página e seguir todos os links (a menos que eles tenham um atributo rel = “nofollow”).
As diferentes diretivas que você pode usar incluem:
- index (indexar a página)
- noindex (não indexar a página e não mostrar nas SERPs)
- follow (seguir os links na página)
- nofollow (não seguir os links da página)
- none (um atalho para especificar noindex, nofollow)
- all (um atalho para especificar index, follow)
- noimageindex (não indexar as imagens na página)
- noarchive (não mostrar uma versão em cache da página)
- nocache (é o mesmo que noarchive, mas apenas para MSN)
- nositelinkssearchbox (não mostrar uma caixa de pesquisa para o seu site)
- nopagereadaloud (não permitir que os serviços de voz leiam sua página em voz alta)
- notranslate (não mostrar traduções da página)
- unavailable_after (especificar um tempo após o qual a página não deve ser indexada)
Você pode ver uma lista completa das diretivas que o Google entende aqui e as que o Bing entende aqui.
Exemplos de Código de Meta Robots Tag
Se estiver procurando exemplos de meta robots tag que podem ser usados para controlar como os mecanismos de pesquisa rastreiam e indexam suas páginas, você pode usar a seguinte lista de cenários de uso mais comuns:
Não indexar a página, mas seguir os links para outras páginas:
<meta name="robots" content="noindex, follow">
Não indexar a página e não seguir os links para outras páginas:
<meta name="robots" content="noindex, nofollow">
Indexar a página, mas não seguir os links para outras páginas:
<meta name="robots" content="index, nofollow">
Não mostrar uma cópia do cache da página nas SERPs:
<meta name="robots" content="noarchive">
Não indexar as imagens em uma página:
<meta name="robots" content="noimageindex">
Não mostrar a página nas SERPs após uma data/hora especificada:
<meta name="robots" content="unavailable_after: 2023-01-01">
Se necessário, você pode combinar as diretivas em uma única tag, separando-as com vírgulas.
Usando Meta Robots Tags para Gerenciar Snippets
Embora meta robots tags sejam mais usadas para controlar se uma página é indexada ou não e se os links dessa página são rastreados por mecanismos de pesquisa, elas também podem ser usadas para gerenciar os snippets nas SERPs.
Essa novidade foi introduzida em setembro de 2019, quando o Google escreveu que os webmasters foram capazes de usar “um conjunto de métodos que permitem uma configuração mais refinada de conteúdo mostrado para suas páginas”.
Isso pode ser feito com as seguintes meta robots tags:
- nosnippet (não mostrar um snippet ou meta description da página)
- max-snippet:[number] (especifique o comprimento máximo do texto de um snippet em caracteres)
- max-video-preview:[number] (especifique a duração máxima de uma visualização de vídeo em segundos)
- max-image-preview:[setting] (especifique o tamanho máximo de uma visualização da imagem)
Use o seguinte código para controlar como os snippets de sua página são exibidos:
Não mostrar trechos de uma página nas SERPs:
<meta name="robots" content="nosnippet">
Definir o comprimento máximo de um snippet de texto em 150 caracteres:
<meta name="robots" content="max-snippet:-1">
Definir a duração máxima de uma visualização de vídeo em 20 segundos:
<meta name="robots" content="max-video-preview:20">
Definir o tamanho máximo de uma visualização de imagem como grande:
<meta name="robots" content="max-image-preview:large">
Esses códigos também podem ser combinados para dar maior controle sobre os snippets de sua página.
O que é X-Robots-Tag?
Uma forma alternativa de controlar como os mecanismos de pesquisa rastreiam e indexam suas páginas da web é usar a x-robots-tag em vez de meta robots tags.
Embora a implementação de meta robots tags em páginas HTML seja relativamente simples, x-robots-tag é mais complicada. Se você quiser gerenciar o tratamento do conteúdo não HTML, por exemplo, um PDF, você precisa usar a x-robots-tag.
Esta é uma resposta de cabeçalho HTTP, em vez de uma tag HTML, e qualquer diretiva que possa ser usada como uma meta robots tag também pode ser usada como uma x-robots-tag.
Uma x-robots-tag se parece com isso:
x-robots-tag: noindex, nofollow
Para usar a x-robots-tag, você precisa acessar o cabeçalho do seu site através do arquivo .php, .htaccess ou o arquivo de configuração do servidor. Se você não tiver acesso a isso, vai precisar usar meta robots tags para instruir os rastreadores.
Quando usar o X-Robots-Tag?
Usar uma x-robots-tag não é tão simples quanto usar meta robots tags, mas permite que você direcione os mecanismos de pesquisa para indexar e rastrear outros tipos de arquivo.
Use a x-robots-tag quando:
- Você precisa controlar como os mecanismos de pesquisa rastreiam e indexam tipos de arquivo não HTML
- Você precisa passar ações em nível de todo o site, em vez de em nível de página
Como configurar Robots Meta Tags e X-Robots-Tag
A configuração de robots meta tags é, geralmente, mais fácil do que a de x-robots-tag, mas a implementação de ambos os métodos de controle de como os mecanismos de pesquisa rastreiam e indexam seu site pode diferir dependendo do seu CMS e/ou tipo de servidor.
Veja como usar meta robots tags e x-robots-tag em configurações comuns:
Uso de Robots Meta Tags em Código HTML
Se você pode editar o código HTML da sua página, basta adicionar as robots meta tags diretamente na seção <head> da página.
Se você quiser que os mecanismos de pesquisa não indexem a página, mas que os links sejam seguidos, por exemplo, use:
<meta name="robots" content="noindex, follow">
Usando Robots Meta Tags no WordPress
Se você estiver usando Yoast SEO, abra a aba ‘advanced’ no bloco abaixo do editor de página.
Você pode definir a diretiva “noindex” escolhendo a opção não na lista suspensa de “Permitir que os mecanismos de pesquisa mostrem esta página nos resultados da pesquisa?” ou evitar que os links sejam seguidos, definindo a opção “Os mecanismos de pesquisa devem seguir os links desta página?” para não.
Para definir quaisquer outras diretivas, use o campo “Meta robots advanced”.
Usando Robots Meta Tags no Shopify
Se você precisar implementar robots meta tags no Shopify, pode fazer isso na seção <head> do layout theme.liquid.
Para definir as diretivas para uma página específica, adicione o código abaixo a este arquivo:
{% if handle contains 'page-name' %} <meta name="robots" content="noindex, follow"> {% endif %}
Este código vai instruir os mecanismos de pesquisa a não indexar /page-name/, mas seguir todos os links da página. Você vai precisar fazer entradas separadas para definir as ações para páginas diferentes.
Usando X-Robots-Tag em um Servidor Apache
Para usar a x-robots-tag em um servidor Apache, adicione o seguinte ao arquivo .htaccess do seu site ou arquivo httpd.conf.
Header set X-Robots-Tag "noindex, follow"
O exemplo acima define o tipo de arquivo .pdf e instrui os mecanismos de pesquisa a não indexar o arquivo, mas seguir todos os links nele.
Usando X-Robots-Tag em um Servidor Nginx
Se você estiver usando um servidor Nginx, adicione o seguinte ao arquivo .conf do seu site:
location ~* .pdf$ { add_header X-Robots-Tag "noindex, follow"; }
Isso vai aplicar um atributo noindex e instruir o rastreador a seguir todos os links em um arquivo .pdf.
Erros Comuns de Meta Robots
São vários os erros que podem acontecer ao instruir os mecanismos de pesquisa sobre como rastrear e indexar uma página da web. Os mais comuns são:
Diretiva de Meta Robots em uma página bloqueada por Robots.txt
Se uma página tiver um atributo disallow em seu arquivo robots.txt, os bots do mecanismo de pesquisa não conseguirão rastrear a página e seguir as diretivas que são colocadas em meta robots tags ou x-robots-tag.
Certifique-se de que todas as páginas que instruem os user-agents possam ser rastreadas. Se uma página nunca foi indexada, o uso de disallow no robots.txt deve ser suficiente para evitar que ela apareça nos resultados da pesquisa, mas ainda é recomendado adicionar uma meta robots tag.
Adicionando diretivas de Robots ao arquivo Robots.txt
Embora nunca tenha sido oficialmente anunciado pelo Google, costumava ser possível adicionar uma diretiva noindex ao arquivo robots.txt do seu site e conseguir o efeito desejado. Este não é mais o caso e foi confirmado que essa medida não será mais eficaz.
Removendo páginas com uma diretiva noindex de Sitemaps
Se você estiver tentando remover uma página da lista de indexação usando uma diretiva noindex, deixe a página no sitemap do seu site até que isso aconteça. Remover a página antes da desindexação pode causar atrasos neste processo.
Bloqueando acidentalmente os mecanismos de pesquisa de rastrear um site inteiro
Infelizmente, é bastante incomum que as diretivas de robots usadas em um ambiente de teste sejam acidentalmente repassadas para o site que muda para um servidor ativo, e os resultados podem ser desastrosos.
Antes de mover qualquer site de uma plataforma de teste para um ambiente ativo, verifique novamente se as diretivas de robots que estão em vigor estão corretas.
Você pode usar a Ferramenta de Auditoria do Site da Semrush antes de migrar para uma plataforma ativa para encontrar qualquer página que esteja sendo bloqueada com meta robots tags ou x-robots-tag.
Dedicando um tempo para entender as diferentes diretrizes e como usá-las, você pode evitar erros técnicos de SEO. Ter controle suficiente sobre como suas páginas são rastreadas e indexadas pode ajudar a manter as páginas indesejadas fora das SERPs, evitar que os mecanismos de pesquisa sigam links desnecessários e dar a você controle sobre como os snippets do seu site são exibidos, entre outras coisas. Comece a configurar suas robots meta tags e x-robots-tags para garantir que seu site esteja funcionando perfeitamente!