Robots.txt: Conheça Essa Ferramenta de SEO

Compartilhe este post

Se você está se familiarizando com o SEO e busca ter uma melhor visibilidade no mercado digital, provavelmente conhece ou já ouviu falar sobre os arquivos robots.txt e sabe da importância dele para o seu site. 

Bom, se você não possui conhecimento aprofundado sobre o que é, como funciona e qual a importância dele (entre outros pontos relevantes). Nesse post você encontrará todas as informações necessárias.

De algum modo, deve haver conteúdo dentro do seu site que você não deseja que estejam disponíveis nas redes de buscas. Seja por conter informações sigilosas, ou simplesmente por não querer determinadas informações em domínio público. Além disso, sabemos não é tão interessante um site com diversos robôs fazendo buscas e análises em conteúdos causando uma sobrecarga.

Então, é por esses e outros motivos, que você pode contar com a ajuda dos arquivos Robots.txt. Mas, o que é, especificamente, esse tipo arquivo?


O Que São Arquivos Robots.txt

Basicamente, o robots.txt, é um arquivo de texto, criado no bloco de notas, que é adicionado na raiz do site e que possui instruções específicas para os robôs das ferramentas de busca (Google, Bing, Yahoo e etc.). Esse arquivo é responsável por indicar aos os robôs de busca o que pode e o que não pode ser acessado por eles no seu site.

O arquivo robots.txt através de suas diretrizes informa aos robôs quais arquivos, páginas, diretórios estão disponíveis para serem acessados pelo robô ou rastreador da rede. Esse mecanismo é muito importante para evitar o excesso de solicitações no site e é responsável por manter fora da web informações ou páginas que você não quer que apareçam nos sites de busca. Basta definir este bloqueio no robots.txt e o robô respeitará essa diretiva. Assim, ele não vai passar, não vai indexar e nem aparecer no buscador de pesquisas. 


COMO UTILIZAR O ROBOTS.TXT

Antes de tudo é importante pontuar que o robots.txt só gera diretrizes de bloqueios para os robôs de pesquisa. Isso significa que, apesar do acesso a determinado recurso do seu site ser impedido para o robô e através dos arquivos robots, não estando assim, disponível nos resultados de busca, esses recursos continuarão acessíveis a um usuário, este sim não robô, que esteja navegando normalmente pelo seu site.

Controle de arquivos de mídia

Você pode utilizar o arquivo robots.txt para impedir que arquivos de imagens, áudio e vídeo, sejam exibidos no resultado de pesquisa do Google. Entretanto, somente isso não impedirá que outras páginas ou usuários tenham algum tipo de acesso ao seus arquivos de mídia.

Mas , para ter acesso ao seus conteúdos, o usuário terá que acessar o seu site/blog, o que de certo modo pode ser interessante pois irá garantir visibilidade e acessos ao seu site.

Bloqueio a arquivos de recurso

O arquivo robots.txt é capaz de bloquear o acesso a arquivos de script ou estilo (CSS) menos importante. Dessa forma, poupando o trabalho de servidores , para no caso a página seja carregada sem esses recursos ou perdas.

No entanto, se a falta desses recursos dificultar o trabalho do rastreador do Google, será melhor não bloqueá-los, já que isso pode prejudicar a análise das páginas que dependam deles.

Igualmente é importante considerar o parâmetro conhecido como “Crawl Budget”. Isso porque o rastreamento (Pelo menos do robô do Google) tem um limite de tempo definido. Claro que se o tempo é limitado, então é melhor que o robô rastreie e indexe páginas relevantes no seu site. Daí a importância de analisar com cuidado quais páginas realmente importam no seu site e definir o menos importante no robots.txt para que o robô leve isso em consideração na hora da varredura.

Otimização e Performance

Muito bem, agora que você entendeu o benefício de definir o que é irrelevante e como isso pode te ajudar no “Crawl Budget”, vamos falar agora de como isso pode ajudar na perfomance do seu servidor/site.

É muito simples: Se você bloqueou adequadamente aquelas páginas que para o seu negócio são irrelevantes, isso significa que menos páginas serão rastreadas. Menos páginas rastreadas significa menos tempo, e menos tempo significa menos recursos que o seu servidor/site consome com essa tarefa.

Convenhamos, o trabalho do robô é importante para a grande rede, e igualmente importante para disponibilizar nossas páginas nos buscadores. Mas é melhor se nossos recursos estiverem sendo consumidos por um usuário real, navegando nos nossos conteúdos, comprando nossos produtos e criando opiniões, do que por um robô.

Segurança

Pois bem, ainda na parte da performance, mas agora com um pé na segurança, fica aquela curiosidade: Todo robô é do bem? E a resposta é um belo sonoro não! Nem todos os robôs de pesquisa foram feitos com as melhores das intenções.

O objetivo com certeza é rastrear seu site. O propósito desse rastreamento e onde ele é disponibilizado essa sim é a questão chave. Portanto, esteja certo que sim, seu site pode ser rastreado pelos robôs do google, do Bing, do Yahoo, do Yandex e vários outros robôs que estão na grande rede. Mas ele pode igualmente ser rastreados por robôs maliciosos, de russos, chineses, tchecos, afegãos, americanos, e até de de ET`s ( Por que não ET´s?) !

Brincadeiras a parte, é sério, podem ter vários robôs maliciosos varrendo seu site, e vão desde aqueles aleatórios que simplesmente descobriram você como aqueles direcionados que propositalmente estão “procurando” você. E claro, quantos mais robôs fazendo isso, mais consumo de recursos. Então você pode querer considerar também quais robôs são relevantes para você.

Mesmo que sua página não esteja indexada, você ainda poderá vê-la nos resultados de pesquisas. Porém, a forma com que ela irá aparecer não irá conter as informações básicas de títulos, links e meta-descrição.

Se por algum motivo você quer que sua página não apareça na rede de pesquisa do Google, você deve conhecer e utilizar outras diretivas, a noindex, que está dentro do Meta tag Robots.

O Que é Meta tag Robots

De modo geral, essa função está diretamente relacionada à diretivas mais específicas dentro do HTML, ou o comando de páginas da Web. A partir de suas sintaxes, as ordens são geradas.

A meta tag robots utiliza uma abordagem específica em cada página para controlar como esta deve ser indexada e veiculada para os usuários nos resultados da pesquisa.  As principais diretivas, responsáveis por passar a orientações aos robôs buscadores são:

  • index: indexa, ou seja, exibe a página na rede de pesquisa;
  • noindex: não indexa, não exibe a página nos resultados de pesquisa;
  • follow: segue os links da página para novos resultados de pesquisa;
  • nofollow: não segue nenhum link da página;
  • nosnippet: responsável por orientar a não exibição da descrição da página na rede de busca;
  • noarchive: instrui o rastreador a não exibir o cache da página;
  • noimageindex: nessa diretiva faz com que nenhuma imagem seja indexada à página


Essa opção é um pouco mais elaborada que os arquivos robots.txt, e garante uma dinâmica melhor para o site. Mais adiante traremos um artigo específico e aprofundado sobre o meta tag robots.

Sintaxe das diretivas dos arquivos Robots.txt

A primeira coisa que o robô de rastreamento faz ao visitar um site é procurar pelo arquivo robots.txt. Se o site possui esse arquivo, ele encontrará as diretivas com ordens do que ele pode ou não fazer na sua página. As diretivas são:

  • User-agent : essa diretiva indica para qual robô a ação deverá ser aplicada.  Nela, pode inserir ordens específicas para qualquer mecanismo de rastreamento disponível. O mais utilizado é o robô de busca do Google, o Googlebot. Entretanto, caso deseje que a regra se aplique para todos os robôs, de todos os mecanismos, é só incluir um * no local.
  • Disallow: é a diretiva que dá ordem aos caminhos que não devem ser acessados pelos rastreadores que foram designados pelo User-agent. Agora, quando não é especificado um caminho, essa diretiva é ignorada, e as ações não são realizada. No caso de uma página específica, lembre-se que utilizar o endereço completo, da mesma forma que é exibido pelo navegador. 
  • Allow: ao contrário do Disallow, essa diretiva é utilizada para permitir o rastreamento de um diretório ou uma página, referente ao domínio raiz, que antes estava proibido de ser acessado, e assim sejam indexadas. Entretanto, seu uso deve haver somente quando a diretiva Disallow for utilizada, porque quando ela não está sendo usada, todas as páginas do seu site são indexadas. Ou seja, ela é recomendada apenas para disponibilizar algum arquivo ou pasta que esteja dentro do diretório não indexado pelo comando Disallow.
  • Sitemap: o comando Sitemap é útil para identificação e localização das páginas por meio dos rastreadores. Ele precisa ser um URL totalmente qualificado. O uso dos Sitemap é uma boa maneira de indicar qual conteúdo a ferramenta de rastreamento deve buscar. Entretanto, essa ferramenta está caindo em desuso devido a ferramenta Google Webmaster Tools. Em que, basicamente. informa o local de arquivo Sitemap de forma mais eficiente.

Importância de usar o Robots.txt

Utilizar arquivos Robots.txt é importante para evitar o rastreamento de áreas internas, arquivos e recursos. Por exemplo, se você possui um site em que tem áreas disponíveis para acesso em login, páginas de uso interno ou uma área que ainda está sendo desenvolvida e não é interessante ao usuário ter acesso a essas, os arquivos robots.txt são essenciais.

Além disso, se você está envolvido com Marketing Digital, disponibiliza serviços e mídias digitais, é essencial o uso dessa ferramenta, com ela, as informações ficam ocultas da rede de pesquisa. Bem como , seu acesso fica restrito.

Sendo assim, com as regras de um arquivo de robots.txt bem definidas, é possível impossibilitar o rastreamento de uma área específica do seu site, e ainda assim algumas serem indexadas.

Agora, saiba que o há um limite de tempo em que o tempo os robôs permanecem no seu site.

 

Saiba as limitações do Robots.txt

Antes que você utilize as diretivas do Robots.txt, tenha em mente que há algumas limitações, que são importante serem levadas em consideração. Como já informamos, em alguns casos, é mais interessante ter em mente as diretivas relacionadas ao Meta Tag Robots. Logo mais iremos explicar com mais detalhes essas diretivas e porque utilizá-las em alguns casos é mais eficiente.

Primeiramente, vale ressaltar que as diretivas dos arquivos robots.txt podem não ser compatíveis com todos os mecanismos de pesquisa. Dessa forma, mesmo que o principal – e mais utilizado – mecanismo de rastreamento do Google seja compatível e siga as instruções de um arquivo robots.txt outros rastreadores de outras ferramentas de pesquisas podem não ser compatíveis e não obedecer as diretivas. 

Essa limitação leva em consideração que não há uma regra que obrigue todos os robôs a seguirem as ordens das diretivas. Nesse caso, o método mais eficaz é o bloqueio por senha em arquivos privados no seu servidor ou o uso de meta tag noindex no código html.

Outra limitação está relacionada a interpretação que cada robô de rastreamento de diferentes plataformas irão ter sobre a mesma diretiva. Ou seja, cada sintaxe pode ser interpretada de maneira distinta. É importante conhecer como cada rastreador de diferentes ferramentas interpretam determinadas diretiva (Google, Yahoo, Bing e etc.). E assim, poder utilizá-las de maneira certa, para que haja uma comunicação eficiente e os rastreadores entendem as instruções corretamente. 

Por fim, mas não menos importante, as diretivas não impedem que outras páginas façam referência à sua, mesmo que esta não esteja indexada. Ou seja, um outro site pode fazer referência às suas URLs mesmo que o robô de rastreamento do arquivo ou URL esteja desabilitado para disponibilizá-la na rede de pesquisa. Sendo assim, pode ser que algumas informações ainda apareçam nos resultados de pesquisa 

Importância de uma boa configuração Robots.txt

A primeira coisa que você tem que ter em mente é: há uma grande facilidade de acesso a conteúdo de arquivos de qualquer site, inclusive por parte dos concorrentes. Assim, é importante ter cuidado com o que é incluído dentro do arquivo robots.txt. Evite configurar de forma errada arquivos que são confidenciais e não devem estar em domínio público.

Um erro muito comum acontece quando sites que são lançados e seus arquivo robots.txt não passam por uma revisão. Consequentemente, fica-se muito tempo com o site “oculto”, sem que ele apareça mesmo que se faça pesquisas nas ferramentas de buscas. Geralmente, esse problema acontece pois programadores configuram o robots.txt da seguinte maneira enquanto o site está sendo desenvolvido (dentro do arquivo está assim):

User-agent: Exemplebot
Disallow: /noexemplebot/

O robô entenderá que deve deixar o local sem buscar por nada ali. Dessa forma, o arquivo está informando para o crawler do buscador exemplo (User-agent: Exemplebot) que não rastreiem nenhuma página do site (Disallow: /noexemplebot/). Então, se após o lançamento do site o arquivo não for corrigido, as diretrizes permanecerão as mesmas durante todo o tempo que o seu site estiver hospedado.

Enfim, existe uma série de informações e sequência que devem ser obedecidas além de um conhecimento prévio sobre como cada robô de rastreamento funcionam. Não ter esse compreensão aprofundada pode afetar toda a parte interna do seu site, seja no tempo gasto como em erros na criação de arquivos. Por isso é importante ter muito cuidado na hora definir as regras para cada rastreador específico. 

Saiba que a Matrix é a empresa ideal para fornecer todo o suporte técnico, seja na parte de desenvolvimento Web, como na consultoria SEO, em que busca trazer um resultado satisfatório para o seu negócio online, garantindo uma melhor performance, navegabilidade e resposta para o seu site. 

Esse artigo foi útil? Deixe nos comentários suas opiniões, dicas e sugestões. O seu feedback é muito importante para nós. Para mais posts como esse, nos acompanhe aqui e nas redes sociais. 

Obrigado a todos.


Inscreva-se na nossa Newsletter

Receba novidades em primeira mão

Mais postagens para você explorar

Deseja impulsionar seus negócios?

Nós podemos te ajudar!