0

META TAG / ROBOTs A linguagem dos Buscadores

Sobre os robôs META TAG
Em poucas palavras

Você pode utilizar uma tag HTML (META TAG) para dizer aos robôs (programa inteligente dos bucadores para indexão de páginas) para indexar o conteúdo de uma página, e / ou não indexar páginas (páginas seguras de conteúdo registro ou fóruns fechados).
Há duas considerações importantes quando se utilizam os robô:

  • Eles podem remover conteúdos cadastrados se o mesmo estiver praticando spam, explorando vulnerabilidade de navegadores e implantando vírus ou apontando para URLs (Uniform Resource Locator, ou Localizador de Recursos Universal, o famoso endereço após o www) inexistentes.
  • Utilizando a instrução “NOFOLLOW” em sua meta tag, você pede ao robô para que não indexe algumas páginas, porém ainda é possível encontrar casos em que o Robô mesmo lendo a instrução “NOFOLLOW” indexe a página indesejada.

A tag META é também descrito na especificação HTML 4.01, apêndice B.4.1.

Como escrever uma tag meta robots?
Onde colocá-la?

Como qualquer <META TAG> deverá ser colocada na entre as TAGs (etiqueta) HEAD de uma página HTML. Você deve colocá-lo em todas as páginas do seu site, uma vez que um robô pode encontrar uma ligação a qualquer página em seu site.

Os valores válidos são: “INDEX”, “NOINDEX”, “FOLLOW”, “NOFOLLOW”. Múltiplos valores separados por vírgula são permitidos, mas, obviamente, apenas algumas combinações fazem sentido. Se você quer que ele indexe a primeira página e as demais é bom usar: “INDEX, FOLLOW” (valor padrão).

Exemplos:
Indexe a primeira e as demais páginas:
<meta name=”robots” content=”index, follow“>

Indexe somente a primeira página, as demais não
<meta name=”robots” content=”index, nofollow“>

Não indexe em a primeira e nem a demais páginas
<meta name=”robots” content=”noindex, nofollow“>

Robots.txt

O robots.txt que será o arquivo responsável para permitir a indexão ou não de suas páginas é de fato um método e foi criada a partir de um consenso (em uma reunião em  1996).

Como criar meu Robots?

De uma maneira simples e sem nenhum problema:
Abra o bloco de notas e digite as seguintes linhas:

User-Agent: *
Allow: /minhapagina1.php
Allow: / minhapagina2.php
Allow: / minhapagina3.php
Allow: / minhapagina4.php
Salve-o como “robots.txt”, sem as aspas e publique o arquivo em seu diretório raiz (onde estão os arquivos de seu site).

Agora vamos entender o que fizemos:
User-Agent: *

Um user-agent é um robô com mecanismos de pesquisa específicos. A Web Robots Database relaciona muitos bots comuns. Configure uma entrada para ser aplicada em um robô específico (listando o nome) ou configure-a para ser aplicada em todos os robôs (listando um asterisco).

Allow: /minhapagina1.html- Permissão para indexar essa página que se encontra logo na raiz do site, se a página estivesse em um outro diretório seria necessário descrevê-lo da seguinte maneira:

Exemplo:
Allow: /meudiretorio/minhapagina1.html
Se quiser restringir uma página ou um diretório para que os Robots não indexão a página e ou o diretório, a instrução deve ser da seguinte forma:

O que deve estar listado na linha “Disallow”?
A instrução “Disallow” lista as páginas que você deseja bloquear. Relacione um URL específico ou um padrão. A entrada deve começar com uma barra (/).

•    Para bloquear todo o site, use uma barra inclinada para frente.
Disallow: /

•    Para bloquear um diretório e tudo que houver nele, adicione a mesma barra após o nome do diretório.
Disallow: /diretorio/

•    Para bloquear uma página, liste a página.
Disallow: /minhapagina.html

•    Para remover uma imagem específica da pesquisa de imagens do Google, adicione o seguinte:
User-agent: Googlebot-Image
Disallow: /imagens/imagem.jpg

•    Para remover todas as imagens do seu site da pesquisa de imagens do Google:
User-agent: Googlebot-Image
Disallow: /

•    Para bloquear os arquivos de um tipo específico (por exemplo, .gif), use o seguinte:
User-agent: Googlebot
Disallow: /*.gif$

•    Para impedir que as páginas do seu site sejam rastreadas, mas continuem exibindo anúncios do AdSense, bloqueie todos os robôs, exceto Mediapartners-Google. Isso impede que as páginas apareçam nos resultados de pesquisa, mas permite que o robô Mediapartners-Google analise as páginas para determinar os anúncios que devem ser mostrados. O robô Mediapartners-Google não compartilha páginas com outros user-agents do Google. Por exemplo:
User-agent: *
Disallow: /pasta1/

User-agent: Mediapartners-Google
Allow: /pasta1/

Um método fácil para que seu site seja “encontrado” pelos robôs dos buscadores.

*