Discovery SEO: Como o Google indexa a Internet?

Hoje mostraremos como o Google indexa as páginas da web e ainda falaremos sobre a importância de sitemaps para ajudar o buscador a indexar seu conteúdo com maior facilidade.

Uma estrutura muito grande


Imagine um grande centro de processamento de dados, ligado 24 horas por dia, procurando por novas páginas sem parar. Agora imagine, que esses computadores já localizaram mais de 1 trilhão de páginas. Bilhões dessas páginas fazem parte de um índice, que é consultado cada vez que você faz uma pesquisa. Esse é o Google Search.

Mas… como ele chega a todas essas páginas?

Esse grande conglomerado de computadores rodam um programa conhecido como Googlebot (que também pode ser chamado de spiders).

O segredo para a rastreamento dos bilhões de páginas da web está nos links. Como já sabemos, os links ligam uma página a outra. Ao fazer isso, a página “linkada” se tornou pública, em razão de alguém ter apontado para ela. As spiders do Google aproveitam-se disso para conhecer essas novas páginas. É um processo longo que pode ser simplificado assim:

As spiders percorrem os sites que já são conhecidos por elas na internet, em busca de conteúdo atualizado. Além de se atualizar com as páginas já encontradas anteriormente, as spiders frequentemente acham links desconhecidos por elas, que passarão a ser explorados também. Através desses links, antes desconhecidos, as spiders chegam até as novidades, que começam a fazer parte de seu mapa. Esse processo acontece o tempo inteiro em uma escala gigante!

Como isso é organizado?

O Googlebot processa cada uma das páginas encontradas (!!!) para reunir em um índice gigante as palavras que achou dentro delas, bem como as posições dessas palavras dentro de suas respectivas páginas. Haja processamento, heim?

Daí em diante ele responde às pesquisas organizando este índice, por ordem de relevância.

#HelpTheSpiders

Quando eu aprendi como tudo isso funcionava, logo fiquei com pena das pobres spiders. Já pensaram o que significa vasculhar cada página da internet em busca de links que levam a novas páginas? Claro, elas são automatizadas… mas de qualquer forma podemos poupar boa parte do esforço do Google e ganhar tempo agilizando o trabalho de localização e indexação de nossas páginas usando sitemaps!

What the hell?

Basicamente, como o nome informa, é o mapa do site. Existem dois tipos de sitemaps. Por enquanto, vamos focar nos que ajudam os buscadores.

Esses têm um valor grande para as spiders. Um mapa assim é constituído por um arquivo XML que fica no seu servidor. Esse mapa informa aos robôs das buscas onde exatamente eles podem encontrar cada página do seu site.

O Google gosta disso! Isso agiliza o trabalho de rastreamento e indexação de sites de maneira muito eficiente.

#Comofas

Bom, como fazer e utilizar bem um sitemap, eu explico em outro post. Até mais!

17 comments
  1. @Leonardo, sim é uma “brincadeira de twitter”.

    @gsctt perfeito o vídeo. Vou usa-lo em outro post. Obrigado pelo link.

    @chico, o verbo “indexar” diz: “criar índice de…” então, pode ser usado neste caso.

    :)

  2. Lucas, tenho um conselho pra você. Usando expressões similares:

    #FIKADICA: Não acredito que assuntos um pouco mais sério como SEO, cujo o foco é atender mais o lado corportativo (visão comum aqui no Brasil) combina com certos “tribalismos.”

    Até entendo que você queria trazer um tom menos informal ao texto, deixar a curva do aprendizado mais suave. Porém, expressões do tipo: #comofas, #HelpTheSpiders, what the hell, etc — mais comuns em redes sociais como o Orkut, Twiiter, talvez não surtam o efeito desejado.

  3. @Newton Mota

    hahaha… obrigado pelo conselho. Minha informaliddade adentra campos que não pedem muito padrão editorial, porém vou olhar esse lado com maior cuidado.

    Abraços! :-)

  4. Olá Lucas, ótimo jeito de escrever, fácil compreensão. Perfeito pra quem está começando na área :P

    Pê esse: #euri da pessoa que achou que era sério o #comofas HAHA

Deixe uma resposta para gsctt Cancelar resposta

You May Also Like