Afinal, como o Google funciona?
Monday, May 29th, 2006Domingo, Maio 28, 2006
Milhões de pessoas usam o Google a cada hora para encontrar as informações das quais
precisam. E ele sempre acerta. Como isso pode ser possível? Usamos o Google,
mas como ele funciona? O que está por trás do melhor buscador do mundo?
Esse artigo é resultado de uma pesquisa detalhada sobre o algorítimo
PageRank. Evitamos ao máximo a matemática para que todos possam entender.
1. Os artigos acadêmicos
Ao defender uma idéia, você precisa de argumentos. Caso contrário, sua idéia
terá pouco valor ou será pouco aceita. Esses argumentos são, em sua maioria,
outras idéias, já comprovadas.
Da mesma forma, outras pessoas poderão utilizar a sua criação como base. É
assim o tempo todo na ciência. Os artigos contém citações de outros
trabalhos, usados como argumentos. E também são citados por outros
pesquisadores. É como se fosse uma teia. E você pode saber o quão popular é
seu trabalho através do número de pessoas que se refere a ele. Com os sites
acontece a mesma coisa.
2. As páginas da web
Larry e Sergey, fundadores da Google, perceberam que é relativamente fácil
saber para onde sua página (ou artigo) aponta. Basta lê-la! O desafio é
saber quem aponta pra você.
O problema é praticamente impossível de ser resolvido no mundo real dos
artigos acadêmicos. Mas na Internet a coisa muda, pois os sites estão
repletos de links .
Bastaria “ler” uma página automaticamente e sair seguindo esses links, como
um robô. E eles levariam a outras páginas, que levariam a outras, e
outras… Em pouco tempo você poderia ter a Internet inteira em casa e
poderia saber quem andou citando aquele seu site sobre ovelhas.
Juntos, os dois amigos criaram um utilitário, de nome Backrub.A
função dele era vasculhar a rede mundial procurando links. Ainda não
havia busca.
Devido falta de recursos, o Backrub foi obrigado a rodar em computadores
de todo o tipo, por isso se tornou extremamente estável. O hardware de baixo
custo acabou se tornando uma vantagem, pois muitos computadores “fracos”
unidos em clusterse mostraram mais eficientes do que as supermáquinas das
“concorrentes”.
E mais baratos.
3. A Busca
Satisfeitos com seu “monstrinho” (que consumia quase toda banda de internet
da universidade), os amigos viram que ele poderia ir além. Larry Page criou
um pequeno algorítimo, que buscava por palavras apenas nos endereços das
páginas. Na época, quem dominava o mercado de busca era o AltaVista.
Ele procurava por termos em toda página. Surpreendentemente, os resultados
do BackRub quase sempre eram mais relevantes!
O Algorítimo evoluiu, e se tornou o que hoje é conhecido por PageRank. E uma
curiosidade: ao contrário do que muitos pensam, a patente do PageRank
pertence Stanford , não Google.
4. O ataque dos spammers
A medida que o Google crescia e ganhava popularidade, aumentava a disputa
por boas posições nos resultados de busca. O spam de links - nome dado
prática de obter links para ganhar destaque em buscadores - crescia medida
que sites falsos eram criados se aproveitando de uma falha crucial no
PageRank, que dava o mesmo valor a todos os links. Na prática, isso
significava que ter seu site em destaque no www.google.com e tê-lo em uma
home-page desconhecida correspondiam mesma coisa.
O PageRank também falhava por precisar de um banco de dados completo, com
todas as páginas da web, para funcionar. De tempos em tempos era preciso
atualizar os servidores da Google para só então calcular a nova pontuação
(ou o novo PageRank) de cada site. Uma clara desvantagem em uma Internet que
muda a cada segundo.
5. O Google contra-ataca
Pouco a pouco, a sabotagem estava acabando com a qualidade dos resultados. A
resposta veio em dois nomes: Freshbot e Hilltop.
O Freshbot foi uma nova versão do robô responsável por percorrer a web. Com
a inovação, os sites passaram a ser adicionados busca de forma
ininterrupta. Inicialmente, os freshbots trabalharam em conjunto com os
antigos robôs, mas mais tarde acabaram os substituindo. A velocidade com que
as páginas eram atualizadas aumentou. E aumentou muito. Agora era quase
impossível prever se “aquele” link do www.algumacoisa.com.br ajudou a
melhorar a colocação de sua página.
Hilltop foi uma mudança radical no PageRank, introduzida por Krishna
Bharat.
Como principal alteração, cada link passou a ter seu próprio “valor”. Esse
número é basicamente da semelhança de conteúdo entre os sites e da
importância (PageRank) de cada site. Assim, um link do www.adobe.com passou
a valer muito mais do que um link do www.algumacoisa.com.br
, pois existem
mais links apontando para a Adobe (PageRank 10) do que para o AlgumaCoisa.
Da mesma forma, um link no adobe.com terá mais valor ao apontar para um site
de informática do que para um site de músicas. Produzir resultados
adulterados ficou quase impossível.
Desde então, a qualidade da busca tem aumentado, mas pouco se sabe a
respeito do PageRank atual. O algorítimo é mantido em segredo pela empresa,
ainda que muitos dos elementos aqui explicados ainda se façam presentes.
Autor: Desconhecido (Via e-mail)