Faz anos que usamos a busca por palavras-chave na Web, mas a última grande mudança no segmento foi quando 2 acadêmicos da Universidade de Stanford desenvolveram o PageRank, um algoritmo que melhorou absurdamente a relevância dos resultados, que depois ajudou a alavancar o Google. De lá pra cá não percebemos o quanto as máquinas de busca evoluíram. Isso deve-se ao fato de que o paradigma continua o mesmo. Continuamos a fazer as buscas da mesma forma. Será que isso pode mudar? Tem como as consultas ficarem mais intuitivas e simples? Será o uso de Processamento de Linguagem Natural a resposta?
Recuperação de Informação (RI) é “a tarefa de encontrar documentos relevantes a partir de um corpus ou conjunto de textos em resposta a uma necessidade de informação de um usuário”. A área de RI tornou-se mais conhecida com o advento das máquinas de busca na Web. Um dos modelos mais conhecidos de RI com esse intuito é o Espaço Vetorial (ou Vector Space Model). Este modelo é, provavelmente, usado por todas as grandes máquinas de busca de hoje, inclusive o Google.
Obviamente, todos estão tentando melhorar os seus algoritmos. Nos últimos anos, a comunidade acadêmica vem apresentando modelos probabilísticos (o Vetorial é algébrico) mais viáveis. O BM25, por exemplo, foi apresentado em vários artigos científicos ganhando em várias condições do modelo Vetorial. Mas quando digo “ganhar”, quero dizer que ele mostra resultados ligeiramente mais relevantes e quando digo Vetorial quero dizer o modelo puro, sem as melhorias que as máquinas de busca com certeza fazem nele.
O Vetorial ainda é o preferido por ser simples de implementar e manter, é só mandar rodar que ele já funciona muito bem. O BM25 e quase todos os outros modelos que fazem frente ao Vetorial precisam ser treinados, parâmetros precisam ser ajustados de tempos em tempos e o parâmetro que serve para um conjunto de páginas pode não servir para outras. Todos esses detalhes são custos a mais para a máquina de busca, tanto em tempo de processamento quanto em dinheiro mesmo. Basicamente, ninguém consegue ganhar do modelo Vetorial no custo/benefício e olha que ele já tem algumas décadas.
Em outra frente de pesquisas, algumas empresas novatas vêm ganhando atenção afirmando poder mudar a forma como fazemos buscas na Web . Entre elas a Powerset e a Cuill já mencionadas aqui. A primeira usa processamento de linguagem natural para receber as consultas e processá-las. Em teoria, uma pesquisa por “Políticos que morreram de câncer” deveria retornar sites que cite políticos com esta distinção e não necessariamente tenham estas mesmas palavras. Eles conseguem fazer isso analisando as palavras e “entendendo” o contexto. Parece complicado? Bastante!
A questão é saber se é possível fazer isso funcionar na Web, com bilhões de páginas e com um vocabulário gigante. A resposta, provavelmente é AINDA não. A empresa chegou a fazer demonstrações, mas sempre com um conjunto de páginas e consultas limitado, não retratando a realidade da Web. O modelo Vetorial implementado
Conversando com pesquisadores e/ou entendidos na área de Recuperação de Informação percebe-se opiniões similares. Existem várias modelos antigos e novos para se fazer uma máquina de busca, alguns deles conseguem “vencer” o modelo Vetorial. Mas estas vitórias acabam sendo tão apertadas que simplesmente não compensam. Por outro lado há a necessidade de diminuir custos na indexação de páginas (coleta e armazenagem). A Cuill investe nisso, e diz ter custos 90% menores aos do Google. Na minha opinião, as chances de esta porcentagem estar certa são baixas. A coleta e indexação de documentos na Web é uma tarefa complexa e muito cara devido ao tamanho da base de dados. Diminuir 90% significa diminuir a ordem de complexidade dos algoritmos usados, o que é uma terefa MUITO complicada.
A tendência é que não haja nenhuma revolução no modo como fazemos pesquisas na Web. Talvez a forma como vemos as respostas mudem. Talvez resultados um pouco melhores. Mas é difícil imaginar que as máquinas de busca vão ficar inteligentes de uma hora para outra, “entendendo” o que escrevemos. Quem sabe daqui a alguns anos? Eu espero.
Referências e leitura recomendada:
Como funciona uma Máquina de Busca?
http://people.ischool.berkeley
http://www.eps.ufsc.br/teses98
http://en.wikipedia.org/wiki
—
Felipe Hummel, editor do Blog do Hummel, foi convidado por Rômulo Mendes a escrever esta matéria especial para o Google Discovery.
11 Comentários
Vai ai uma dica do que acho q será o futuro da busca… cortex-intelligence.com/engine
abs!
Parabéns Felipe, ótimo artigo. Rico em informações.
Já assinei o feed do Blog do Hummel…
Até mais.
Opa Felipe!
Pelo o que eu vi do seu link, é algo ligado a ontologias? Web Semântica?
Eu sinceramente tenho um pé MUITO atrás com relação a essas coisas em máquinas de busca.
É algo simples: você acrescenta um processamento absurdo ao sistema, e muitas vezes com a necessidade de intervenção humana (ontologias). Tudo isso pra ter um ganho… razoável demais para alguém mudar os seus hábitos.
Esse é o problema desse monte de métodos novos que prometem um monte de coisas. Eles são ligeiramente melhores mas acarretam um monte de outros problemas.
Fiquei interessado na empresa do Link. Se você tiver mais informações, dá um toque.
Abraço!
GMAIL agora com 5GB…
Valeu Mauro! Fica de olho que vai rolar mais posts bacanas!
Abraço!
Felipe Hummel,
Muito obrigado pelo excelente artigo, com o qual você nos brinda.
Abraços,
Rômulo
Felipe,
acabei de assinar teu blog tb. Parece mt interessante!
Bem… como meus professores falam, NÃO TEM ALMOÇO GRÁTIS. Gera-se mais processamento mas entende-se melhor o que se busca, correto?
A questão será um equilibrio… de repente hj não estamos prontos, mas com o avanço continuo dos processadores em breve este excesso de processamento se torne infimo…
Abs!
Valeu Rômulo!
Fala Felipe. Exatamente cara, a computação sempre cai no mesmo dilema. Entre fazer melhor, ou fazer no tempo certo.
Quem sabe daqui a alguns anos… Ou sempre há a possiblidade de alguém fazer coisas muito boas que possam mudar esse cenário.
Abraço!
MT bom cara adorei a dica vou usar
Blog Do Philipe
como fazer um maquina robotica para nos podermos aprender a criar ela para nos pensamos que esses seres de outro mundo quero contruiir uma maquina para nos seres humanos para ser bem mais pratico….
setiver como contruir entre em contato vlwww
brigadoaoo
MT bom cara adorei a dica vou usar