Blog Página 752

O Futuro das Máquinas de Busca

10


Faz anos que usamos a busca por palavras-chave na Web, mas a última grande mudança no segmento foi quando 2 acadêmicos da Universidade de Stanford desenvolveram o PageRank, um algoritmo que melhorou absurdamente a relevância dos resultados, que depois ajudou a alavancar o Google. De lá pra cá não percebemos o quanto as máquinas de busca evoluíram. Isso deve-se ao fato de que o paradigma continua o mesmo. Continuamos a fazer as buscas da mesma forma. Será que isso pode mudar? Tem como as consultas ficarem mais intuitivas e simples? Será o uso de Processamento de Linguagem Natural a resposta?

Recuperação de Informação (RI) é “a tarefa de encontrar documentos relevantes a partir de um corpus ou conjunto de textos em resposta a uma necessidade de informação de um usuário”. A área de RI tornou-se mais conhecida com o advento das máquinas de busca na Web. Um dos modelos mais conhecidos de RI com esse intuito é o Espaço Vetorial (ou Vector Space Model). Este modelo é, provavelmente, usado por todas as grandes máquinas de busca de hoje, inclusive o Google.

Obviamente, todos estão tentando melhorar os seus algoritmos. Nos últimos anos, a comunidade acadêmica vem apresentando modelos probabilísticos (o Vetorial é algébrico) mais viáveis. O BM25, por exemplo, foi apresentado em vários artigos científicos ganhando em várias condições do modelo Vetorial. Mas quando digo “ganhar”, quero dizer que ele mostra resultados ligeiramente mais relevantes e quando digo Vetorial quero dizer o modelo puro, sem as melhorias que as máquinas de busca com certeza fazem nele.

O Vetorial ainda é o preferido por ser simples de implementar e manter, é só mandar rodar que ele já funciona muito bem. O BM25 e quase todos os outros modelos que fazem frente ao Vetorial precisam ser treinados, parâmetros precisam ser ajustados de tempos em tempos e o parâmetro que serve para um conjunto de páginas pode não servir para outras. Todos esses detalhes são custos a mais para a máquina de busca, tanto em tempo de processamento quanto em dinheiro mesmo. Basicamente, ninguém consegue ganhar do modelo Vetorial no custo/benefício e olha que ele já tem algumas décadas.

Em outra frente de pesquisas, algumas empresas novatas vêm ganhando atenção afirmando poder mudar a forma como fazemos buscas na Web . Entre elas a Powerset e a Cuill já mencionadas aqui. A primeira usa processamento de linguagem natural para receber as consultas e processá-las. Em teoria, uma pesquisa por “Políticos que morreram de câncer” deveria retornar sites que cite políticos com esta distinção e não necessariamente tenham estas mesmas palavras. Eles conseguem fazer isso analisando as palavras e “entendendo” o contexto. Parece complicado? Bastante!

A questão é saber se é possível fazer isso funcionar na Web, com bilhões de páginas e com um vocabulário gigante. A resposta, provavelmente é AINDA não. A empresa chegou a fazer demonstrações, mas sempre com um conjunto de páginas e consultas limitado, não retratando a realidade da Web. O modelo Vetorial implementado numa máquina de buscas consegue responder rapidamente a uma consulta, já o processamento de consulta da Powerset deve ser muito mais complexo e pesado devido à necessidade de “entender” a consulta.

Conversando com pesquisadores e/ou entendidos na área de Recuperação de Informação percebe-se opiniões similares. Existem várias modelos antigos e novos para se fazer uma máquina de busca, alguns deles conseguem “vencer” o modelo Vetorial. Mas estas vitórias acabam sendo tão apertadas que simplesmente não compensam. Por outro lado há a necessidade de diminuir custos na indexação de páginas (coleta e armazenagem). A Cuill investe nisso, e diz ter custos 90% menores aos do Google. Na minha opinião, as chances de esta porcentagem estar certa são baixas. A coleta e indexação de documentos na Web é uma tarefa complexa e muito cara devido ao tamanho da base de dados. Diminuir 90% significa diminuir a ordem de complexidade dos algoritmos usados, o que é uma terefa MUITO complicada.

A tendência é que não haja nenhuma revolução no modo como fazemos pesquisas na Web. Talvez a forma como vemos as respostas mudem. Talvez resultados um pouco melhores. Mas é difícil imaginar que as máquinas de busca vão ficar inteligentes de uma hora para outra, “entendendo” o que escrevemos. Quem sabe daqui a alguns anos? Eu espero.

Referências e leitura recomendada:
Como funciona uma Máquina de Busca?
http://people.ischool.berkeley.edu/~hearst/irbook/
http://www.eps.ufsc.br/teses98/rosina/cap4.html

http://en.wikipedia.org/wiki/Information_retrieval#Model_types


Felipe Hummel, editor do Blog do Hummel, foi convidado por Rômulo Mendes a escrever esta matéria especial para o Google Discovery.

Google lança ferramenta de migração de e-mails do Outlook para o GMail

0

Google AppsAumenta a briga pelo mercado de aplicativos de escritórios. Um dos problemas enfrentados pelos novos participantes neste jogo é a dominância da Microsoft. Assim, quem entra precisa criar mecanismos de adaptação do legado das pessoas físicas e empresas, sem o que ninguém vai adotar a nova plataforma.

É isto que a Google está fazendo agora. Disponibilizou ontem um API, que permite aos desenvolvedores migrar os e-mails do Microsoft Outlook para o GMail. Quem já teve que transferir um a um, para fazer cópia, sabe o trabalho que dá. Agora, com este API, o trabalho será automático e dará uma arma muito importante à Google na luta pela disseminação do Google Apps.

Alguns parceiros da Google já usaram a ferramenta e parece que os resultados são satisfatórios. A LimitNone, uma empresa de Chicago, especializada em implantação de Google Apps, construiu um aplicativo, o gMove, que permite não apenas migrar e-mails, mas também contatos, tarefas e calendários do Microsoft Outlook para as ferramentas Google Apps.

Esta guerra ainda está apenas no começo. Ficamos agora esperando uma ferramenta de fácil uso para as pessoas físicas não ligadas às empresas, que adotam o Google Apps, que faça esta toda esta migração e também a migração de textos e planilhas gravadas em nosso HD de forma automática.

Parece ser este o caminho natural.

Fonte: eWeek.com

Depois do gPhone-Android, poderá ser a Google Telecom

2

Nós já havíamos adiantado isto para você. A grande diferença neste momento que agora não estamos mais falando de simples rumores e de apostas de analistas do mercado financeiro, mas de notícia apurada pelo mais respeitado jornal de economia do mundo o The Wall Street Journal.

Em sua edição de hoje, o referido periódico afirmou que o lançamento do Android (que, como já dissemos, é a ponta-de-lança de um conjunto de ferramentas destinadas a permitir que as grandes fábricas apresentem ao mercado smartphones com sistemas operacionais de código aberto) é apenas a ponta do iceberg das pretensões da gigante de mídia no mercado de aparelhos móveis.

Segundo apurou o Journal, as ambições da Google incluem a construção de sua própria rede de comunicações móveis. Para tanto, segundo pessoas familiarizadas com o assunto (aparentemente fontes ouvidas na própria Google) afirmaram que a empresa estaria disposta a pagar USD$ 4,6 bilhões por uma fatia do espectro de 700 Mhz nos EUA, que será leiloado no início de janeiro de 2008.

Espera-se, entretanto, que a oferta poderá ser até muito maior que isto, porque este valor foi publicado oficialmente pela própria empresa em seu Blog de Políticas Públicas. Ora, se a Google está disposta a dizer publicamente o quanto está disposta a pagar pela outorga de licença, ofertando o seu segredo comercial às concorrentes, algumas maiores que ela, é porque está disposta a pagar muito mais que isso, talvez até o dobro disso.

É certo também que ela entrará no leilão, porque levou as autoridades reguladoras dos Estados Unidos a mudar as regras para permitir sistemas de código aberto, leia-se Android. (Gozado… O gPhone não sai da minha cabeça… E acho que da cabeça dos meninos de Mountain View também não…).

Android gPhone telaA empresa terá até o dia 3 de dezembro próximo para se pré-qualificar para o leilão de janeiro e quase ninguém duvida que o fará.

Até agora, nenhuma novidade, exceto ter a notícia sido publicada pelo WSJ.

As informações novas que o WSJ nos traz hoje são que a Google já está testando uma rede sem fio de alta tecnologia em Mountain View, para adquirir experiência, para o caso de vir a criar uma operadora de âmbito nacional nos EUA. Nesta rede, estão usando protótipos de telefones, que usam Android. (Este maldito gPhone me persegue!).

Ainda segundo o WSJ, nos bastidores da gigante de mídia, discute-se a possibilidade de um de dois modelos básicos de negócio para a telefonia celular:

  1. a cobrança de contas de telefonia, como uma operadora tradicional; ou
  2. uso da rede ou fornecimento dos aparelhos total ou parcialmente subsidiados por publicidade.

A segunda opção parece ser uma opção arriscada, mas, como a Google deseja quebrar paradigmas e publicidade é o seu negócio, tem muita gente apostando nesta possibilidade.

Fala-se também que, se a Google conseguir uma faixa de espectro, no leilão de janeiro ela poderá optar por não criar sua própria empresa de telecomunicações (Google Telecom), mas alugar espectro a outra empresa, ou até fazer uma parceria com empresas de Telecom. Tem se falado muito na compra da Sprint, mas poderia não haver uma compra, mas uma parceria estratégica entre as duas. Quanto a isto, somente as duas empresas possuem as informações concretas.

O que há de concreto até agora é que a Google quer mesmo entrar neste mercado, se necessário, tornando-se uma operadora de celulares e banda larga.

Agora está explicado porque ela deixou de comprar empresas: precisa economizar muito, para fazer caixa.

Fonte: Wall Street Journal

Microsoft promete derrubar Google em 5 anos

4

Segundo informações da Info Online, Kevin Johnson, presidente da divisão de serviços da Microsoft, afirmou ter planos para conquistar a liderança da publicidade online num prazo de 3 ou 5 anos.

Segundo Johnson, a Microsoft tem planos concretos para aumentar sua participação no mercado de anúncios online nos próximos anos e fazer frente a competidores como Yahoo! e Gooogle. Na avaliação de Johnson, só este ano a publicidade online vai movimentar US$ 40 bilhões no mundo.

“Se você olhar para o futuro verá que a Microsoft tem dinheiro para investir, possui tecnologia, parceria e competência para crescer neste mercado e fazer frente a qualquer outro competidor. Nosso plano é disputar a liderança deste setor num prazo entre 3 e 5 ano”, afirmou Jonhson aos analistas de mercado.

A Microsoft tem grande poder financeiro para promover grandes investimentos e deve fazer frente ao Google nos próximos anos.

Picasa Web Albums ganha integração com a Pesquisa de imagens Google

0

Google adicionou hoje uma nova funcionalidade ao Picasa Web Albuns que permite integrar álbuns públicos a pesquisa de imagens do Google.

Obtenha mais exposição para os álbuns públicos que você está compartilhando atualmente na pesquisa da comunidade do Picasa. Agora, os álbuns públicos de usuários com ‘Pesquisa pública’ ativada também podem ser incluídos na Pesquisa de imagens Google.

Álbuns que não estiverem listados publicamente não aparecerão nos resultados de pesquisa da comunidade dos Álbuns da web do Picasa e nem mesmo na pesquisa de imagens do Google.

Bolsa de Milão no Google Finance

0

Google Finance - logoDia 09 de novembro, o Blog do Google Finance anunciou a incorporação das cotações da Bolsa de Milão. Agora, o Google Finance integra, além das cotações da Bolsa de Nova Iorque e da Nasdaq, as das bolsas de Amsterdã, Bruxelas, Lisboa, Londres, Paris, Sanghai, Shenzhen, Toronto, Auckland e Sydney.

Uma falha, reconhecida pela própria Google, é a impossibilidade de fornecer as cotações das bolsas americanas em tempo real. Entretanto, quanto a isto eles já estão tratando junto às autoridades daquele país.

Estamos sentindo muito a falta das cotações da Bovespa. Todos os brasileiros gostariam muito de encontrar no Google Finance, em tempo real, as cotações de nossas empresas de capital aberto. Principalmente, agora que o Brasil está prestes a se tornar investment grade e a Bolsa de Valores de São Paulo está tendo recordes em cima de recordes.

Alexandre Hohagem, acorda! O Brasil não pode ficar de fora! E o Yahoo! Finance já tem as cotações da Bovespa! Isto mostra que o Yahoo! valoriza muito mais a economia de nosso país!

Leia também: Google Finance agrega resultados da bolsa da China

Orkut celebra Proclamação da República do Brasil

0

O Orkut está exibindo hoje em sua página inicial para o Brasil um doodle especial em comemoração à Proclamação da República do Brasil.

A Proclamação da República Brasileira é o evento, na História do Brasil, que instaurou o regime republicano no país, derrubando a Monarquia. Ocorreu dia 15 de novembro de 1889 no Rio de Janeiro, então capital do Império do Brasil, na praça da Aclamação (hoje Praça da República), quando um grupo de militares do Exército brasileiro, liderados pelo comandante marechal Deodoro da Fonseca, deu um golpe de estado e depôs o imperador D. Pedro II. Institui-se então a República, sendo nessa data que o jurista Rui Barbosa assinou o primeiro decreto do novo regime, instituindo um governo provisório. Da Wikipédia.

Descubra o Everex gPC com gOS

2

Recentemente reportamos aqui no Google Discovery o lançamento de um micro-computador de US$200 doláres nos Estados Unidos que é fabricado pela empresa Everex e possui um sugestivo nome de “gPC” e acompanha um sistema operacional ainda mais curioso: “gOS”. Você provavelmente já deve ter imaginado o significado desse “G”, não é mesmo? Infelizmente não é Google… é Green!

Apesar do atrativo nome gOS não ter ligações com o líder das buscas, o sistema operacional baseado no linux Ubuntu 7.10 permite fácil acesso aos aplicativos online do Google, Mozilla, OpenOffice, Facebook e Skype; e tem ganhando muito destaque na mídia internacional. Abaixo, reproduzimos algumas imagens do blog de Matt Cutts, funcionário do Google, na qual adquiriu um gPC e deve fazer uma analise em breve.


Everex gPC  fechado em sua caixa verde(não podia ser outra cor, não é mesmo?)


Ao abri-la, é possível visualizar um flyer revelante em destaque.


Flyer: “Encontre seu novo sistema operacional, gOS”


Entre os acessórios estão: teclado, mouse, cabos, manuais e caixas de som.


Design simples e padrão de um micro-computador. Possui fácil acesso a USB, entrada de microfone e saída para fone de ouvido.


Nenhuma novidade na traseira também. Pelo que parece apenas a placa de dial-up é off-board.

Suas configurações:
1.5 GHz Via Technologies C7-D processor (com tecnologia especial que economiza energia)
Sistema Operacional gOS
DVD-ROM/CD-RW drive
512 MB DDR2 de memória(expansível até 2 GB)
10/100 Mbps Ethernet
80 GB de HD

A novidade e destaque do gPC está em seu sistema operacional apesar de seu visual agradável para um micro-computador de baixo custo. Segundo algumas informações, a Everex deve fazer frente a Dell entre aos micros personalizados.

Picasa Web Albums permite criar logins alternativos

0

Caso você tenha uma Google Account complicada para escrever, o Picasa Web Albums permite que você crie até quatro novos nomes de usuários que poderiam ser utilizados para acessar sua conta do Google. Para cria-los, acesse a página de configurações do Picasa Web Albums e adicione novos usuários na seção Galeria URL.

Todos os usuários adicionados no Picasa Web Albums são válidos, mas não existe a possibilidade de utiliza-los como uma conta no Gmail e também não é possível removê-los. Abaixo, uma demonstração da funcionalidade:

Imagens: Google Operating System

YouTube irá ganhar vídeos em alta qualidade

1


Steve Chen, co-fundador do YouTube, confirmou na conferência NewTeeVee Live que o YouTube ganhará vídeos em alta qualidade em breve. Embora o objetivo do YouTube, segundo ele, é “tornar o site uma vasta biblioteca de conteúdo disponível para todos”, e que exige bitrate de fluxo reduzido, o serviço irá testar um novo player que detecta a velocidade da conexão do usuário e oferecerá a opção de assistir aos vídeos em alta qualidade.

Chen espera que os primeiros vídeos em alta qualidade no YouTube devem começar a surgir num prazo de três meses. Ele também confirmou que nos arquivos internos do YouTube, todos os vídeos são armazenados na resolução nativa em que foram enviados. Contudo, uma grande porção dos vídeos do YouTube não possuem qualidade suficiente para começar, ou seja, disponibiliza-los em alta qualidade não vai ser muito notável.

Destaques

Allo e Duo poderão ser aplicativos padrões no Android 7.0 Nougat

De acordo com um usuário anônimo do Reddit, o Google teria planos de embarcar os aplicativos Allo e Duo como plataformas padrões de comunicação...

Lenovo lança Vibe C2 no Brasil

Social

29,085FãsCurtir
32,780SeguidoresSeguir
35,168SeguidoresSeguir