Google Discovery  
Descubra o universo Google. Pesquise, compartilhe e comunique-se.
Agenda Chrome Gmail Orkut Talk
Blogger Docs Notas Reader

As imensas potencialidades da tecnologia de reconhecimento de fala do YouTube

julho 19, 2008 – 3:30 pm escrito por Rômulo Mendes | Translate to English

youtube_logo As imensas potencialidades da tecnologia de reconhecimento de fala do YouTubeNo último dia 15, o Renê nos contou da tecnologia de reconhecimento de fala e transformação de discurso em texto, que está sendo adicionado no YouTube. Ainda restrito a poucos vídeos da campanha presidencial norte-americana, o novo sistema parece estar apto a captar o discurso contínuo e transformá-lo em texto escrito, de forma a permitir a que todos tenham conhecimento do conteúdo da fala contínua.

O comunicado oficial da Google destinado a lançar o produto não afirmou categoricamente que se tratava de uma ferramenta totalmente automatizada, mas dava pistas neste sentido. Isto, quando dizia que alguns trechos da transcrição poderiam não ser 100% precisos e que o reconhecimento de fala é um problema difícil e ainda não totalmente resolvido. Ademais, não poderia ser diferente, porque a quantidade de vídeos colocados no YouTube inviabiliza a indexação manual. Afinal, segundo a Procuradoria Geral da República, a cada minuto, 13 horas de vídeo são adicionadas ao YouTube.

Os blogs Digital Inspiration e GoogleWatchBlog (Alemão) publicaram artigos interessantes sobre a nova tecnologia e acreditam que, em breve, todo o conteúdo do YouTube estará indexado no novo sistema.
Já há muito eu pensava em escrever sobre a tecnologia de reconhecimento de fala, ou speech recognition, mas, por total falta de tempo, não o fiz. Achei que não mais podia adiar este propósito. Sem dúvida era esta a grande tecnologia, que faltava ao YouTube. Sinceramente, eu não sabia que a Google estava a fazer uma ferramenta própria e torcia para que ela adquirisse o site Blinkx, que também tem um sistema de reconhecimento de fala e de quem se chegou a falar que estava na mira da Google para aquisição. Acontece, que parece que a ferramenta da Google é ainda superior, porque, além de reconhecer fala, a transforma em texto. Tanto é assim, que a Blinkx já anunciou que vai fazer o mesmo, o que a recoloca na rota de aquisição da News Corp. (My Space), agora acompanhada da Microsoft.

A verdade é que esta tecnologia de reconhecimento de fala é uma das mais maiores barreiras de interface da história da tecnologia da informação e quem a dominar, poderá dominar os futuros navegadores, sistemas operacionais e aplicativos de produtividade do futuro. Mas isso ainda vai demorar um pouco.
A lider deste mercado é a Nuance Comunications, com o Dagon. A IBM havia entrado neste mercado, com o ViaVoice, mas depois desistiu do produto, vendendo-o para a Nuance. O ViaVoice tinha versão em Português, mas hoje, não mais. A Microsoft também está neste mercado, tendo adquirido, há muitos anos atrás uma empresa de software européia, cujo nome não consegui relembrar. Comprou também em 2007 a TellMe. Nos EUA, o Windows e outros produtos MS têm comandos por voz e os sistemas Nuance/Dragon possuem integração com os da Microsoft.

Pelo demonstrado, esta é uma grande tecnologia, que ainda precisa ser aprimorada e levada a uma plataforma multi-lingual.

Mas retornemos à tecnologia do YouTube propriamente dita. Quais são as possibilidades dela em um futuro próximo e também a médio prazo? São muitas e procurarei discorrer sobre elas, sem a pretensão de ser exaustivo:

  • reconhecimento da fala e transformação da fala corrente em texto em todos os vídeos alocados no YouTube e no Google Video, além dos captados na ferramenta de busca de vídeos de sites externos, independentemente do idioma falado;
  • possibilidade de permitir ao usuário traduzir a fala transformada em texto de um idioma para outro de forma automática, de forma a derrubar todas as barreiras de linguagem;
  • possibilidade de incluir no YouTube ou em outro site Google a captação de televisão, rádio, filmes e podcasts on-line, transformação da fala em texto e tradução simultênea;
  • colocação de publicidade em larga escala, a partir do contexto de vídeos, TV, rádio, filmes e podcasts;
  • ampliação das funcionalidades do GMail e do GTalk, para fornecimento de e-mails, mensagens instantantâneas, telefone IP e videoconferência de som e vídeo, com reconhecimento de fala e transformação de fala em texto e até tradução simultânea (porque agora se tornariam comercialmente viáveis, visto que o contexto poderia ser explorado para efeito de emissão de publicidade);
  • aplicação de reconhecimento de fala em telefonia celular, para efeito de fornecimento de publicidade on-line, inclusive com tradução simultânea, talvez até com a possibilidade de permitir o subsídio do próprio aparelho e do uso dos serviços de telefonia;
  • comandos de voz em sistemas operacionais para computadores e aparelhos celulares;
  • reconhecimento de fala e transformação de fala corrente em texto para sistemas de CRM (lembram-se da Salesforce?); e
  • reconhecimento de fala e transformação de fala corrente em texto em aplicativos de produtividade.

Dentre todos estas funcionalidades, os que considero mais importantes, são a que trará reconhecimento de voz aos vídeos do YouTube, porque permitirá a monetização definitiva do site e o reconhecimento de fala e transformação de fala corrente em texto em aplicativos de produtividade, porque, se evoluída a tecnologia a tal ponto, permitirá a criação do editor de textos definitivo, não exigirá mais a digitação. Este último, acredito, demorará ainda alguns anos, mas deve estar nos planos da Google, assim como está também nos planos da Microsoft.

Notícias Relacionadas

Compartilhe no Rec6 Compartilhe no diHITT Compartilhe no Linkk Compartilhe

Deixe um comentário

« Voltar para comentário em texto

Adicionar no Google Adicionar no Meu Yahoo! Adicionar no Netvibes Adicionar no Google

Selo peixe Grande 2008