As imensas potencialidades da tecnologia de reconhecimento de fala do YouTube

No último dia 15, o Renê nos contou da tecnologia de reconhecimento de fala e transformação de discurso em texto, que está sendo adicionado no YouTube. Ainda restrito a poucos vídeos da campanha presidencial norte-americana, o novo sistema parece estar apto a captar o discurso contínuo e transformá-lo em texto escrito, de forma a permitir a que todos tenham conhecimento do conteúdo da fala contínua.

O comunicado oficial da Google destinado a lançar o produto não afirmou categoricamente que se tratava de uma ferramenta totalmente automatizada, mas dava pistas neste sentido. Isto, quando dizia que alguns trechos da transcrição poderiam não ser 100% precisos e que o reconhecimento de fala é um problema difícil e ainda não totalmente resolvido. Ademais, não poderia ser diferente, porque a quantidade de vídeos colocados no YouTube inviabiliza a indexação manual. Afinal, segundo a Procuradoria Geral da República, a cada minuto, 13 horas de vídeo são adicionadas ao YouTube.


Os blogs Digital Inspiration e GoogleWatchBlog (Alemão) publicaram artigos interessantes sobre a nova tecnologia e acreditam que, em breve, todo o conteúdo do YouTube estará indexado no novo sistema.
Já há muito eu pensava em escrever sobre a tecnologia de reconhecimento de fala, ou speech recognition, mas, por total falta de tempo, não o fiz. Achei que não mais podia adiar este propósito. Sem dúvida era esta a grande tecnologia, que faltava ao YouTube. Sinceramente, eu não sabia que a Google estava a fazer uma ferramenta própria e torcia para que ela adquirisse o site Blinkx, que também tem um sistema de reconhecimento de fala e de quem se chegou a falar que estava na mira da Google para aquisição. Acontece, que parece que a ferramenta da Google é ainda superior, porque, além de reconhecer fala, a transforma em texto. Tanto é assim, que a Blinkx já anunciou que vai fazer o mesmo, o que a recoloca na rota de aquisição da News Corp. (My Space), agora acompanhada da Microsoft.

A verdade é que esta tecnologia de reconhecimento de fala é uma das mais maiores barreiras de interface da história da tecnologia da informação e quem a dominar, poderá dominar os futuros navegadores, sistemas operacionais e aplicativos de produtividade do futuro. Mas isso ainda vai demorar um pouco.
A lider deste mercado é a Nuance Comunications, com o Dagon. A IBM havia entrado neste mercado, com o ViaVoice, mas depois desistiu do produto, vendendo-o para a Nuance. O ViaVoice tinha versão em Português, mas hoje, não mais. A Microsoft também está neste mercado, tendo adquirido, há muitos anos atrás uma empresa de software européia, cujo nome não consegui relembrar. Comprou também em 2007 a TellMe. Nos EUA, o Windows e outros produtos MS têm comandos por voz e os sistemas Nuance/Dragon possuem integração com os da Microsoft.

Pelo demonstrado, esta é uma grande tecnologia, que ainda precisa ser aprimorada e levada a uma plataforma multi-lingual.

Mas retornemos à tecnologia do YouTube propriamente dita. Quais são as possibilidades dela em um futuro próximo e também a médio prazo? São muitas e procurarei discorrer sobre elas, sem a pretensão de ser exaustivo:

  • reconhecimento da fala e transformação da fala corrente em texto em todos os vídeos alocados no YouTube e no Google Video, além dos captados na ferramenta de busca de vídeos de sites externos, independentemente do idioma falado;
  • possibilidade de permitir ao usuário traduzir a fala transformada em texto de um idioma para outro de forma automática, de forma a derrubar todas as barreiras de linguagem;
  • possibilidade de incluir no YouTube ou em outro site Google a captação de televisão, rádio, filmes e podcasts on-line, transformação da fala em texto e tradução simultênea;
  • colocação de publicidade em larga escala, a partir do contexto de vídeos, TV, rádio, filmes e podcasts;
  • ampliação das funcionalidades do GMail e do GTalk, para fornecimento de e-mails, mensagens instantantâneas, telefone IP e videoconferência de som e vídeo, com reconhecimento de fala e transformação de fala em texto e até tradução simultânea (porque agora se tornariam comercialmente viáveis, visto que o contexto poderia ser explorado para efeito de emissão de publicidade);
  • aplicação de reconhecimento de fala em telefonia celular, para efeito de fornecimento de publicidade on-line, inclusive com tradução simultânea, talvez até com a possibilidade de permitir o subsídio do próprio aparelho e do uso dos serviços de telefonia;
  • comandos de voz em sistemas operacionais para computadores e aparelhos celulares;
  • reconhecimento de fala e transformação de fala corrente em texto para sistemas de CRM (lembram-se da Salesforce?); e
  • reconhecimento de fala e transformação de fala corrente em texto em aplicativos de produtividade.

Dentre todos estas funcionalidades, os que considero mais importantes, são a que trará reconhecimento de voz aos vídeos do YouTube, porque permitirá a monetização definitiva do site e o reconhecimento de fala e transformação de fala corrente em texto em aplicativos de produtividade, porque, se evoluída a tecnologia a tal ponto, permitirá a criação do editor de textos definitivo, não exigirá mais a digitação. Este último, acredito, demorará ainda alguns anos, mas deve estar nos planos da Google, assim como está também nos planos da Microsoft.

You May Also Like