A Microsoft exibiu sua mais recente pesquisa em Inteligência Artificial de conversão de texto em fala com um modelo chamado VALL-E.
Ele pode gerar áudio a partir de uma entrada de texto e de uma pequena amostra de áudio de alguém, de três segundos apenas.
O VALL-E foi treinado com 60.000 horas de fala em inglês de mais de 7.000 falantes para imitar o seu timbre, tom emocional e acústica da sala, desde que a amostra seja suficientemente longa.
Embora possa ser usado para aplicativos personalizados ou sofisticados de conversão de texto em fala, ele também traz riscos de uso indevido, como os deepfakes.
A Microsoft agora planeja ampliar os dados de treinamento e explorar maneiras de reduzir palavras que não são claras ou perdidas.

No entanto, a gigante de Redmond optou por não tornar o código aberto, para evitar riscos potenciais de uso indevido do modelo.
“Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, pode acarretar riscos potenciais no uso indevido do modelo, como falsificação de identificação de voz ou personificação”, escreveu a empresa.