Bastam três segundos de áudio para a Inteligência Artificial da Microsoft simular qualquer voz humana.
Não é novidade que a tecnologia vem surpreendendo a cada dia. Você conhece algum tipo de tecnologia bizarra que impressiona? Esse é o caso da ferramenta da Microsoft que deve revolucionar a comunicação na internet.
Isso porque a Microsoft criou um software a partir da Inteligência Artificial (IA) e capaz de simular qualquer voz humana. São necessários apenas três segundos de um áudio da sua voz para que a IA consiga até mesmo preservar o tom emocional das palavras e a acústica do ambiente do áudio.
Imagina a sua voz sendo captada por três segundos e sendo colocada de modo artificial para falar qualquer coisa.
A ferramenta se chama VALL-E e é um modelo de linguagem de codec natural construído no final do ano passado. A tecnologia utiliza a Inteligência Artificial para comprimir o áudio em qualidade melhor que CD, e até 10 vezes menores do que arquivos MP3. E o melhor: sem perda na qualidade do áudio.
Os cientistas utilizaram 60 mil horas de gravação de vozes em inglês de quase oito mil falantes do LibriLight, aplicativo de audiolivros que podem ser acessados por qualquer um. Por enquanto, apenas é possível simular a fala em inglês. A ferramenta VALL-E vai melhorar na medida em que seu conjunto de dados de amostras se expandir.
Existem perigos nessa tecnologia?
A reposta da Microsoft é sim. Podem existir usos indevidos da ferramenta para falsificação de identificação de voz ou até personificar um locutor específico. Por isso, a empresa não vai divulgar o código-fonte da ferramenta.
Realmente, é preciso tomar esse cuidado. Isso porque os áudios podem comprometer as pessoas, e até incriminá-las, por isso é importante que essa ferramenta esteja nas mãos certas.
Existe um site com diversos modelos de linguagem dos sintetizadores de textos. A Microsoft divulgou as amostras de falas e comparativos entre os áudios originais e a versão criada pela Inteligência Artificial.