O Google Assistente encontrou uma nova voz

Google desenvolveu um novo sistema de síntese de voz mais avançado que os anteriores: Tacotron 2. Ele conta com duas redes neurais para funcionar e é capaz de reproduzir a voz humana, bem como suas entonações. Incrível.

O Google apresentou esse novo mecanismo de conversão de texto em fala em um artigo de pesquisa publicado no início deste mês.

Comparador do Google

Muito abrangente, detalha como a tecnologia funciona e é acompanhado por várias amostras. Alguns deles foram integrados no final do artigo.

Tacotron 2, um formidável mecanismo de síntese de voz

O Tacotron 2 visa, portanto, tornar a voz de nossos assistentes e ferramentas digitais mais humana.

Para chegar a esse resultado, o Google Research usou seu conhecimento de inteligência artificial e a equipe optou por contar com duas redes neurais diferentes.

A primeira tem a missão de traduzir um texto escrito em um espectrograma. A ferramenta é, portanto, capaz de gerar um espectro que representa todas as frequências de áudio associadas à frase ou ao texto lido. O resultado é então analisado e interpretado pelo WaveNet, um componente do DeepMind. O sistema lerá o gráfico e em seguida gerará os elementos de áudio correspondentes às informações contidas no arquivo.

O resultado é impressionante. Graças a essas duas redes neurais, o sistema é realmente capaz de transcrever as entonações da voz e levar em conta a pontuação das frases para se aproximar do nosso modo de falar.

Uma voz mais natural

Como resultado, é quase impossível distinguir frases lidas por pessoas de carne e osso daquelas lidas pelo sistema. Não de ouvido, pelo menos.

O Google Research realiza muitos experimentos todos os anos, mas a situação é um pouco diferente aqui. WaveNet é de fato usado por várias ferramentas do grupo e em particular no Google Assistant. O sistema desenvolvido pelos investigadores da empresa poderá assim beneficiar directamente o seu assistente virtual e assim melhorar as interacções com os utilizadores da solução.

Por outro lado, e como irão notar ao ouvir os excertos sonoros presentes no final do artigo, o sistema está limitado de momento a uma única voz feminina.

Artigos Relacionados

Back to top button