Geral

A nova IA de voz do Google é hiper-realista


A inteligência artificial não faz mais parte das mentes imaginativas da ficção científica. Se você estava preocupado com alguns dos mais recentes desenvolvimentos de IA em 2017, 2018 não parece melhor. Um dos desenvolvimentos mais assustadores tem que ser o progresso mais recente com a IA de geração de voz do Google.

Agora, se você já usou qualquer um dos produtos do Google ou simplesmente usou o serviço de tradução do Google, está familiarizado com a voz de IA do Google. Disponível em vozes masculinas ou femininas, a voz robótica é um grampo em nossa cultura, assim como a Siri da Apple ou a Cortana da Microsoft.

Com o passar dos anos, a voz do Google começou a soar menos robótica e mais humana. Neste ponto, o novo Tacotron 2 Google Voice AI é quase indistinguível dos humanos.

IA gerado por voz do Google

Em um artigo de pesquisa publicado recentemente pelo pessoal do Google, a equipe apresenta detalhes para o impressionante sistema de fala chamado Tacotron 2. No artigo, o Google destaca a capacidade do sistema de falar quase de maneira idêntica com seus criadores humanos. A equipe descreve o sistema de fala de segunda geração no relatório afirmando: " oTacotron 2, uma arquitetura de rede neural para síntese de voz diretamente do texto. O sistema é composto de uma rede recorrente de previsão de características sequência a sequência que mapeia os encaixes de caracteres para mel- espectrogramas em escala, seguido por um modelo WaveNet modificado que atua como um codificador de voz para sintetizar formas de onda de domínio do tempo a partir desses espectrogramas."

Conforme declarado no relatório, a tecnologia é composta por duas redes neurais profundas. A primeira rede traduz o texto em um espectrograma e, em seguida, os envia para o Deep Mind-sistema criado, WaveNet. O que você ganha quando implementa esses sistemas? Uma voz que soa como sua contraparte humana. Ouça a gravação de voz apresentada abaixo. Uma das gravações é o Tacotron 2 enquanto a outra é uma atriz paga. Você pode dizer a diferença?

Nessas gravações, a voz diz “Aquela garota fez um vídeo sobre batom Star Wars.”

Ou que tal este“Ela obteve um doutorado em sociologia na Universidade de Columbia.”

Se você ouvir o poder do Tacotron 2, ouça-o tentando esses trava-línguas.

“Peter Piper escolheu um pedaço de pimenta em conserva. Quantas pimentas em conserva Peter Piper escolheu? ”

“Ela vende conchas na praia. As conchas que ela vende são conchas do mar, tenho certeza. ”

A IA também faz um trabalho fantástico de analisar o contexto e entender onde o estresse deve estar. Ouça a inflexão perfeita que usa na declaração"Ele achou que era hora de apresentar o presente."

Também pode dizer a diferença entre homônimos, como ser capaz de dizer a diferença entre o pretérito ler e o infinitivo ler.Até mesmo alguns falantes nativos de inglês (humanos) podem ter problemas com isso enquanto lêem em voz alta!

Embora o sistema ocasionalmente tenha problemas com a pronúncia das palavras com várias sílabas, o Tacotron 2 oferece uma acústica vocal impressionante. Assim que o sistema for finalizado para produção, o Tacotron 2 com certeza será uma voz poderosa em todo o ecossistema do Google.


Assista o vídeo: ENTRE O REALISMO E O HIPER-REALISMO (Junho 2021).