Google научила нейросеть разговаривать по-человечески

Tacotron 2 значительно эффективнее своих предшественников, таких как WaveNet – издававшей очень резкие звуки, и Tacotron, который и вовсе не умел полноценно «разговаривать»

Google разработала основанный на нейросети новейший синтезатор Tacotron 2, способный говорить с тембром, ритмом произношением, не отличающимися от человеческой речи.

Алгоритм Tacotron 2, представленный командой Google с участием Джонатана Шена, работает на основе двух нейронных сетей, сообщает издание TechCrunch.

Печатная версия конвертируется в специальную спектрограмму, в которой распределяются ритм и ударения, а слова генерируются в аналоге WaveNet. Добавлена также ​​система сбора данных для обучения нейросети. Темп речи звучит достаточно убедительно, а основные задержки происходят на словах с необычным произношением. Правда, часть слушателей утверждают, что некоторые слова система все еще произносит немного «ломано».

Образцы работы Tacorton 2 можно прослушать на официальном сайте Google, а технология, скорее всего, сразу появится в новых продуктах компании. Одной из основных проблем алгоритма является отсутствие регулирования тона речи, что не дает возможности предсказать, какая фраза будет произнесена возвышенно, а какая – грубо.

Tacotron 2 работает эффективнее своих предшественников Tacotron и WaveNet, имевших ряд серьезных недостатков. WaveNet выдавала очень резкие звуки, а Tacotron не мог полноценно «разговаривать».


Напомним, ранее интернет-гигант начал работу над техническим решением, с помощью которого будет понижаться ранжирование пропагандистских ресурсов RT и Sputnik

ТЭГИ:
Загрузка...