Facebook обучили нейросеть различать до 5 разных голосов в одном разговоре и сводить их в текст

Команда утверждает, что новый метод превосходит все аналоги по качеству и быстроте разделения источников речи, подавлению шума и реверберации.

Разработчики Facebook обучили нейросеть разделять до 5  разных голосов в одном разговоре и переводить его в текст или же разделить на пять разных дорожек по голосам, передает Телеграф.

Команда утверждает, что новый метод превосходит все аналоги по качеству и быстроте разделения источников речи, подавлению шума и реверберации.

Facebook использовала новую рекуррентную нейронную сеть для создания нового класса алгоритмов, использующих внутреннее состояние, похожее на память, для обработки последовательностей входов переменных. При этом модель может автоматически определить говорящих и выбрать речевую модель.

Разделение речи является важнейшим шагом на пути к улучшению коммуникации в различных приложениях — при помощи голосовых сообщений или потокового аудио. Кроме того, методы разделения речи, предложенные исследователями, можно применить для подавления фонового шума, например, при записи музыкальных инструментов.

Напомним, WhatsApp, TikTok, Zoom, Facebook и Instagram вошли в топ-5 загрузок на самоизоляции.

ТЭГИ:
comments powered by HyperComments