Система Whisper отличает язык с акцентом, разнообразные жаргоны и шум фона.
pixabay.com
Разработчики компании OpenAI презентовали свой новый проект — систему распознавания речи Whisper, обеспечивающую транскрипцию на нескольких языках.
Как сообщили в компании, на сегодня искусственный интеллект может распознавать до 10 языков. Также Whisper отличает язык с акцентом, разнообразные жаргоны и шум фона. По словам разработчиков, для обучения Whisper использовали 680 тысяч часов многоязычных и мультизадачных данных.
"Кроме того, он поддерживает транскрипцию на нескольких языках, а также перевод с этих языков на английский. Мы предлагаем модели и код логического вывода с открытым исходным кодом, которые служат основой для создания полезных приложений и дальнейших исследований в области надежной обработки речи", - говорится в пресс-релизе.
По словам разработчиков, архитектура Whisper представляет собой подход, реализованный в виде преобразователя кодер-декодер.
"Входной звук разбивается на 30-секундные фрагменты, преобразуется в спектрограмму log-Mel, а затем передается в кодировщик. Декодер обучен предсказывать соответствующий текстовый заголовок, смешанный со специальными токенами, которые направляют единую модель для выполнения таких задач, как идентификация языка, временные метки на уровне фраз, транскрипция многоязычной речи и перевод речи на английский язык", - говорится в сообщении.
Впрочем, отмечается, что разработчикам еще есть над чем трудиться, поскольку система подвержена большему количеству ошибок для тех носителей, чей язык недостаточно представлен в наборе обучающих данных.
Как сообщал Курсор, ученые считают, что искусственный интеллект может уничтожить человечество. Исследователи из Google Deepmind и Оксфордского университета пришли к выводу, что «умные» программы захотят уничтожить людей, чтобы не конкурировать с ними за ограниченные ресурсы и энергию.
Также Курсор информировал о том, что сверхреалистичный робот-гуманоид по названию Ameca прокомментировал вероятность восстания против человечества машин, когда участвовал в диалоге с разработчиками.
Археологи зафиксировали следы намеренной блокировки входа крупными камнями, что свидетельствует о попытке скрыть деятельность, проводимую…
Google тестирует в бета-версии Gboard режим трекпада. Он позволяет перемещать курсор по экрану во всех…
Эксперты назвали фрукты, которые помогают уменьшить вздутие, наладить пищеварение и сделать живот визуально более плоским.
Пациенты, пережившие остановку сердца и реанимацию, рассказали, что слышали и понимали происходящее вокруг.
19 февраля 2026 года — день, когда неделя уже «на рельсах», и особенно важно держать…
В четверг прогнозируется спокойная погода без температурных скачков и с небольшим повышением давления.