«Яндекс Браузер» научился синхронному закадровому переводу трансляций на YouTube. — Zorin OS Россия Skip to content
Цена снижена! Успейте приобрести мощную систему Zorin OS Pro и облегчённую версию Zorin OS Pro Lite со скидкой более 50%!

«Яндекс Браузер» научился синхронному закадровому переводу трансляций на YouTube.

Пока функция работает только для некоторых каналов, среди которых Apple, Google, SpaceX, TED и другие. Алгоритм умеет переводить на русский пять языков: английский, немецкий, испанский, итальянский и французский.

Сейчас перевод эфиров доступен в качестве открытой беты на Mac и Windows. В будущем «Яндекс» планирует добавить поддержку мобильной версии браузера и трансляций на Twitch.

В новом Яндекс Браузере для компьютеров появилась возможность переводить прямые эфиры на YouTube. Анонсы новинок IT-индустрии, спортивные соревнования и вдохновляющие космические запуски теперь будут доступны на русском языке в режиме реального времени. Пока технология работает в режиме открытого бета-тестирования — для перевода доступны трансляции на некоторых YouTube-каналах. Попробуйте! Чтобы фича заработала, нужно перезапустить браузер.


Перевод трансляций — это не перевод видео, а нечто большее

Закадровый перевод потокового видео — невероятно сложная инженерная задача. С одной стороны, для качественного перевода иностранной речи очень важен контекст, так как в разных ситуациях одно и то же слово может иметь разные значения — для этого желательно «отдать» нейросети как можно больше текста за один раз. Однако при работе с потоковым сценарием важна минимальная задержка, а это значит, что переводить нужно моментально — ждать, пока спикер закончит формулировать развернутую мысль, просто нет времени. Нейросети выступают в роли синхронного переводчика, который начинает переводить предложение еще до того, как его закончили произносить.

Для быстрой и качественной работы в потоковом сценарии понадобилось перестроить всю архитектуру закадрового перевода видео. В случае с записанными роликами нейросеть получает всю аудиодорожку целиком, а значит, обладает полным контекстом, что облегчает задачу. Работа с переводом прямой трансляции строится совершенно иначе: одна нейросеть распознает аудио и превращает его в текст буквально на лету, другая – определяет пол спикера. Но самое сложное — это следующий этап. Третья нейросеть расставляет знаки препинания и выделяет из текста смысловые фрагменты — части, которые содержат законченную мысль. Именно их забирает ещё одна нейросеть, отвечающая за перевод, который сразу синтезируется на русском языке.

Zorin OS 16 Pro

Войдите или Зарегистрируйтесь чтобы комментировать.