Проиндексированные поисковиками веб-сайты насчитывают более полу-миллиарда копий, а общее количество веб-страниц в десятки тысяч раз больше. Русскоязычный контент занимает 6% всего интернета.
Как перевести нужный текст быстро и так, чтобы сохранился заложенный смысл автором. Старые методы статистических модулей перевода контента работают весьма сомнительно, т.к. невозможно точно определить склонение слов, время и другое. Природа слов и связей между ними сложна, из-за чего результат иногда выглядел весьма неестественным.
Теперь в Яндексе применяют автоматических машинный перевод, что позволит повысить рост качества итогого текста. Скачать последнюю официальную версию браузера с новым встроенным переводом можно тут.
Гибридный перевод фраз и слов
Браузер от Яндекса единственный, кто способен перевести страницу в целом, а также слова и фразы по отдельности. Функция будет весьма полезна и тем пользователям, кто более-менее владеет иностранным языком, но иногда сталкивается с трудностями перевода.
Встроенный в механизм перевода слов нейросеть не всегда справлялась с поставленными задачами, т.к. редкие слова было крайне тяжело встроить в текст и сделать его читаемым. Теперь в приложение встроили гибридный метод с использованием старых технологий и новых.
Механизм такой: программа принимает выделенные предложения или слова, затем отдает их обеим модулям нейронной сети и статистическому переводчику, а встроенный алгоритм определяет какой результат лучше и затем отдает его пользователю.
Нейросетевой переводчик
Иностранный контент оформляется весьма специфично:
- первые буквы слов в заголовках пишутся заглавными;
- предложения строятся с упрощенной грамматикой, некоторые слова опускаются.
Навигационные меню на сайтах анализируются с учётом их расположения, например слово Back, правильно переводить назад (вернуться назад), а не спина.
Чтобы учесть все выше отмеченные особенности разработчики дополнительно обучили нейронную сеть, которая итак использует огромный массив текстовых данных. Теперь на качество перевода влияет расположение контента и его оформление.
Итоги применяемого перевода
Качество перевода можно измерить алгоритмом BLEU*, который сравнивает машинный и перевод от профессиональна. Шкала качества от 0 до 100%.
Чем лучше нейронный перевод, тем выше процент. Согласно этому алгоритму Яндекс браузер стал переводить в 1,7 раза лучше.