Юлдаш. Вести
+16 °С
Облачно
Все новости
Национальные проекты
9 Ноября 2021, 14:15

БашкортСофт: проект по сохранению башкирского языка

Фонд по сохранению и развитию башкирского языка запустил новый проект Bashkortsoft –  это первый переводящий цельные предложения с башкирского языка на русский, с русского на башкирский язык.

БашкортСофт: проект по сохранению башкирского языка
БашкортСофт: проект по сохранению башкирского языка

В рамках проекта поставлены следующие задачи: накопление параллельных обучающих корпусов данных, разработка методов искусственного расширения обучающих данных, внедрение структурно-функциональной модели морфем, а также создание программных средств обучения машинного переводчика на основе современных нейросетевых подходов. Их реализация будет способствовать решению актуальных и значимых задач по сохранению, развитию и популяризации государственных языков в Республике Башкортостан, а также расширению присутствия башкирского языка в интернет-пространстве.

«Проект ориентирован и полезен для всех, кто работает с текстами на башкирском языке, с переводами. Онлайн-переводчик переводит большие тексты, есть отдельный раздел словарь, также есть озвучка текстов. Стали разрабатывать, так как нет онлайн-переводчиков с русского на башкирский, с башкирского на русский, – отмечает руководитель фонда Гульназ Юсупова. – На данный момент онлайн-переводчик работает в тестовом режиме, исправляем выявленные ошибки. Пока качество переводчика составляет где-то 70 процентов. Чем больше параллельных текстов, тем качественнее будет переводчик».

На основе собранных в 2020 году параллельных данных произведено обучение ансамбля из 8 нейросетей, демонстрирующего наилучшее качество распознавания. Продолжается накопление и обработка материалов, доступных одновременно на башкирском и русском языке. Осуществлена обработка новостей на двух языках, опубликованных в 2021 году. Всего обработано более 14 тысяч интернет-страниц.

Башкирский телеведущий Наиль Юнусов, чьим голосом был озвучен голосовой переводчик, отмечает, что к концу проекта он начитывал до 1300 слов в день. В целом работа велась 2,5 летних месяца. Башкирско-русский и русско-башкирский переводчик представлен на веб-сервисе: https://bashkortsoft.ru/.

Озвученные диктором записи были проанализированы и обработаны экспертами. В общей сложности было выделено 19 892 предложения общей длительностью 40 часов.

«Компьютерная программа, способная озвучить любой текст на башкирском языке голосом Наиля Юнусова, была создана благодаря поддержке Фонда по сохранению и развитию башкирского языка. Протестировать синтезатор могут все желающие на сайте русско-башкирского переводчика bashkortsoft.ru. Пользователям сайта доступна возможность послушать, как звучит перевод текста на башкирском языке», — прокомментировал один из разработчиков сайта Айдар Хусаинов.

Фонд по сохранению и развитию башкирского языка верит, что реализация проекта будет способствовать активному развитию информационных технологий в Республике Башкортостан и послужит паритетному функционированию государственных языков Республики Башкортостан.

Автор:
Читайте нас: