В рамках проекта поставлены следующие задачи: накопление параллельных обучающих корпусов данных, разработка методов искусственного расширения обучающих данных, внедрение структурно-функциональной модели морфем, а также создание программных средств обучения машинного переводчика на основе современных нейросетевых подходов. Их реализация будет способствовать решению актуальных и значимых задач по сохранению, развитию и популяризации государственных языков в Республике Башкортостан, а также расширению присутствия башкирского языка в интернет-пространстве.
«Проект ориентирован и полезен для всех, кто работает с текстами на башкирском языке, с переводами. Онлайн-переводчик переводит большие тексты, есть отдельный раздел словарь, также есть озвучка текстов. Стали разрабатывать, так как нет онлайн-переводчиков с русского на башкирский, с башкирского на русский, – отмечает руководитель фонда Гульназ Юсупова. – На данный момент онлайн-переводчик работает в тестовом режиме, исправляем выявленные ошибки. Пока качество переводчика составляет где-то 70 процентов. Чем больше параллельных текстов, тем качественнее будет переводчик».
На основе собранных в 2020 году параллельных данных произведено обучение ансамбля из 8 нейросетей, демонстрирующего наилучшее качество распознавания. Продолжается накопление и обработка материалов, доступных одновременно на башкирском и русском языке. Осуществлена обработка новостей на двух языках, опубликованных в 2021 году. Всего обработано более 14 тысяч интернет-страниц.
Башкирский телеведущий Наиль Юнусов, чьим голосом был озвучен голосовой переводчик, отмечает, что к концу проекта он начитывал до 1300 слов в день. В целом работа велась 2,5 летних месяца. Башкирско-русский и русско-башкирский переводчик представлен на веб-сервисе: https://bashkortsoft.ru/.
Озвученные диктором записи были проанализированы и обработаны экспертами. В общей сложности было выделено 19 892 предложения общей длительностью 40 часов.
«Компьютерная программа, способная озвучить любой текст на башкирском языке голосом Наиля Юнусова, была создана благодаря поддержке Фонда по сохранению и развитию башкирского языка. Протестировать синтезатор могут все желающие на сайте русско-башкирского переводчика bashkortsoft.ru. Пользователям сайта доступна возможность послушать, как звучит перевод текста на башкирском языке», — прокомментировал один из разработчиков сайта Айдар Хусаинов.
Фонд по сохранению и развитию башкирского языка верит, что реализация проекта будет способствовать активному развитию информационных технологий в Республике Башкортостан и послужит паритетному функционированию государственных языков Республики Башкортостан.