Более 50 миллионов словоупотреблений входит в виртуальный Корпус коми языка
Сегодня Республика Коми по праву считается одним из лидеров в области информатизации российских финно-угорских языков. Во многом это заслуга работающего в Сыктывкаре Центра инновационных языковых технологий, который входит в структуру Дома дружбы народов Коми. О своей работе «Республике» рассказали руководитель центра Марина Федина и его сотрудники.
– Прежде всего стоит отметить востребованность наших разработок, – пояснила Марина Федина. – За минувший год общая посещаемость сайтов центра превысила миллион посещений. Если быть точным, она составила 1 053 814 просмотров и 57 703 уникальных пользователей. Это значит, что мы нужны людям. Мы ведем работу по двум направлениям. Это создание новых продуктов и обновление уже действующих. Кроме того, в 2018 году мы получили патенты на онлайн-сервис проверки орфографии и на коми-русский, русско-коми учебный словарь.
Главный специалист центра Вячеслав Степанов (известный также как Ӧньӧ Лав) рассказал о том, что нового появилось за минувший год в Корпусе коми языка:
– Была полностью переписана поисковая часть – движок, а также оптимизирована структура базы данных, что значительно повысило скорость поиска. В поисковую форму добавлена возможность поиска с учетом регулярных выражений и словарной формы слова.
Помимо этого в корпусе коми языка поисковая система дополнена сортировкой текстов по алфавиту, авторам, источникам и названиям произведений; в выпадающем меню характеристики слова появилась информация о слове и его перевод на русский. Немного поменялся интерфейс: область вывода результата стала более компактной. За год специалистами лаборатории была проделана большая работа, в ходе которой корпус пополнился еще на 15 миллионов словоформ – главным образом за счет включения газетных и журнальных публикаций. Теперь объем виртуального Корпуса коми языка насчитывает более 50 миллионов словоупотреблений. Это крупнейший корпус по финно-угорским языкам России. Но он будет пополняться и дальше.
– Кроме того, в прошлом году мы работали над разметкой текстовой базы коми корпуса по языковому принципу, – добавил Ӧньӧ Лав. – Дело в том, что в коми текстах часто встречаются отрывки на русском, а иногда и на других языках. Теперь мы их выделили специальными тегами, чтобы при поиске коми слов не учитывался иноязычный контент.
Корпус полезен не только для научного исследования коми языка, но и для широкого круга пользователей, интересующихся языком и литературой. В частности, здесь можно проследить, когда то или иное слово вошло в широкое употребление, какая форма слова употребляется чаще.
О новшествах в онлайн-библиотеке «Коми гижӧд» рассказала специалист центра Инна Андрианова:
– За минувший год в онлайн-библиотеку добавлено 2421 произведение. Сейчас здесь насчитывается 6579 произведений более чем сотни авторов. Продолжалось заключение лицензионных соглашений с правообладателями по включению произведений в библиотеку.
По словам Инны Андриановой, в разделе «Комиӧдӧм» к переводам на коми язык по возможности параллельно добавлены тексты иноязычных оригиналов, причем реализована возможность выравнивания параллельных текстов при несоответствии количества абзацев при переводах. Начата работа по включению в библиотеку текстов молодцовской эпохи параллельно в оригинале и в современной графике. Добавлена возможность подключения к страничке произведения файлов не только аудио-, но и других форматов: txt, pdf, fb2 и т.д.
– Ряд изменений произведен и в коми-русском онлайн-словаре для русскоговорящих. Стоит отметить, что этот ресурс вошел в первую пятерку по популярности среди пользователей, – рассказал сотрудник центра Илья Лыткин.
В 2018 году словарные статьи ряда частотных коми слов в этом словаре были дополнены обширными списками примеров их сочетаемости, которые составлены с опорой на материал учебников коми языка для русскоговорящих. Кроме того, увеличилось количество слов с аудиосопровождением.
– Совсем скоро мы представим наш новый ресурс – Образовательный портал для изучающих коми язык, – добавила Марина Федина. – Надеемся, он будет пользоваться популярностью среди жителей не только нашей республики, но и других регионов и даже стран. Я уверена, что коми сегодня стал полноправным языком в интернете.
Напомним, что Центр инновационных языковых технологий был создан в декабре 2011 года и совершил так называемый цифровой скачок для коми языка. Все разработки специалистов центра доступны и абсолютно бесплатны.
Артур АРТЕЕВ
Фото автора
Оставьте первый комментарий для "Полноправный в интернете"