Главная » Статьи » Лихачевские чтения IV

Коми язык в компьютерную эпоху: опыт адаптации и перспективы выживания

Коми язык в компьютерную эпоху:

опыт адаптации и перспективы выживания

 

Öньö Лав, научный сотрудник,

Центр инновационных языковых технологий Коми республиканской академии государственной службы и управления; Институт языка литературы и истории Коми научного Центра Уральского отделения Российской академии наук, г. Сыктывкар

С широким распространением персональных компьютеров и всеобщей доступности глобальных сетей человеческое общество вступило в новое измерение. Глобализация, направляющий вектор нового мира, декларирует стирание различий между людьми (выравнивание возможностей) и установление в условиях «демократии» нового общественного устройства, в котором человек (как подчеркивается, для своего же блага) будет поставлен в море информации один на один с безликой машиной управления и, соответственно, превратится в тот самый пресловутый винтик, важный для самого себя, но абсолютно не релевантный системе в целом.

В то же время информатизация общества дает в руки каждого человека мощные технические средства, и только от каждой конкретной личности зависит, будет ли использован этот ресурс, и будет ли он использован во имя сохранения традиционных общественных ценностей либо направлен на их разрушение.

Мерилом человеческой ценности в нашей стране искони было отношение к понятиям родина, народ. Сохранение народа как сообщества, сохраняющего на родной земле свои традиции, в наши дни неразрывно связано с сохранением родного языка – главной дифференцирующей составляющей этнического многообразия, стоящего заслоном на пути глобальной унификации.

В особенно уязвимой позиции оказались региональные языки, официальная поддержка которых в силу известных причин явно недостаточна, а собственные ресурсы предельно ограничены. Именно поэтому использование компьютерных технологий для сохранения региональных языков представляется чуть ли не единственным способом их выживания в информационную эпоху.

Исходя из этих соображений, в конце 2011 года в Сыктывкаре была открыта специальная лаборатория, целью деятельности которой стала поддержка электронной письменности восточно-финских языков. На практике это выразилось в создании компьютерных продуктов и интернет ресурсов на национальных языках трех народов: коми, марийцев и удмуртов. Причем акцент, естественно, сделан на коми язык.

Важным принципом в деятельности лаборатории является то, что все продукты и ресурсы, созданные в ее стенах, должны быть абсолютно бесплатными для пользователей. Данное условие представляется вполне рациональным, учитывая резкое сокращение количества носителей родных языков и неутешительные данные социологов о степени языковой лояльности в данных этнических сообществах.

В основу электронной письменности восточно-финских народов были положены национальные раскладки клавиатуры, средства автоматической проверки орфографии, электронные словари, поддержка распознавания, алфавитная сортировка, конвертеры разных систем письма. Кроме того, для комиязычного сообщества была создана обширная электронная библиотека онлайн, а для специалистов – национальный корпус коми языка и медиатека диалектных текстов.

РАСКЛАДКИ КЛАВИАТУРЫ

Разрабатывая национальные раскладки, мы не преследовали цель унификации именно того или иного расклада специфических букв на клавиатуре, хотя предлагая варианты раскладки, мы исходили из принципов удобства для той или иной группы пользователей. Так, одним из вариантов для коми является многонациональная раскладка, включающая стандартные символы почти всех региональных языков Российской Федерации, что дает возможность, не переключая клавиатуры, печатать практически на всех этих языках. Другие варианты рассчитаны на пользователей конкретного языка,  на частоту использования компьютерного набора пользователем и другие аспекты. Но нашей основной задачей в данной сфере было закрепление единых символов для обозначения одной и той же буквы национальных алфавитов. Например, коми (как пермяки, так и зыряне) до сих пор набирают свою букву ő помимо правильной коми ő соответствующим немецким символом, также знаками ő, э, О, 0, о:, о", "о, удмурты вместо удмуртской ü набирают немецкую ü и т. д. Всё это приводит к хаотизации системы национальной письменности, что делает невозможным построение единой системы поиска, проверку орфографии и   т. п. Преодолению этого разнобоя и призвана служить стандартная коми (марийская, удмуртская) раскладка, использующая кириллические символы, соответствующие международному стандарту Юникод. Соответствующее приложение можно скачать с ресурса http://fu-lab.ru/raskladka, там же находится инструкция и видеоурок по установке.

Кроме того, техническим средством преобразования текстов, уже набранных нестандартными символами, на стандарт Юникод служит онлайн конвертер, доступный по адресу http://fu-lab.ru/converter.

Следует заметить, что в Республике Коми в органах государственной власти, местного самоуправления и иных организациях, независимо от организационно-правовой базы, стандарт кодирования для коми языка на основе Юникод формально принят к использованию с 2014 года, согласно распоряжению регионального правительства. Распоряжение, однако, не было подкреплено программой конкретных мероприятий, и принятие стандартной коми раскладки продолжает находиться в прямой зависимости от меры понимания важности этого шага со стороны отдельных лиц. Разъяснительная работа ведется очень слабо, и, как следствие, национальный сегмент интернета остается весьма раздробленным, а электронная поддержка языка не может быть реализована в полном объеме. Скажем, автоматическая проверка орфографии будет действенной лишь в том случае, если тексты даны в стандартной кодировке. Понятно, что если в слове вőр напечатана немецкая ő вместо коми ő, то такое слово программа отметит как ошибку.

ПРОВЕРКА ОРФОГРАФИИ

В настоящее время проверить орфографию на коми-зырянском (марийском, удмуртском) языках можно тремя способами: через браузер Mozilla Firefox; через использование офисного пакета LibreOffice; через онлайн сервис проверки правописания. Спеллер для первых двух можно скачать на сайте http://fu-lab.ru/pravopisanie (там же инструкция и видеоурок по установке). В FireFox и в LibreOffice ошибочные написания подчеркиваются красной волнистой линией и предлагаются варианты написания. Для быстрой проверки рекомендуется онлайн сервис, который расположен по адресу http://webspell.fu-lab.ru/, здесь ошибочные написания выделяются желтым фоном, но варианты написания не предлагаются.

Действующая система проверки коми орфографии создана на основе программы Hunspell. Сочетая два базовых файла: .dic и .aff, программа выделяет словоформы, которые не могут быть сгенерированы из лемм и суффиксов, представленных в базе. Пока обеспечена лишь морфологическая идентификация слов без учета семантики и синтаксического окружения. Так, спеллер не будет видеть ошибку при написании Менам ем нянь вместо Менам эм нянь, поскольку как эм, так и ем заложены в него в качестве существующих словоформ коми языка. Ограниченным функционалом объясняются и недостатки в предлагаемых вариантах правильного написания – программа сама выбирает близкие по написанию словоформы. Вероятность неверных предложений при этом весьма велика. Особенно часто это случается при наличии в слове двух и более ошибок.  В перспективе планируется перевод  орфокорректора на систему HFST, что даст возможность идентификации омонимичных слов с учетом контекста, а также учет не только словоформ, но и устойчивых словосочетаний как анализируемых единиц, которые также будут включаться в базу электронных словарей. Ожидается, что возможность проверки орфографии на наших языках будет также представлена пользователям Microsoft Word и Google Chrome.

ЭЛЕКТРОННЫЕ СЛОВАРИ

Доступность словарей с гипертекстовым поиском дает большие возможности при работе с языками. Для коми, удмуртского и марийского имеется обширный словарный онлайн сервис http://dict.fu-lab.ru/, где пользователи интернета могут искать перевод нужного им слова с русского языка на региональный и наоборот.  В настоящее время в сервисе FU-Lab представлены по коми языку два больших словаря (коми-русский и русско-коми), два малых словаря (коми-русский и русско-коми), а также два кратких отраслевых русско-коми словаря (компьютерных и общественно-политических терминов). Большие словари коми языка предназначены, в первую очередь, для лиц, в какой-то мере уже владеющих коми языком, в них раскрывается сочетаемость слов, приводятся редкие и устаревшие слова и формы. В Большом коми-русском словаре дана транскрипция заглавных слов на молодцовском алфавите. Малые словари предназначены для изучающих коми язык на базовом уровне в школе, на курсах или самостоятельно. Здесь даны элементарные переводы и некоторые примеры. Отраслевые словари необходимы при осуществлении профессионального перевода в определенных сферах с русского языка на коми. Аналогичные ресурсы имеются для удмуртского  и марийского языков. Существует возможность подключения и других словарей, например коми-пермяцко-русского словаря, но для этого необходимо откорректировать уже существующий исходник, имеющийся в интернете.

Поиск в онлайн словарях желательно осуществлять по основной (словарной) форме слова. Данные словари обеспечивают возможность полнотекстового поиска по всем включенным в подборку словарям, либо по каждому словарю в отдельности. При общем поиске по умолчанию открывается список статей Большого коми-русского словаря (2003), в которых встречается искомое слово. Остальные словари, где имеется то же слово, даются списком слева. Кликнув на названии словаря из списка слева, мы получаем список статей данного словаря, в которых имеется исконное слово. Кликнув на какую-либо словарную статью из списка справа, мы открываем эту словарную статью полностью. При поиске по отдельным словарям можно ввести искомое слово в окно поиска (вверху страницы), а можно искать слово по алфавиту, открывая список словарных статей на ту или иную букву. Кликнув на словарную статью из списка, мы открываем ее полностью.

Для работы на компьютерах, где отсутствует связь с интернетом, предназначены словари в оболочке GoldenDict, которые доступны для скачивания на сайте http://fu-lab.ru/elslovari, где также имеется руководство и видеоурок по установке и эксплуатации данных словарей. Поиск слова в этой программе осуществляется по группам словарей, по отдельным словарям либо по всем словарям. Группы выбираются в меню строки «Поиск в». Отдельные словари представлены иконками в верхнем меню. Любой словарь можно при желании отключить, кликнув по иконке. Если включена опция «морфология», возможен поиск слова по его косвенным формам. Например, если мы дадим запрос муніс «шел», будет найдена статья мунны «идти». Ряд статей снабжен иллюстрациями и аудиофайлами.

В настоящее время для коми ведется подготовка к тотальной озвучке словарей и их радикальному пополнению за счет подключения лексической базы корпуса коми языка.

РАСПОЗНАВАНИЕ

Создание объемного корпуса электронных текстов языка осуществляется как путем сбора и унификации уже существующих электронных документов, так и путем сканирования с бумажных носителей и последующим распознаванием текстов. Набор текстов с клавиатуры осуществляется лишь при невозможности первых двух способов. Распознавание осуществляется в программе ABBYY FineReader, которая, к сожалению, не включает коми язык в список доступных языков распознавания со словарной поддержкой. В связи с этим нам пришлось создавать отдельные пользовательские языки (коми-зырянский, коми-пермяцкий и др.) с пользовательским словарем поддержки, благо символы наших языков нашли свое место на кириллической кодовой странице в свежих версиях программы. Инструкцию по установке поддержки для коми языка в программе распознавания можно найти здесь: http://wiki.fu-lab.ru/index.php/Распознавание_коми_текстов. Распознанные тексты далее классифицируются и размечаются для включения в корпус коми языка.

КОРПУС КОМИ ЯЗЫКА

Собственно национальный корпус коми языка – это репрезентативное собрание текстов коми языка, снабженное разметкой лингвистического и металингвистического характера, позволяющей осуществлять поиск языковых единиц в текстах по различным параметрам. Корпус расположен по адресу http://komicorpora.ru/.

Поиск можно осуществлять по слову, по части слова, по словосочетаниям,  ограничивая его регистром, временными рамками, автором, отдельным подкорпусом либо по критерию оригинал/перевод.

В процесс работы над созданием корпуса коми языка выявились следующие этапы:

  • поиск печатных изданий или получение их электронных копий;
  • сканирование печатных изданий и приведение электронных копий к общему стандарту;
  • распознавание текстов с их первичным корректированием;
  • перевод текстов в текстовый редактор и их структурная обработка;
  • метаразметка текстов;
  • корректирование текстов с помощью программы проверки орфографии;
  • добавление новых слов и форм в базу спеллера с их классификацией по морфологическим и семантическим принципам, выявление проблемных случаев;
  • загрузка текстов на сайт;
  • подключение морфоанализатора к текстовой базе;
  • создание интерфейса с удобной системой поиска слов и форм для пользователей сайта.

К осени 2014 года отсканирована и переведена в текстовой формат основная часть книжных изданий оригинальной художественной литературы на современной коми графике, а также более сотни изданий переводного характера. Кроме того, мы имеем в текстовом формате более половины номеров журнала «Войвыв кодзув» (1946–2015), что дает возможность проследить развитие коми письменности в диахроническом аспекте. В плане сохранения исторического наследия интерес представляют также коми тексты 1920–30 годов, которые стали более доступны благодаря созданию молодцовского конвертера (http://fu-lab.ru/convertermolodcov), ибо теперь мы имеем возможность читать старые тексты не только в оригинале, но и на современной орфографии.

На данном этапе мы уделяем большое внимание сохранению аутентичности текстов. Они сравниваются с оригиналом дважды: при распознавании в программе FineReader и при метаразметке в текстовом редакторе. Ошибки в разных изданиях одного и того же текста можно обнаружить также при сравнении редакций в специальных программах, типа Meld. Явные опечатки мы исправляем, отмечая это на нашем справочном ресурсе.

СПРАВОЧНЫЙ БИБЛИОРЕСУРС

Гипертекстовый библиографический ресурс включает информацию по коми авторам и по изданиям на коми языке, попавшим в сферу нашего внимания. В идеале данный ресурс должен содержать также информацию по каждому отдельному произведению. Ресурс общедоступен и обновляется в режиме реального времени, войти в поиск можно через рабочую страничку сайта FU-Lab http://wiki.fu-lab.ru/index.php/Электронная_база_коми_текстов. На сайте можно через ссылки выйти на информацию по книжным изданиям на коми (пермяцком и зырянском) языке как на старых системах письменности, так и на современной графике. Кроме того, дана подробная библиография коми журналов. По каждому книжному изданию либо номеру журнала оформляется отдельная страница, содержащая выходные данные, содержание и информацию об особенностях текста и процессе его электронной обработки. Справочный ресурс включает также большой список комиязычных ресурсов интернета, обновляемый несколько раз в год.

ОНЛАЙН БИБЛИОТЕКА

Коми тексты, по которым сняты ограничения на публикацию, связанные с авторским правом, выкладываются в онлайн библиотеку «КОМИ ГИЖŐД» (http://komikyv.org/).

Учитывая то, что коми язык представлен в двух региональных стандартах (Республика Коми и Коми округ) предусмотрены два раздела — Комияслы и Комиэзлӧ. Пока пополняется первый раздел, но уже достигнута договоренность с кудымкарскими специалистами по разработке аналогичной коми-пермяцкой части ресурса.

К осени 2016 года количество доступных коми читателю текстов превысило 4000. Среди опубликованного материала можно найти как произведения классиков коми литературы (напр., Иван Куратов, Тима Вень, Илля Вась, Жугыль), так и работы молодых авторов.

Тексты распределены про разделам: проза, поэзия, драма, фольклор, переводы, научно-популярная, учебная, общественно-политическая, детская литература. Поиск осуществляется по названию произведения, по автору, по жанру, по изданию. Тексты открыты для скачивания. Есть возможность подключения аудиосопровождения, что можно использовать, например, при обучении языку.

Еще одной опцией, существенно расширяющей функционал коми онлайн библиотеки, является возможность представления одного и того же текста параллельно на коми-зырянском и коми-пермяцком, на коми и иностранном (русском, немецком, английском и др.), на исторической системе коми письма и современной графике…

 

ПЕРСПЕКТИВЫ

Как видим, за пять лет работы в Сыктывкаре была проделана значительная работа по включению коми языка в информационное электронное пространство, что дает шанс на его дальнейшее существование в нашем неспокойном мире. Реализовать этот шанс можно только при совместных усилиях языкового сообщества и прежде всего тех слоев населения, которые по долгу службы связаны с коми языком: учителей, научной элиты, журналистов и работников культуры.

Сегодня, когда коми язык стал более заметен для каждого жителя республики, как никогда важна скоординированная работа по всем направлениям языкового планирования. Понятно, что преодоление тяжкого груза прежних десятилетий, за которые сформировался негативной образ родного языка среди самих коми, – задача не на один год. Необходимо и далее углублять работу по преодолению языкового нигилизма, который нашел питательную почву и в недрах дикого российского капитализма.

Солидарность коми могла бы проявиться, например, в достижении договоренности об общем использовании текстовой базы коми корпуса всеми учреждениями и организациями, занимающимися продвижением коми языка.

Другим направлением совместных усилий могла бы стать разработка и методически безупречное применение современных обучающих программ, как для школ, так и для взрослого населения, желающего выучить язык региона, создание специальных образовательных ресурсов онлайн.

Совместная работа могла бы выразиться и в консолидации комиязычного сегмента интернета, как в плане принятия общих языковых стандартов, так и в плане развития системы гиперссылок между различными коми ресурсами в глобальной сети, создания коми поисковика, локализации популярных браузеров, приложений и т. п.

И, наконец, необходимо всемерно поддерживать инициативную коми молодежь, стремящуюся внести свой вклад в дело развития родного языка. Ведь коми язык сохранится лишь в том случае, если новые поколения поверят в его жизненность и найдут в себе силы отстаивать коми идею, взяв на себя ответственность за культурное наследие предков в непростых условиях быстро меняющегося мира.

Категория: Лихачевские чтения IV | Добавил: Библиотека (16.07.2020) | Автор: Библиотека
Просмотров: 207 | Теги: коми-пермяцкая литература, Коми-Пермяцкая библиотека, РАСКЛАДКИ КЛАВИАТУРЫ, Кудымкар. Пермский край, Электронные словари, Коми язык в компьютерную эпоху, Коми-Пермяцкий округ, РАСП, проверка орфографии, краеведение, коми-пермяцкий язык, Öньö Лав, Михаил Павлович Лихачев, четвертые лихачевские чтения | Рейтинг: 5.0/1
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]