«Создаем автокорректор и татары пишут в соцсетях, не боясь совершить ошибки»

Чтобы сохранить язык, важно на нем не только правильно говорить, но и писать. 

Одно из главных требований для развития языка в современном мире - его потребность у носителей при обмене информации в интернете. Татары в соцсетях есть, их много, среди них немало и татароязычных. Для них общение на родном языке - норма. Однако в среде как татароязычных татар, так и тех, кто его утратил, то и дело возникают споры, как правильно пишется какое-либо слово. Неудивительно, что обязательно находятся несколько энтузиастов, которые не поленятся залезть в бумажные или электронные орфографические словари и поднять общий уровень грамотности. 

Немного по-другому обстоит дело с электронными СМИ. К сожалению, на сегодня фиксируются многочисленные пренебрежения правилами написания татарских слов и использования татарской кириллицы изданиями, входящими в холдинг «Татмедиа», а также республиканскими министерствами. 

Ошибки очень грубы и режут слух, если позабыть настоящее звучание слова и прочесть его буквально. 

Например, татароязычный раздел сайта издания Муслюмовского района назван как «Мослим», хотя по правилам должен называться «Мөслим». 

Название района восходит к татарскому обозначению мусульман - мөселман. Знающие родной язык понимают, какая фонетическая пропасть разделяет русскую букву «о» от татарской «ө». Уж лучше б оставили «Муслим», по звучанию «у» ближе к «ө». Татароязычным агрызцам тоже не повезло - в названии их СМИ, состоящем из двух слов, сделано четыре ошибки: «Эгерже хэбэрлэре» - «Әгерҗе хәбәрләре». 

Тут можно оправдаться, что поисковые системы «Яндекс» и Google не индексируют СМИ, написанные по-татарски. Но это не так - оба поисковика выдают результаты.  

1/0

Все эти моменты приводят к пониманию, что остро необходим автокорректор татарского языка. В интервью KazanFirst сотрудник Марийского НИИ языка, литературы и истории им. В. М. Васильева и разработчик автокорректора для марийского языка Андрей Чемышев рассказывает, какие были попытки по созданию татарского автокорректора и возможна ли вообще его реализация сегодня.   

- Что называется автокорректором того или иного языка? 

- Автокорректор по другому ещё называют spell-cheсker - система проверки правописания. Она есть для татарского языка в разных программах, например, в офисном пакете Microsoft Office. Этому делу много лет, ещё когда был проект локализации Windows XP на татарский язык. Эта работа проводилась совместно с НИИ «Прикладная семиотика» при Академии наук РТ. Во время реализации проекта локализации Windows XP ребята из Microsoft составили список фраз, которые им надо было перевести на татарский язык. Работники научно-исследовательского института их перевели. 

Дело в том, что российское представительство Microsoft сшибало огромные деньги с тех регионов России, где могли им оплатить локализацию на местный язык, как, например, Татарстан и Башкортостан. Они оценивали свою работу в нереальные деньги. На самом же деле перевод готовили сотрудники татарстанской Академии. А представители Microsoft просто вшили в свою программу их перевод. Тем не менее spell-cheсker тогда и был создан впервые. 

- Как может выглядеть автокорректор для татарского языка?

- Разработчики взяли комбинации аффиксов и леммы (слова в исходном значении) в татарском языке. Предположим, есть список из 60 тысяч слов, которые в основном взяты из орфографических, татарско-русских словарей. Этот список слов размечен по категориям существительные, прилагательные, глаголы. И вот к каждому слову, то есть лемме, определяют парадигмы, то есть всевозможные аффиксы, которые могут прибавляться к слову.

И вот разработчики взяли список слов и список возможных аффиксов, которые могут последовательно прибавляться до пяти штук. Например, лемма «китап» (книга), с аффиксом «ым» уже будет «китабым» (моя книга) и так далее. Все эти списки были отданы в Microsoft, они в свою локализацию также включили раскладку клавиатуры для татарского языка. Суммы, конечно, за всё это были огромными для регионов. Я видел некоторые счета Microsoft, которые мне показали в Уфе, там были цифры и 4, и 10 млн рублей. Вы ведьпонимаете, какие это были огромные деньги для середины 2000-х годов, когда доллар стоил по 25 рублей.

- Хорошо, сделали. В чем же тогда сложность, почему не пользуются им?  

- Вся система у Microsoft закрытая. Ну, сделали они этот spell-cheker на татарском языке для Microsoft Office. Но нигде больше этот автокорректор уже нельзя использовать. 

А если ты используешь свободное программное обеспечение, тот же LibreOffice или OpenOffice, или ещё какие-то другие программы, то ты spell-cheker от Microsoft уже использовать не можешь.

В целом spell-cheker-ы основаны на морфоанализаторе. Такие же морфоанализаторы были сделаны компанией ABBYY - их разработке принадлежит татаро-русский и русско-татарский электронный словарь. Они тоже обратились к специалистам НИИ «Прикладная семиотика», взяли за основу академический татарско-русский и русско-татарский словари, подготовленный Институтом языка, литературы и истории (ИЯЛИ) Академии наук РТ. Также расписали возможности изменения слов по парадигмам, как это было у Microsoft. У ABBYY тоже закрытая система получилась.

К попыткам создания татарского автокорректора также относится проект по русско-татарскому «Яндекс.Переводчику». Там дошло дело вплоть до локализации на татарский язык всей страницы «Яндекс». Если твой IP-адрес был из Татарстана, то тебе предоставляется возможность поменять язык. Они так же делали татарский морфоанализатор, но он у них закрытый. 

- А есть открытые системы?

- Конечно, есть. Я показал одному парню из института «Прикладная семиотика» Рамилю Гатауллину, как можно сделать открытый морфоанализатор XFST-HFST (Xerox Finite-State Transducer - Helsinki Finite-State Transducer). Он сделал его для целей института.

У специалистов института стояла задача - сделать автоматическую разметку для корпуса татарского языка. Они это сделали, но модуль проверки правописания на его основе не собирали. У них основная работа - именно с корпусом татарского языка. Туда им тоже нужен был свободный морфоанализатор, в принципе они его и сделали

Есть ещё системы на основе HunSpell - можно сделать автокорректор для татарского языка. Эта основа простая, состоит всего лишь из двух файлов, в одном списки слов с разметкой существительные, прилагательные и так далее, а другой файл - списки парадигм, то есть как изменяются эти слова в тех или иных условиях. Эта система используется много где: в тех же бесплатных офисных пакетах, в браузерах. Например, если тот же МасBook от Apple взять, туда можно загрузить эту программу и она будет делать проверку правописания во всех программах, которые используются компьютером МасBook. Когда-то я на основе этой программы делал автокорректор для марийского языка, для языка коми. 

- На вас кто-нибудь выходил с предложением создать автокорректор для татарского языка?

- Я в свое время предложил вашим специалистам создать открытый spell-cheker для татарского языка. Просто я сам не знаю язык, мне нужен был человек, который будет помогать с татарским. Всё остальное я сам могу сделать. Мы вроде как даже начали это делать. Но потом процесс заглох. Эта попытка была в 2012-2013 годах. Тогда мне сказали, что в принципе на сохранение и развитие татарского языка Татарстан выделяет деньги. Можно было выделить небольшую сумму на работу двух людей - меня и специалиста по татарскому языку. Но не получилось. 

- Какие есть результаты по автокорректору марийского языка? 

- Я в свое время столкнулся с проблемой функционирования языка - решил сделать сайт на марийском языке где-то в 2007 году. Но мои буквы не отображались, тогда была проблема с Юникодом. В то время был распространён Windows XP, но без нужного мне Юникода. Я начал разбираться с этой проблемой. Пошла поэтапная работа - надо сделать раскладку клавиатуры, потом электронные словари. Потом уже пришло понимание, что можно сделать автоматическую систему проверки правописания. Я это сделал. Следующий этап - язык должен присутствовать в каких-то машинных переводчиках «Яндекс» или Google. Мы готовили материал для «Яндекса» для включения марийского языка в «Яндекс.Переводчик», но он пока у нас слабее, чем татарский переводчик. Потом следующий этап, но уже на перспективу. Это поисковые системы на наших языках - на марийском, на татарском.

Например, есть люди, которые привыкли использовать Microsoft Office. Они у меня спрашивают, почему мой spell-cheker там не работает. Потому что у них закрытая система, в их программу нельзя встроить автокорректор. С ними надо договариваться, а включение в их систему стоит огромных денег. Поэтому моя технология спокойно работает в открытых системах.  

- А как эти spell-cheker будут работать в наших браузерах?

- Например, для браузера Mozilla и для других достаточно просто сделать плагины. Их потом просмотрят в самом Mozilla, проверят на совместимость и включат в список официальных плагинов. Думаю, можно и в мобильное приложение интегрировать автокорректор, если немного посидеть и подумать. Но сейчас свободного автокорректора нет, чтобы это сделать. Никто так просто его не отдаст. 

- Что мешает сегодня сделать автокорректор для татарского языка?

- Ничего не мешает. Сегодня в области сохранения и развития вашего языка есть очень много различных грантов, проектов, в том числе и государственных. В принципе автокорректор по татарскому можно сделать за год работы. Достаточно проектной группы из 2-3 человек. Достаточно одного-двух человек, которые бы мне помогли с татарским языком. Это необязательно, чтобы был кандидат филологических наук. Достаточно будет старшекурсника-филолога. Как проект будет завершен, можно договориться с кем-нибудь из группы, чтобы он время от времени дополнял, уточнял или исправлял базу слов. В Европе сделать spell-cheker будет стоить 40 тысяч евро, переводя в наши деньги - 3 млн рублей. 

Таким образом, мы сегодня создаем автокорректор, а завтра татары могут спокойно писать в соцсетях, не боясь, что совершат орфографические ошибки. Есть возможности его интеграции в различные системы, которыми сегодня пользуются в интернете - соцсети, браузеры, мобильные приложения и так далее. 

- У вас в Марий Эл есть целенаправленная госпрограмма по поддержке и развитию языка? 

- Такие регионы, как наш, вообще не чета вашему Татарстану. Наш регион - нищий. Если мы тут и пытаемся что-то делать по сохранению языка, то стараемся получить финансирование из Москвы. Наш Институт языка, литературы и истории получил такое финансирование на три года - до 2020-го. Мы сейчас создаем корпус марийского языка.

Понравился материал? Поделись в соцсетях
ПОДРОБНЕЕ В СЮЖЕТЕ: 155 материалов в сюжете

Изучение родных языков в школах

Группа депутатов внесла в Госдуму законопроект о поправках в закон «Об образовании в РФ», который вызвал резонанс не только в Татарстане, но и в других национальных республиках.  

2 КОММЕНТАРИЯ
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
КоРРектор
Для начала неплохо бы начать писать заголовки материала без ошибок!
0
0
Ответить

Akbüre
Нужная вешь, и плюс на яналифе тоже.
0
0
Ответить

downloadfile-iconquotessocial-inst_colorwrite