«Создаем автокорректор и татары пишут в соцсетях, не боясь совершить ошибки»

Общество 08:54 / 3 августа 2018
8
«Создаем автокорректор и татары пишут в соцсетях, не боясь совершить ошибки»

Чтобы сохранить язык, важно на нем не только правильно говорить, но и писать. 

Одно из главных требований для развития языка в современном мире - его потребность у носителей при обмене информации в интернете. Татары в соцсетях есть, их много, среди них немало и татароязычных. Для них общение на родном языке - норма. Однако в среде как татароязычных татар, так и тех, кто его утратил, то и дело возникают споры, как правильно пишется какое-либо слово. Неудивительно, что обязательно находятся несколько энтузиастов, которые не поленятся залезть в бумажные или электронные орфографические словари и поднять общий уровень грамотности. 

Немного по-другому обстоит дело с электронными СМИ. К сожалению, на сегодня фиксируются многочисленные пренебрежения правилами написания татарских слов и использования татарской кириллицы изданиями, входящими в холдинг «Татмедиа», а также республиканскими министерствами. 

Ошибки очень грубы и режут слух, если позабыть настоящее звучание слова и прочесть его буквально. 

Например, татароязычный раздел сайта издания Муслюмовского района назван как «Мослим», хотя по правилам должен называться «Мөслим». 

Название района восходит к татарскому обозначению мусульман - мөселман. Знающие родной язык понимают, какая фонетическая пропасть разделяет русскую букву «о» от татарской «ө». Уж лучше б оставили «Муслим», по звучанию «у» ближе к «ө». Татароязычным агрызцам тоже не повезло - в названии их СМИ, состоящем из двух слов, сделано четыре ошибки: «Эгерже хэбэрлэре» - «Әгерҗе хәбәрләре». 

Тут можно оправдаться, что поисковые системы «Яндекс» и Google не индексируют СМИ, написанные по-татарски. Но это не так - оба поисковика выдают результаты.  

1/0

Все эти моменты приводят к пониманию, что остро необходим автокорректор татарского языка. В интервью KazanFirst сотрудник Марийского НИИ языка, литературы и истории им. В. М. Васильева и разработчик автокорректора для марийского языка Андрей Чемышев рассказывает, какие были попытки по созданию татарского автокорректора и возможна ли вообще его реализация сегодня.   

- Что называется автокорректором того или иного языка? 

- Автокорректор по другому ещё называют spell-cheсker - система проверки правописания. Она есть для татарского языка в разных программах, например, в офисном пакете Microsoft Office. Этому делу много лет, ещё когда был проект локализации Windows XP на татарский язык. Эта работа проводилась совместно с НИИ «Прикладная семиотика» при Академии наук РТ. Во время реализации проекта локализации Windows XP ребята из Microsoft составили список фраз, которые им надо было перевести на татарский язык. Работники научно-исследовательского института их перевели. 

Дело в том, что российское представительство Microsoft сшибало огромные деньги с тех регионов России, где могли им оплатить локализацию на местный язык, как, например, Татарстан и Башкортостан. Они оценивали свою работу в нереальные деньги. На самом же деле перевод готовили сотрудники татарстанской Академии. А представители Microsoft просто вшили в свою программу их перевод. Тем не менее spell-cheсker тогда и был создан впервые. 

- Как может выглядеть автокорректор для татарского языка?

- Разработчики взяли комбинации аффиксов и леммы (слова в исходном значении) в татарском языке. Предположим, есть список из 60 тысяч слов, которые в основном взяты из орфографических, татарско-русских словарей. Этот список слов размечен по категориям существительные, прилагательные, глаголы. И вот к каждому слову, то есть лемме, определяют парадигмы, то есть всевозможные аффиксы, которые могут прибавляться к слову.

И вот разработчики взяли список слов и список возможных аффиксов, которые могут последовательно прибавляться до пяти штук. Например, лемма «китап» (книга), с аффиксом «ым» уже будет «китабым» (моя книга) и так далее. Все эти списки были отданы в Microsoft, они в свою локализацию также включили раскладку клавиатуры для татарского языка. Суммы, конечно, за всё это были огромными для регионов. Я видел некоторые счета Microsoft, которые мне показали в Уфе, там были цифры и 4, и 10 млн рублей. Вы ведьпонимаете, какие это были огромные деньги для середины 2000-х годов, когда доллар стоил по 25 рублей.

- Хорошо, сделали. В чем же тогда сложность, почему не пользуются им?  

- Вся система у Microsoft закрытая. Ну, сделали они этот spell-cheker на татарском языке для Microsoft Office. Но нигде больше этот автокорректор уже нельзя использовать. 

А если ты используешь свободное программное обеспечение, тот же LibreOffice или OpenOffice, или ещё какие-то другие программы, то ты spell-cheker от Microsoft уже использовать не можешь.

В целом spell-cheker-ы основаны на морфоанализаторе. Такие же морфоанализаторы были сделаны компанией ABBYY - их разработке принадлежит татаро-русский и русско-татарский электронный словарь. Они тоже обратились к специалистам НИИ «Прикладная семиотика», взяли за основу академический татарско-русский и русско-татарский словари, подготовленный Институтом языка, литературы и истории (ИЯЛИ) Академии наук РТ. Также расписали возможности изменения слов по парадигмам, как это было у Microsoft. У ABBYY тоже закрытая система получилась.

К попыткам создания татарского автокорректора также относится проект по русско-татарскому «Яндекс.Переводчику». Там дошло дело вплоть до локализации на татарский язык всей страницы «Яндекс». Если твой IP-адрес был из Татарстана, то тебе предоставляется возможность поменять язык. Они так же делали татарский морфоанализатор, но он у них закрытый. 

- А есть открытые системы?

- Конечно, есть. Я показал одному парню из института «Прикладная семиотика» Рамилю Гатауллину, как можно сделать открытый морфоанализатор XFST-HFST (Xerox Finite-State Transducer - Helsinki Finite-State Transducer). Он сделал его для целей института.

У специалистов института стояла задача - сделать автоматическую разметку для корпуса татарского языка. Они это сделали, но модуль проверки правописания на его основе не собирали. У них основная работа - именно с корпусом татарского языка. Туда им тоже нужен был свободный морфоанализатор, в принципе они его и сделали

Есть ещё системы на основе HunSpell - можно сделать автокорректор для татарского языка. Эта основа простая, состоит всего лишь из двух файлов, в одном списки слов с разметкой существительные, прилагательные и так далее, а другой файл - списки парадигм, то есть как изменяются эти слова в тех или иных условиях. Эта система используется много где: в тех же бесплатных офисных пакетах, в браузерах. Например, если тот же МасBook от Apple взять, туда можно загрузить эту программу и она будет делать проверку правописания во всех программах, которые используются компьютером МасBook. Когда-то я на основе этой программы делал автокорректор для марийского языка, для языка коми. 

- На вас кто-нибудь выходил с предложением создать автокорректор для татарского языка?

- Я в свое время предложил вашим специалистам создать открытый spell-cheker для татарского языка. Просто я сам не знаю язык, мне нужен был человек, который будет помогать с татарским. Всё остальное я сам могу сделать. Мы вроде как даже начали это делать. Но потом процесс заглох. Эта попытка была в 2012-2013 годах. Тогда мне сказали, что в принципе на сохранение и развитие татарского языка Татарстан выделяет деньги. Можно было выделить небольшую сумму на работу двух людей - меня и специалиста по татарскому языку. Но не получилось. 

- Какие есть результаты по автокорректору марийского языка? 

- Я в свое время столкнулся с проблемой функционирования языка - решил сделать сайт на марийском языке где-то в 2007 году. Но мои буквы не отображались, тогда была проблема с Юникодом. В то время был распространён Windows XP, но без нужного мне Юникода. Я начал разбираться с этой проблемой. Пошла поэтапная работа - надо сделать раскладку клавиатуры, потом электронные словари. Потом уже пришло понимание, что можно сделать автоматическую систему проверки правописания. Я это сделал. Следующий этап - язык должен присутствовать в каких-то машинных переводчиках «Яндекс» или Google. Мы готовили материал для «Яндекса» для включения марийского языка в «Яндекс.Переводчик», но он пока у нас слабее, чем татарский переводчик. Потом следующий этап, но уже на перспективу. Это поисковые системы на наших языках - на марийском, на татарском.

Например, есть люди, которые привыкли использовать Microsoft Office. Они у меня спрашивают, почему мой spell-cheker там не работает. Потому что у них закрытая система, в их программу нельзя встроить автокорректор. С ними надо договариваться, а включение в их систему стоит огромных денег. Поэтому моя технология спокойно работает в открытых системах.  

- А как эти spell-cheker будут работать в наших браузерах?

- Например, для браузера Mozilla и для других достаточно просто сделать плагины. Их потом просмотрят в самом Mozilla, проверят на совместимость и включат в список официальных плагинов. Думаю, можно и в мобильное приложение интегрировать автокорректор, если немного посидеть и подумать. Но сейчас свободного автокорректора нет, чтобы это сделать. Никто так просто его не отдаст. 

- Что мешает сегодня сделать автокорректор для татарского языка?

- Ничего не мешает. Сегодня в области сохранения и развития вашего языка есть очень много различных грантов, проектов, в том числе и государственных. В принципе автокорректор по татарскому можно сделать за год работы. Достаточно проектной группы из 2-3 человек. Достаточно одного-двух человек, которые бы мне помогли с татарским языком. Это необязательно, чтобы был кандидат филологических наук. Достаточно будет старшекурсника-филолога. Как проект будет завершен, можно договориться с кем-нибудь из группы, чтобы он время от времени дополнял, уточнял или исправлял базу слов. В Европе сделать spell-cheker будет стоить 40 тысяч евро, переводя в наши деньги - 3 млн рублей. 

Таким образом, мы сегодня создаем автокорректор, а завтра татары могут спокойно писать в соцсетях, не боясь, что совершат орфографические ошибки. Есть возможности его интеграции в различные системы, которыми сегодня пользуются в интернете - соцсети, браузеры, мобильные приложения и так далее. 

- У вас в Марий Эл есть целенаправленная госпрограмма по поддержке и развитию языка? 

- Такие регионы, как наш, вообще не чета вашему Татарстану. Наш регион - нищий. Если мы тут и пытаемся что-то делать по сохранению языка, то стараемся получить финансирование из Москвы. Наш Институт языка, литературы и истории получил такое финансирование на три года - до 2020-го. Мы сейчас создаем корпус марийского языка.

В ЭТОМ СЮЖЕТЕ
КОММЕНТАРИИ (2)
КоРРектор
Для начала неплохо бы начать писать заголовки материала без ошибок!
0
ОТВЕТИТЬ
Akbüre
Нужная вешь, и плюс на яналифе тоже.
0
ОТВЕТИТЬ
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
ПРЕДЛОЖИТЬ НОВОСТЬ

Если вы хотите поделиться интересным событием, воспользуйтесь данной формой

ПРЕДЛОЖИТЬ

Как правильно выбрать новогоднюю елку

Общество 17:39 / 13 декабря 2018
4
Как правильно выбрать новогоднюю елку

Пора решить - искусственная или настоящая. Разбираем плюсы и минусы двух вариантов.

Елочные базары уже открылись. Хвою на них поставляют из лесопитомников Татарстана и соседних регионов - Марий Эл и Кировской области. Минимальная цена на деревья - около 500 рублей. Что выбрать? Этот вопрос мучает каждого, кто приходит на рынок. Елка пушистая и красивая, но у сосны-то какой аромат! Хочется ведь не только видом наслаждаться, но и запахом. 

«Вредителей в наших елках быть не может»

Самое страшное, что может случиться при покупке натуральной ели или сосны, - это ее зараженность вредителями или плесенью. Неприятно, когда только-только срубленное в лесу деревце начинает вдруг оживать в виде выползающих из-под коры личинок или жуков-короедов, решивших пережить очередную зиму в стволе. Появление плесени на дереве может вызвать аллергию, особенно у детей. 

Определить качество зеленой красавицы, которую вам предлагают, невозможно. Придется верить продавцу на слово, что весь свой товар он привез, закупив его у организации, которая имеет право выращивать ели и сосны на продажу. В республике эта роль отведена лесным хозяйствам - территория плантаций составляет 345 га.

В этом году на аукцион Министерством лесного хозяйства Татарстана будет выставлено примерно 17 тысяч елей и 43 тонны хвойной лапы. Этого вполне достаточно, чтобы обеспечить спрос на новогодних красавиц в республике. 

- Мы можем с уверенностью сказать, что в хвойных деревьях, которые выращиваются на плантациях республики, нет вредителей. Потому что за всеми насаждениями, особенно в период активной деятельности насекомых, которые атакуют деревья, ведется постоянное наблюдение, а также проводится их обработка специальными средствами защиты, - заверили в Минлесхозе Татарстана.

Кроме того, в ведомстве не рекомендуют татарстанцам заниматься в оставшиеся предновогодние дни самостоятельной рубкой деревьев. Лесные хозяйства республики уже организовали патрулирование своих угодий - попавшихся нарушителей ждет суровое наказание. 

Простых граждан могут штрафовать на 3-4 тысячи рублей, должностных лиц - на 20-40 тысяч рублей, юридических лиц - на 200-300 тысяч рублей. При этом кроме административного взыскания срубленное дерево будет тоже конфисковано.

Полезные советы 

Ель

Плюсы: у ели ветки расположены чаще, чем у сосны, значит, украсить можно интереснее.

Ель - самая дешевая в хвойном ряду.

Минусы: быстро осыпается, пахнет первые пару дней.

Цена - от 500 рублей.

Сосна

Плюсы: устойчива к засухе, учитывая, что в квартирах центральное отопление. Это важно, так как не придется постоянно опрыскивать.

Меньше осыпается - меньше хлопот с уборкой.

Сосна пахнет ароматнее, чем ель.

Минусы: редкие ветки, смотрится не так эффектно, как елка.

Цена - от 700 рублей.

Пихта

Плюсы: иголки у пихты мягкие и совсем не колючие, если в доме маленькие дети - это важно.

Пихта не осыпается.

Пихта источает невероятный аромат - по запаху она превосходит всех хвойных сородичей.

Минус один, но очень существенный - стоимость.

Цена - от 2 000 рублей.

Покупая елку в кадке, сначала пару дней «акклиматизируйте» ее на балконе, в гараже или в подъезде, где температура выше, чем на улице, но ниже, чем в комнате. Не удобряйте елку во время новогодних праздников - она может тронуться в рост и последующую «заморозку» до весны не пережить.

Искусственные ели выделяют токсины

Конечно, вместо живой лесной красавицы можно приобрести искусственную. Ее плюс в сроке годности. Служит пластмассовое изделие своему хозяину не несколько недель и потом теряет свой лоск, а несколько лет. Беда только в том, что, как и все искусственно созданное, такая ель таит в себе опасность для человека. 

Поливинилхлорид, из которого изготавливаются практически все современные искусственные елки, выделяет газы, раздражающие слизистые. Но это не самое страшное. Гораздо опаснее свинец, олово или барий, которые добавляют в изделия для пожаропрочности. Эти металлы выделяют фталаты - обязательный компонент, который входит в состав парфюмерной продукции и лака для ногтей. Конечно, никто специально барий, свинец не добавляет в пластик. Его очень много в окружающей среде. В елках эти тяжелые металлы присутствуют как продукты исходного сырья. Хотя, по мнению химиков, вред человеку изделия из ПВХ наносят не более того, что каждый житель города получает, когда дышит выхлопными газами на улице.

Активность же химические компоненты изделия станут проявлять, когда ель начнет гореть или будет стоять рядом с источником тепла - например, батареей отопления. Поэтому искусственный символ Нового года лучше держать подальше от таких мест в комнате.

В Роспотребнадзоре республики рекомендуют, как и при выборе детской игрушки, елку перед покупкой детально изучить. 

Покупателя должно насторожить: 

- «химический» запах;

- иголочки отваливаются, когда проводишь рукой «против шерсти»;

- также надо обращать внимание на устойчивость модели, особенно если она выше полутора метров. Самой надежной считается металлическая крестообразная подставка.

Самыми дорогими считаются литые ели из пленки ПВХ - каждая ветка имеет уникальную форму, чем обусловлена реалистичность дерева. Новинка последних лет - елки с оптоволокном. Кончики иголок светятся, к такой елке даже не нужны гирлянды. Самый популярный и недорогой вариант - конструкция из стальных трубочек с ветками из полиэтилена или распушенной лески, намотанной на проволоку.

Плюсы: долговечность и польза для экологии.

Минус: нет запаха хвои.

Цена - от 1 500 до 35 тысяч рублей.


Читайте также: Ильсур Метшин призвал казанцев отказаться от живых ёлок на Новый год


КОММЕНТАРИИ (1)
Марго
23 февраля это суббота, 24 воскресенье, и так и так выходной
0
ОТВЕТИТЬ
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
ПРЕДЛОЖИТЬ НОВОСТЬ

Если вы хотите поделиться интересным событием, воспользуйтесь данной формой

ПРЕДЛОЖИТЬ
видео
наверх