• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка
Фото: Wikimedia Commons

Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.

Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).

Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов,  во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста. 

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.

Ульяна Петрунина

«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.

Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны. 

Нина Здорова

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.

Вам также может быть интересно:

Как мозг обрабатывает слово: исследователи НИУ ВШЭ сравнили читательские маршруты взрослых и детей

Исследователи Центра языка и мозга ВШЭ с помощью магнитоэнцефалографии изучили, как мозг взрослых и детей реагирует на слова при чтении. Они показали, что у детей мозг дольше обрабатывает даже часто употребляющиеся в речи слова, а слова, которые встречаются редко, и псевдослова обрабатывает одинаково — медленно и по частям. С возрастом система перестраивается: высокочастотные слова переходят на быстрый маршрут, а вот новые сочетания букв по-прежнему анализируются медленно. Исследование опубликовано в журнале Psychophysiology.

Зеленый энергопереход: от мифов к реалиям

В 2025 году в Вышке стартовал стратегический технологический проект (СТП) «Национальный центр социально-экономического и научно-технологического прогнозирования». Институт экономики природных ресурсов и изменения климата ВШЭ формирует прогнозы развития мировой и российской экономики и энергетики с учетом фактора «зеленой трансформации». Игорь Макаров, директор института и руководитель департамент мировой экономики, рассказал о глобальном ландшафте климатического регулирования, «черных лебедях» и роли ИИ в борьбе с изменением климата.

Стратегические технологические проекты Вышки в 2025 году

В 2025 году Высшая школа экономики продолжила участие в программе стратегического академического лидерства «Приоритет-2030», обеспечив фокус на технологическое лидерство согласно новой рамке программы «Приоритет-2030». Важный элемент стратегии технологического лидерства университета — стратегические технологические проекты, направленные на создание востребованных наукоемких продуктов и услуг.

Переход к устойчивому развитию требует глубокой структурной трансформации бизнеса

Группа ученых предложила оценивать ESG-трансформацию бизнеса через коэффициент смены партнеров в цепочках сырьевых и сбытовых поставок. Исследователи отмечают, что путь к устойчивости требует глубокой и зачастую затратной перестройки партнерской сети. Этот и другие доклады были представлены на III Международной ежегодной конференции “ESG Corporate Dynamics: the Challenges for Emerging Capital Markets”.

Исследователи НИУ ВШЭ выяснили, как нейросети понимают каламбуры

Международная команда с участием исследователей ФКН НИУ ВШЭ представила KoWit-24 — корпус из 2700 русскоязычных заголовков «Коммерсанта» с игрой слов. Корпус позволил оценить, как искусственный интеллект распознает и объясняет языковую игру. Эксперименты с пятью большими языковыми моделями подтвердили: даже передовые системы пока ошибаются, причем интерпретация игры слов является для них более сложной задачей, чем ее выявление. Результаты работы были представлены на конференции RANLP, cтатья доступна в репозитории Arxiv.org, датасет и код для воспроизведения экспериментов — в GitHub.

«Алгебраическая геометрия — это геометрия идеальных форм»

Созданная 15 лет назад в Вышке Лаборатория алгебраической геометрии и ее приложений изучает фундаментальную математику, формируя единый язык математической науки. Лаборатория стала известным и авторитетным научным центром, признанием ее заслуг стали доклады сотрудников на международных математических конгрессах и публикация статей в ведущих мировых математических журналах. О деятельности научного подразделения новостная служба «Вышка.Главное» побеседовала с заведующим лабораторией профессором РАН Дмитрием Калединым.

МИЭМ и «ИнфоВотч» разработали сценарии для систем защиты информации от внутренних угроз

Сценарии позволяют моделировать инциденты, выявлять и анализировать действия инсайдеров, противодействовать фишинговым атакам, выстраивать политику защиты и готовить заключения по результатам расследований. Они прошли полномасштабную апробацию в рамках чемпионата профессионального мастерства «Профессионалы».

Вышка Онлайн в четвертый раз стала победителем премии «Эффективное образование»

Проект онлайн-кампуса НИУ ВШЭ «Обучаем навыкам будущего: ИИ-портал Вышки» стал победителем в номинации «Образовательная экосистема года в области ИИ». Награда «Эффективное образование» вручается с 2017 года за лучшие проекты и практики в области корпоративного обучения и развития образования.

Создавать условия для жизни и развивать инфраструктуру: как сделать Сибирь модной

В Вышке проходит Всероссийская научно-практическая конференция «II Тобольские чтения», организованная факультетом мировой экономики и мировой политики НИУ ВШЭ. Эксперты, ученые, представители власти, бизнеса и культуры обсуждают вопросы сибиризации России — сдвига центра развития страны к Уралу и Сибири. В работе конференции принял участие заместитель руководителя Администрации Президента РФ Максим Орешкин.

ИИ в науке: страхи и чаяния российских ученых

Искусственный интеллект стал привычным инструментом в ряде стран, однако в российской науке его внедрение пока остается фрагментарным. К такому выводу пришли авторы первого в стране комплексного исследования использования технологий ИИ в научной деятельности. Они провели интервью с ведущими российскими учеными и расспросили их о сферах применения, возможностях и барьерах технологии.