• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка
Фото: Wikimedia Commons

Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.

Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).

Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов,  во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста. 

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.

Ульяна Петрунина

«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.

Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны. 

Нина Здорова

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.

Вам также может быть интересно:

Участники «Я — профессионал» разработают ИИ-агентов для бизнеса на Весенней экономической школе Вышки и Сбера

На площадке СберУниверситета стартовала Весенняя экономическая школа, организованная Высшей школой экономики и Сбером для участников Всероссийской олимпиады студентов «Я — профессионал» Президентской платформы «Россия — страна возможностей». С 22 по 24 апреля студенты будут работать над созданием ИИ-агента для бизнеса — от идеи и научной гипотезы до прототипа, готового к защите перед экспертами.

Биологи НИУ ВШЭ обнаружили уникальные свойства микроРНК miR-93-5р при раке предстательной железы

Исследователи факультета биологии и биотехнологии НИУ ВШЭ изучили, как различные формы одной и той же микроРНК влияют на работу генов при аденокарциноме предстательной железы. Оказалось, что в некоторых случаях микроРНК могут усиливать функции друг друга, подавляя одни и те же гены. Работа помогает по-новому взглянуть на молекулярные механизмы развития опухолей и поиск биомаркеров заболевания. Результаты опубликованы в журнале PeerJ.

Математическая физика в Вышке: международный уровень

Международная лаборатория зеркальной симметрии и автоморфных форм НИУ ВШЭ (МЛЗС) и Пекинский институт математических наук и приложений (BIMSA) провели совместную онлайн-конференцию по математической физике. Результаты представленных исследований МЛЗС будут опубликованы в ведущих научных журналах.

Уже не выбор, а реальность: трансформация мира под влиянием ИИ

Искусственный интеллект уже не воспринимается как технология будущего: он стремительно меняет процессы принятия решений, рынок труда и социальные практики. Вместе с тем он несет с собой не только новые грандиозные возможности, но и системные риски, связанные с ростом зависимости от данных, трансформацией профессий и изменением человеческого поведения. В НИУ ВШЭ создали семантическую карту разломов, которая показала ключевые тренды в развитии технологий.

НИУ ВШЭ и ДИТ Москвы подписали соглашение о развитии сети 5G и 6G

Департамент информационных технологий города Москвы и Высшая школа экономики подписали соглашение о сотрудничестве в области инновационного развития ИТ-инфраструктуры столицы. Стороны договорились о совместных исследованиях в области современных и перспективных технологий связи, включая 5G и 6G, а также ИИ, интернета вещей и других технологий умного города.

НИУ ВШЭ представил результаты исследований на конференции по ИИ в Омане

В апреле 2026 года в Университете Низвы (Султанат Оман) состоялась Международная конференция по интеллектуальным системам и приложениям искусственного интеллекта (ISAA 2026). Высшая школа экономики выступила соорганизатором мероприятия совместно с Университетом Низвы и Университетом технологий и прикладных наук Ибри. Ученые НИУ ВШЭ также вошли в число ключевых спикеров конференции.

«Самое впечатляющее — это активная и энергичная группа студентов»

Профессор Университета Индрапрастха (Дели, Индия) Санха Басу стал преподавателем весенней школы «Логика, лингвистика и формальная философия», проводившейся Международной лабораторией логики, лингвистики и формальной философии. Он впервые побывал в российском вузе и поделился своими впечатлениями о Вышке с новостной службой «Вышка.Главное».

Роботы, хакатон и соревнования: в Вышке прошел фестиваль робототехники

IV Фестиваль робототехники факультета компьютерных наук НИУ ВШЭ объединил школьников, студентов и ведущих разработчиков — всего более 800 участников. В течение трех дней на площадке университета проходили соревнования, лекции и демонстрации технологий. Впервые состоялся хакатон по программированию роборуки и презентация антропоморфного робота.

Почему искусственный интеллект не способен поработить человечество

1 апреля на факультете математики НИУ ВШЭ встретили российского ученого, преподавателя и специалиста по информационной безопасности Андрея Масаловича, известного как КиберДед. Он представил студентам Вышки свои «Двадцать вопросов искусственному интеллекту» и поделился ответами, раскрывающими суть проблем в сфере развития ИИ, а также рассказал, почему тот никогда не сможет захватить человечество.

Тест «КардиоЖизнь» Вышки — в числе победителей премии Data Fusion Awards 2026

Разработка ученых Центра биомедицинских исследований и технологий Института ИИ и цифровых наук ФКН ВШЭ — генетический тест «КардиоЖизнь» — одержала победу в Общероссийской кросс-отраслевой премии в области технологий работы с данными и ИИ Data Fusion Awards. Проект занял первое место в номинации «Партнерство науки и бизнеса», показав успешную модель трансфера технологий из университетской науки в реальный сектор здравоохранения.