В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках
,_interior_77.jpg)
Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.
По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке.
В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.
Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).
Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов, во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.
Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста.
Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.
Ульяна Петрунина
«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.
Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны.
Нина Здорова
«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.
В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.
Здорова Нина Станиславовна
Вам также может быть интересно:
Технодень МИЭМ на Покровке: совместно исследуем инженерный код Вышки
26 мая в центральном атриуме корпуса на Покровском бульваре, 11, пройдет традиционный масштабный фестиваль инженерных разработок проектных команд Московского института электроники и математики (МИЭМ) ВШЭ. В программе — презентации лучших студенческих технологических проектов, стенды дружественных компаний и совместных мастерских, лекторий с участием практикующих инженеров, круглый стол о развитии инженерного образования и представление магистерских программ МИЭМ.
ФКН ВШЭ расширяет линейку образовательных программ по ИИ для руководителей
Центр непрерывного образования факультета компьютерных наук НИУ ВШЭ (ЦНО ФКН ВШЭ) развивает уникальную линейку образовательных продуктов для топ-менеджмента, где передовая компьютерная наука соединяется с реальными задачами бизнеса. Цель этого направления — помогать развивать бизнес в России через внедрение технологий искусственного интеллекта.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.
НИУ ВШЭ собирает экспертов из ведущих университетов мира в Санкт-Петербурге
С 18 по 22 мая Высшая школа экономики в Санкт-Петербурге станет центром глобального академического диалога. Международная партнерская неделя объединит более 100 делегатов из 47 университетов и 20 стран мира.
Сохранить рациональность в период турбулентности
Международная лаборатория логики, лингвистики и формальной философии НИУ ВШЭ исследует логику и рациональность в изменившемся мире, характеризующемся многообразием логических систем и рациональных агентов. Лаборатория поддерживает и развивает научные связи с российскими и зарубежными партнерами. Новостная служба «Вышка.Главное» побеседовала о ее деятельности с заведующей лабораторией, профессором Еленой Драгалиной-Черной.
Гонка за ресурсами и зеленый переход: три неожиданных вывода исследователей Форсайт-центра о климате и бедности
За фасадом зеленой энергетики, которая для большинства ассоциируется с солнечными панелями, электромобилями и сокращением выбросов СО₂, скрывается сложный узел геополитических интересов, межстранового неравенства и ресурсных ограничений. Ученые из Лаборатории исследований науки и технологий (ЛИНТ) Форсайт-центра ИСИЭЗ НИУ ВШЭ опубликовали цикл статей в ведущих международных журналах о скрытых и явных конфликтах вокруг критически важных металлов и минералов и связанных с ними процессов в энергетике.
Студенты Вышки — среди победителей акселератора высокотехнологичных стартапов от «Яндекса»
«Яндекс» подвел итоги акселератора Yandex AI Startup Lab, в финальный раунд которого вышли 12 ИТ-проектов. Их создатели, студенты и молодые предприниматели, вместе с экспертами компании три месяца работали над развитием своих продуктов. Четыре стартапа в сферах цифрового маркетинга, медицины и робототехники признаны лучшими: их команды получили денежные призы и гранты на облачные ресурсы. В их числе и стартап Gradius от студентов НИУ ВШЭ .
В НИУ ВШЭ обсудили перспективы развития сотрудничества с Пекинским университетом
В Москве состоялась встреча руководства Высшей школы экономики с делегацией Пекинского университета во главе с ректором Гун Цихуаном. В ходе встречи стороны договорились о развитии партнерства между университетами в рамках проведения перекрестных Годов российско-китайского сотрудничества в области образования (2026–2027 годы).
НИУ ВШЭ и Назарбаев Университет: научно-образовательная кооперация
В апреле Вышку с официальным визитом посетила делегация Назарбаев Университета (Казахстан). Главной целью встречи стало установление сотрудничества между университетами, расширение партнерских связей и проработка совместных проектов в интересах развития отношений между Россией и Казахстаном.
AI AWARDS 2026: аналитическую основу премии формирует iFORA НИУ ВШЭ
Высшая школа экономики вошла в число партнеров премии AI AWARDS 2026, которая пройдет 29 апреля в Москве. Проект, реализуемый командой «Билайн Big Data & AI», посвящен практическому применению искусственного интеллекта и объединяет компании, технологии и команды, которые уже сегодня влияют на развитие новой цифровой экономики. Вклад номинантов AI AWARDS в развитие ИИ анализируется на основе данных, поэтому качество аналитической базы и прозрачность методологии становятся для рынка принципиально важными.


