• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка
Фото: Wikimedia Commons

Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.

Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).

Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов,  во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста. 

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.

Ульяна Петрунина

«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.

Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны. 

Нина Здорова

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.

Вам также может быть интересно:

ВШЭ и БГУ запускают совместную ИТ-программу при поддержке Правительства Бурятии

Высшая школа экономики подписала соглашения о сотрудничестве в сфере подготовки кадров в области искусственного интеллекта и информационных технологий с Правительством республики Бурятия и Бурятским государственным университетом имени Доржи Банзарова. Оба документа закладывают основу для реализации совместной образовательной программы по направлению «Прикладная математика и информатика», а также для системного развития сквозных цифровых компетенций студентов и преподавателей вузов республики (программирование, анализ данных, методы искусственного интеллекта).

Вышка провела экзамены, квизы и отборы для школьников в Ташкенте и Бишкеке

Более 3 тысяч иностранных школьников приняли участие в Международной олимпиаде молодежи НИУ ВШЭ, церемонии награждения которой прошли в Ташкенте и Бишкеке в марте. Выездные мероприятия университета также включали выпускные экзамены, презентации образовательных программ и очные отборочные испытания для поступающих. В Узбекистане и Кыргызстане дипломы победителей и призеров получили почти 200 участников. Лучшие из них смогут претендовать на обучение в НИУ ВШЭ на бюджетной основе.

«Планируем работать в русле Программы развития университета»

25 марта на заседании Ученого совета НИУ ВШЭ был рассмотрен отчет о реализации программы развития университета в 2025 году, представлена стратегия Высшей школы бизнеса НИУ ВШЭ на 2026-2030 годы, обсуждены возможности участия пермского кампуса в создании регионального кластера креативных индустрий.

Как исследовать ландшафты в эпоху больших данных

Международная лаборатория ландшафтной экологии НИУ ВШЭ изучает явления, определяющие функционирование окружающей среды. Эти исследования важны для прогнозирования динамики окружающей среды в разных регионах России, реализации природно-климатических проектов, охраны редких видов животных и растений, развития лесного и сельского хозяйства. О работе лаборатории «Вышке.Главное» рассказали ее руководитель Роберт Сандлерский и декан факультета географии и геоинформационных технологий НИУ ВШЭ Николай Куричев.

От спинов и двумерных материалов до цунами и торнадо: что изучают физики Вышки

Международная лаборатория физики конденсированного состояния изучает сложнейшие процессы взаимодействия молекул и атомов твердых и жидких веществ, квантовую механику этих процессов и тончайшие двумерные материалы. Физики Вышки совместно с коллегами из ведущих академических институтов исследуют свойства сверхпроводников и топологических материалов, явления при сверхнизких температурах, проблемы турбулентности и гидродинамики.

Как правильно монетизировать научные разработки

Грамотная коммерциализация научных исследований, предполагающая их трансформацию в реальные разработки и новые продукты и получение дохода от интеллектуальной собственности, способствует трансферу передовых технологий в экономику и государственное управление, стимулирует творческую энергию ученых и укрепляет материальную базу научных лабораторий и университетов. Коммерциализация не ограничивается инженерными и ИТ-направлениями, она может быть результативной для исследований в разных науках, в том числе социальных и гуманитарных. Важно, чтобы университет сохранил роль одного из лидеров в коммерческом использовании научных результатов.

В Выcшей школе экономики запускается проектный майнор по робототехническим системам

Институт робототехнических систем НИУ ВШЭ совместно со стратегическим партнером — компанией ЭФКО — открывает новый майнор «Проектная мастерская робототехнических систем». Программа рассчитана на студентов всех образовательных направлений НИУ ВШЭ в Москве и предлагает уникальный практико-ориентированный подход к изучению направления робототехники и киберфизических систем путем последовательного создания аппаратно-программных продуктов.

В Дели прошла Международная школа БРИКС

Молодежь становится ключевым участником глобального диалога. Это подтвердили итоги «Международной школы БРИКС: Новое поколение», которая прошла в Дели. Мероприятие объединило 200 молодых лидеров из ведущих университетов и экспертных центров Индии. Программа была организована Экспертным советом БРИКС — Россия, который действует на базе НИУ ВШЭ, совместно с Русским домом в Нью-Дели при поддержке МИД РФ.

Четвертый фестиваль робототехники состоится в НИУ ВШЭ

С 1 по 3 апреля в кампусе НИУ ВШЭ на Покровке пройдет IV Фестиваль робототехники — одно из ключевых событий факультета компьютерных наук Вышки для всех, кто увлечен робототехникой, программированием и инженерным творчеством. Фестиваль объединит соревнования по робототехнике, дискуссии, образовательные форматы и демонстрацию разработок.

Новая разработка ученых ВШЭ поможет быстрее и дешевле спроектировать надежную электронику

Российские ученые из МИЭМ ВШЭ разработали новый подход к моделированию электротепловых процессов в мощных электронных схемах на печатных платах. Они научились быстро и точно рассчитывать, как нагреваются электронные компоненты во время работы, чтобы заранее предотвращать их перегрев и поломку. Результаты работы опубликованы в журнале Russian Microelectronics.