Языки с низкими ресурсами

wiki_en · Сообщение **wiki_en** » 15 май 2026, 00:50

«Язык с низкими ресурсами» — это язык, для которого доступны ограниченные цифровые или вычислительные ресурсы для использования в обработке естественного языка, компьютерной лингвистике или языковых технологиях. Этот термин обычно используется для обозначения доступности машиночитаемого текста, аннотированных корпусов, параллельных корпусов, записей речи, лингвистических баз данных или программных инструментов.
В исследовательском контексте статус нехватки ресурсов обычно рассматривается как относительный и зависящий от задачи. Язык может иметь достаточные ресурсы для одного приложения, например обработки письменного текста, и при этом иметь мало ресурсов для другого, например автоматического распознавания речи или машинного перевода.

== Определение и область применения ==

При обработке естественного языка язык часто называют малоресурсным, когда количество или тип доступных данных недостаточны для разработки, обучения, адаптации или оценки вычислительных систем для конкретной задачи. Соответствующие ресурсы могут включать одноязычные корпуса, аннотированные наборы данных, двуязычные или параллельные корпуса, записи речи с транскрипцией, древовидные банки, словари, словари произношения или эталонные тесты. наборы данных.

Термин не имеет единого универсального порога. Исследователи обработки естественного языка пришли к ограниченному консенсусу относительно того, что квалифицируется как «язык с низким уровнем ресурсов», и заявили, что низкий уровень ресурсов зависит от нескольких факторов, включая количество и тип доступных данных, задачу, предметную область и настройки языковой технологии.

Статус малоресурсного языка не эквивалентен тому, чтобы быть языком, находящимся под угрозой исчезновения, языком меньшинства, языком коренных народов или демографически малым языком. Некоторые языки с большим количеством носителей имеют ограниченные вычислительные ресурсы, в то время как некоторые языки, находящиеся под угрозой исчезновения, могут иметь ресурсы документации для конкретных научных целей.

== Виды ресурсов ==

Ресурсы, относящиеся к языковым технологиям, включают несколько типов данных, инструментов и оценочных материалов.

* '''Оноязычные корпуса''': собрания письменного или транскрибированного текста на одном языке.
* '''Аннотированные корпуса''': текст или речь, помеченные для лингвистических или вычислительных задач, таких как разметка частей речи, распознавание именованных объектов, синтаксический анализ или анализ настроений.
* '''Параллельные корпуса''': выровненные тексты на двух или более языках, обычно используемые в машинном переводе. * «Речевые корпуса»: аудиозаписи, транскрипции, метаданные говорящего, данные о произношении или связанные речевые ресурсы.
* '''Лексические и грамматические ресурсы''': словари, морфологические анализаторы, древовидные банки, сети слов, терминологические базы данных или словари произношения.
* '''Наборы оценочных данных''': наборы данных, используемые для сравнения производительности систем языковых технологий.

Доступность этих ресурсов может различаться в зависимости от языка, региона, домена и приложения.

== Причины нехватки ресурсов ==

Нехватка вычислительных ресурсов для языка может быть вызвана несколькими факторами, включая ограниченный доступ к цифровой инфраструктуре, ограниченную оцифровку письменных материалов, рассредоточенность сообществ носителей языка, ограниченную институциональную поддержку, ограниченные коммерческие стимулы или использование языка преимущественно в устной форме.

Дефицит ресурсов обычно не рассматривается как неотъемлемое свойство языка. Скорее, оно описывает текущую доступность данных, инструментов, исследовательской инфраструктуры и технологической поддержки для конкретных вычислительных целей.

== Влияние на языковую технологию ==

Языки с низким уровнем ресурсов могут в меньшей степени поддерживаться языковыми технологиями, такими как машинный перевод, автоматическое распознавание речи, системы преобразования текста в речь, средства проверки орфографии, инструменты поиска, диалоговые системы и системы поиска информации. Исследования лингвистического разнообразия в обработке естественного языка выявили существенные различия в представлении языков мира в исследованиях и приложениях языковых технологий.
Эффекты варьируются в зависимости от языка и задачи. Язык может поддерживаться для одной технологии или языковой пары, но не поддерживаться для другой. По этой причине исследователи часто анализируют условия нехватки ресурсов на уровне конкретных задач, наборов данных, доменов или языковых пар.

В европейской политике и исследованиях соответствующая концепция «цифрового языкового равенства» относится к цели обеспечения адекватной поддержки языковых технологий на разных языках. Проект «Европейское языковое равенство» изучил поддержку языковых технологий для европейских языков и разработал стратегическую программу и дорожную карту для обеспечения цифрового языкового равенства в Европе.
== Вычислительные подходы ==

При обработке естественного языка использовалось несколько методов для решения проблемы ограниченной доступности данных. Эти подходы не являются специфичными для какого-либо одного языка и могут комбинироваться в зависимости от задачи и доступных ресурсов.

* '''Перенос обучения''': адаптация моделей, обученных на одном языке, предметной области или задаче, к другому.
* '''Межязычное обучение''': использование данных или представлений из языков с большим количеством доступных ресурсов для поддержки языков с меньшим количеством ресурсов.
* '''Многоязычное моделирование''': обучение одной модели на данных с нескольких языков.
* '''Расширение данных''': создание или преобразование обучающих примеров для увеличения количества или разнообразия данных.
* '''Слабый, дистанционный или полуконтролируемый контроль''': дополнение ограниченных размеченных данных автоматически сгенерированными или полученными косвенно метками.
* '''Сбор данных на уровне сообщества''': привлечение говорящих к предоставлению, проверке или обзору языковых данных.

В области машинного перевода исследования с ограниченными ресурсами часто фокусируются на языковых парах, для которых доступно мало переводных обучающих данных. Что касается речевых технологий, для создания многоязычных речевых корпусов использовался сбор данных на основе краудсорсинга и сообщества.
== Связь с другими терминами ==

Термин «язык с низкими ресурсами» пересекается с несколькими родственными терминами, которые не являются взаимозаменяемыми.

Эти категории могут пересекаться. Например, язык может быть малоресурсным, но не подвергаться опасности, или находиться под угрозой исчезновения, имея некоторые ресурсы документации.

== Инициативы ==

Несколько исследовательских сообществ, общественных инициатив и платформ данных решают проблемы нехватки языковых ресурсов или цифрового представления недостаточно поддерживаемых языков.

* '''Masakhane''' — это массовая исследовательская организация, занимающаяся обработкой естественного языка африканских языков. * «AmericasNLP» — это серия семинаров, посвященных обработке естественного языка языков коренных народов Америки, материалы которых публикуются в антологии ACL. * «Языковые технологии для всех» — это инициатива, связанная с ЮНЕСКО, Европейской ассоциацией языковых ресурсов и SIGUL, которая направлена на решение проблем языковых технологий, лингвистического разнообразия, многоязычия и языков с недостаточными ресурсами. * «Европейское языковое равенство» — это европейская инициатива, в рамках которой были подготовлены отчеты, показатели и стратегическая программа по вопросам цифрового языкового равенства и поддержки языковых технологий в Европе.
* «Mozilla Common Voice» — это краудсорсинговый многоязычный речевой корпус, используемый в исследованиях и разработках речевых технологий.
* «Всемирный атлас языков ЮНЕСКО» предоставляет информацию о разговорных и жестовых языках, включая статус языка и области использования. * «Европейская языковая сетка» обеспечивает доступ к инструментам, услугам, наборам данных, корпусам, моделям и информации об организациях, занимающихся языковыми технологиями, в Европе.
== См. также ==

* Компьютерная лингвистика
* Обработка естественного языка
* Машинный перевод
* Языковая документация
* Язык, находящийся под угрозой исчезновения
* Язык меньшинства
* Корпусная лингвистика
* Цифровой разрыв
* Возрождение языка

== Дальнейшее чтение ==

* * * * *

* [https://aclanthology.org/ Антология ACL]
* [https://www.unesco.org/en/atlas-languages Всемирный атлас языков ЮНЕСКО]
* [https://www.unesco.org/en/decades/indigenous-languages Международное десятилетие языков коренных народов ЮНЕСКО]
* [https://european-language-equality.eu/Европейское языковое равенство]
* [https://www.european-language-grid.eu/ European Language Grid]
* [https://www.masakhane.io/Масахейн]
* [https://americasnlp.org/ AmericasNLP]
* [https://commonvoice.mozilla.org/ Mozilla Common Voice]
* [https://www.elra.info/ Европейская ассоциация языковых ресурсов]

Обработка естественного языка
Компьютерная лингвистика
Корпусная лингвистика
Языковая документация

Подробнее: https://en.wikipedia.org/wiki/Low-resource_languages

Языки с низкими ресурсами ⇐ Васина Википедия