МАУВ (метрический) ⇐ Васина Википедия
-
Автор темыwiki_en
- Всего сообщений: 97555
- Зарегистрирован: 16.01.2024
МАУВ (метрический)
'''MAUVE''' — это метрика для автоматической оценки качества открытой генерации естественного языка|генерации текста. Разработанный исследователями из Вашингтонского университета, Института искусственного интеллекта Аллена и Стэнфордского университета, он был впервые представлен на NeurIPS 2021, где получил награду за выдающуюся работу.
В отличие от более ранних показателей, таких как BLEU или ROUGE (metric)|ROUGE, которые основаны на перекрытии n-грамм между кандидатом и ссылкой, MAUVE измеряет, насколько близко распределение сгенерированного текста к распределению написанного человеком текста в многомерном пространстве встраивания.
==Фон==
Оценка открытого поколения (например, создания истории или длинного диалога) чрезвычайно сложна. Традиционные метрики наказывают «творческие», но обоснованные отклонения от единого справочного текста. Кроме того, модели нейронного языка часто страдают от таких проблем, как повторяющиеся циклы или отсутствие согласованности на больших расстояниях, которую не могут уловить n-граммные метрики.
MAUVE был разработан так, чтобы более точно соответствовать человеческим суждениям о «качестве» и «разнообразии», рассматривая оценку текста как сравнение двух вероятностных распределений: распределения написанного человеком текста (P) и распределения текста, сгенерированного машиной (Q).
==Методология==
Расчет MAUVE включает три основных этапа:
# Встраивание: большие объемы текста, сгенерированного человеком и машиной, отображаются в векторное пространство с использованием предварительно обученного преобразователя (модель машинного обучения)|модель преобразователя.
# Квантование: непрерывные вложения группируются в конечный набор кодовых слов k с использованием кластеризации k-средних для формирования дискретных распределений.
# Граница дивергенции: метрика вычисляет компромисс между ошибками типа I и типа II (точность и полнота) между двумя распределениями с использованием расхождения Кульбака-Лейблера.
===Математическое определение===
MAUVE основан на площади под границей дивергенции. Для параметра смешивания \lambda\in(0, 1) распределение смеси определяется как:
: R_\lambda = \lambda P + \left(1 - \lambda\right) Q
Граница состоит из точек (R_1, R_2), определяемых:
:
\begin{align}
R_1(\lambda) &= \exp\left(-\text{KL}(P \Vert R_\lambda)\right)\\
R_2(\lambda) &= \exp\left(-\text{KL}(Q \Vert R_\lambda)\right)
\end{align}
где \text{KL}() относится к расхождению Кульбака-Лейблера. MAUVE — это интеграл этой кривой, дающий единственное скалярное значение от 0 до 1. Более высокий балл MAUVE указывает на то, что модельное распределение Q больше похоже на человеческое распределение P.
==Сравнение с другими показателями==
==Преимущества==
MAUVE продемонстрировал гораздо более высокую корреляцию с человеческим суждением в таких задачах, как генерация веб-текста, по сравнению с более ранними показателями. Он эффективно решает проблему «самоповторения», когда модели застревают в циклах.
==Ограничения==
Этот показатель требует большого размера выборки (часто более 1000 поколений), чтобы обеспечить стабильную оценку распределения. Это также требует больших вычислительных затрат, поскольку требует запуска большой модели для создания вложений и выполнения кластеризации.
* [https://github.com/krishnap25/mauve Официальная реализация на GitHub]
Искусственный интеллект
Языковое моделирование
Обработка естественного языка
Машинное обучение
Подробнее: https://en.wikipedia.org/wiki/MAUVE_(metric)
'''MAUVE''' — это метрика для автоматической оценки качества открытой генерации естественного языка|генерации текста. Разработанный исследователями из Вашингтонского университета, Института искусственного интеллекта Аллена и Стэнфордского университета, он был впервые представлен на NeurIPS 2021, где получил награду за выдающуюся работу.
В отличие от более ранних показателей, таких как BLEU или ROUGE (metric)|ROUGE, которые основаны на перекрытии n-грамм между кандидатом и ссылкой, MAUVE измеряет, насколько близко распределение сгенерированного текста к распределению написанного человеком текста в многомерном пространстве встраивания.
==Фон==
Оценка открытого поколения (например, создания истории или длинного диалога) чрезвычайно сложна. Традиционные метрики наказывают «творческие», но обоснованные отклонения от единого справочного текста. Кроме того, модели нейронного языка часто страдают от таких проблем, как повторяющиеся циклы или отсутствие согласованности на больших расстояниях, которую не могут уловить n-граммные метрики.
MAUVE был разработан так, чтобы более точно соответствовать человеческим суждениям о «качестве» и «разнообразии», рассматривая оценку текста как сравнение двух вероятностных распределений: распределения написанного человеком текста (P) и распределения текста, сгенерированного машиной (Q).
==Методология==
Расчет MAUVE включает три основных этапа:
# Встраивание: большие объемы текста, сгенерированного человеком и машиной, отображаются в векторное пространство с использованием предварительно обученного преобразователя (модель машинного обучения)|модель преобразователя.
# Квантование: непрерывные вложения группируются в конечный набор кодовых слов k с использованием кластеризации k-средних для формирования дискретных распределений.
# Граница дивергенции: метрика вычисляет компромисс между ошибками типа I и типа II (точность и полнота) между двумя распределениями с использованием расхождения Кульбака-Лейблера.
===Математическое определение===
MAUVE основан на площади под границей дивергенции. Для параметра смешивания \lambda\in(0, 1) распределение смеси определяется как:
: R_\lambda = \lambda P + \left(1 - \lambda\right) Q
Граница состоит из точек (R_1, R_2), определяемых:
:
\begin{align}
R_1(\lambda) &= \exp\left(-\text{KL}(P \Vert R_\lambda)\right)\\
R_2(\lambda) &= \exp\left(-\text{KL}(Q \Vert R_\lambda)\right)
\end{align}
где \text{KL}() относится к расхождению Кульбака-Лейблера. MAUVE — это интеграл этой кривой, дающий единственное скалярное значение от 0 до 1. Более высокий балл MAUVE указывает на то, что модельное распределение Q больше похоже на человеческое распределение P.
==Сравнение с другими показателями==
==Преимущества==
MAUVE продемонстрировал гораздо более высокую корреляцию с человеческим суждением в таких задачах, как генерация веб-текста, по сравнению с более ранними показателями. Он эффективно решает проблему «самоповторения», когда модели застревают в циклах.
==Ограничения==
Этот показатель требует большого размера выборки (часто более 1000 поколений), чтобы обеспечить стабильную оценку распределения. Это также требует больших вычислительных затрат, поскольку требует запуска большой модели для создания вложений и выполнения кластеризации.
* [https://github.com/krishnap25/mauve Официальная реализация на GitHub]
Искусственный интеллект
Языковое моделирование
Обработка естественного языка
Машинное обучение
Подробнее: https://en.wikipedia.org/wiki/MAUVE_(metric)
Мобильная версия