Модель языка рассужденийВасина Википедия

Новости с планеты OGLE-2018-BLG-0677
Что вы не только не знали, но и не хотели знать
Ответить Пред. темаСлед. тема
Автор темы
wiki_en
Всего сообщений: 77124
Зарегистрирован: 16.01.2024
 Модель языка рассуждений

Сообщение wiki_en »

«Модели языка рассуждения» — это системы искусственного интеллекта, которые сочетают обработку естественного языка с возможностями структурированного рассуждения. Эти модели обычно создаются с помощью быстрого проектирования | подсказок, точной настройки (глубокого обучения) | контролируемой точной настройки (SFT) и обучения с подкреплением (RL), инициализируемого с помощью предварительно обученной языковой модели | предварительно обученных языковых моделей.

== Подсказка ==
Языковая модель — это генеративная модель обучающего набора данных текстов. Подсказка означает создание текстовой подсказки, при которой языковая модель в зависимости от текстовой подсказки генерирует решение задачи. Подсказки можно применять к предварительно обученной модели («базовой модели»), базовой модели, подвергшейся SFT, RL или тому и другому.
=== Цепочка мыслей ===
Подсказка по цепочке мыслей (CoT) побуждает модель ответить на вопрос, сначала создавая «цепочку мыслей», то есть шаги рассуждения, имитирующие ход мыслей. \text{Input} \rightarrow \underbrace{\text{Step}_1 \rightarrow \text{Step}_2 \rightarrow \cdots \rightarrow \text{Step}_n}_{\text{Цепочка рассуждений \rightarrow \text{Ответ Аналогично, подсказка «Древо мысли» обобщает CoT, предлагая модели сгенерировать один или несколько «возможных следующих шагов», а затем запуская модель на каждом из возможных следующих шагов с помощью поиска в ширину | в ширину, Beam search|beam или какой-либо другой метод поиска по дереву.
Декодирование самосогласованности выполняет несколько последовательных развертываний, а затем выбирает наиболее часто встречающийся вывод из всех развертываний.
=== Генерация с расширенным поиском ===
Языковая модель может ответить на запрос, сначала запросив базу данных документов с использованием запроса. Поиск документа может осуществляться через векторную базу данных, сводный индекс, древовидный индекс или индекс таблицы ключевых слов.
=== Использование инструмента ===
Языковые модели могут выполнять длинные шаги рассуждения, вызывая внешние методы, такие как числовые рецепты, программные интерпретаторы, вызовы API и т. д. Это можно быстро спроектировать, описав внешние методы в контексте (пример контекстного обучения) или точно настроить в модели.
== Контролируемая точная настройка ==
Базовую модель можно точно настроить на наборе данных задач рассуждения с примерами решений и трассировками рассуждений. Затем настроенная модель сможет генерировать логические следы для решения конкретной проблемы.
== Обучение с подкреплением ==
Предварительно обученная языковая модель может быть дополнительно обучена с помощью RL. В формализме RL генеративная языковая модель представляет собой «политику» \pi. Подсказка, определяющая задачу, которую необходимо решить, представляет собой «состояние» среды x, а ответ языковой модели на подсказку представляет собой «действие» y< /математика>. Вероятность того, что языковая модель ответит на x y, равна \pi(y|x).

Обучение модели языка рассуждений с помощью RL затем состоит из построения «модели вознаграждения» r(x, y) для управления процессом RL. Интуитивно, модель вознаграждения описывает, насколько желателен/подходящим/хорошим является ответ на подсказку. В модели языка рассуждения подсказка описывает задачу рассуждения, и награда будет высокой, если ответ решит задачу, и низкой, если ответ не сможет решить задачу.

Для моделей языка рассуждений ответ модели y может быть разбит на несколько шагов, и в этом случае он записывается как y_1, y_2, \dots, y_n.

=== Модель вознаграждения за результат ===

Модель вознаграждения за результат, или RM с контролем за результатом (ORM),  — это модель вознаграждения, которая вычисляет вознаграждение за шаг r(x, y_1, \dots, y_i) определяется окончательным ответом: r(x, y_1, \dots, y_i) = r(x, y_n). Их еще называют «верификаторами».

Для задач с ответом, который легко проверить, например, словесная задача (математическое образование)|словные задачи по математике, награда за результат может быть просто двоичной: 1, если окончательный ответ правильный, и 0 в противном случае. Если ответ нелегко проверить программно, люди могут вручную пометить ответы как правильные или нет, а затем эти метки можно использовать для точной настройки базовой модели, которая предсказывает человеческую метку.
=== Модель вознаграждения процесса ===
Модель вознаграждения процесса, или RM под контролем процесса (PRM),  — это модель вознаграждения, которая вычисляет вознаграждение за шаг r(x, y_1, \dots, y_i) определяется шагами на данный момент: (x, y_1, \dots, y_i).

Учитывая частичный след мышления x, y_1, \dots, y_m, человека можно спросить, верны ли шаги «на данный момент», независимо от того, будет ли окончательный ответ правильным. Затем это можно использовать в качестве двоичного сигнала вознаграждения. Поскольку человеческие метки стоят дорого, базовую модель можно настроить для прогнозирования человеческих меток.

== Приложения ==
Быстрое проектирование было обнаружено в GPT-3 как «обучение за несколько шагов»,
== См. также ==
* Генеративный предварительно обученный трансформатор
* Нейро-символический ИИ
* Автоматическое доказательство теорем
* Автоматизированное рассуждение
* Большая языковая модель

* *
Искусственный интеллект
Обработка естественного языка
Машинное обучение
Большие языковые модели

Подробнее: https://en.wikipedia.org/wiki/Reasoning_language_model
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ, комментарий, отзыв

Изменение регистра текста: 
Смайлики
:) :( :oops: :chelo: :roll: :wink: :muza: :sorry: :angel: :read: *x) :clever:
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение