«Модели языка рассуждения» — это системы искусственного интеллекта, которые сочетают обработку естественного языка с возможностями структурированного рассуждения. Эти модели обычно создаются с помощью быстрого проектирования | подсказок, точной настройки (глубокого обучения) | контролируемой точной настройки (SFT) и обучения с подкреплением (RL), инициализируемого с помощью предварительно обученной языковой модели | предварительно обученных языковых моделей.
== Подсказка ==
Языковая модель — это генеративная модель обучающего набора данных текстов. Подсказка означает создание текстовой подсказки, при которой языковая модель в зависимости от текстовой подсказки генерирует решение задачи. Подсказки можно применять к предварительно обученной модели («базовой модели»), базовой модели, подвергшейся SFT, RL или тому и другому.
=== Цепочка мыслей ===
Подсказка по цепочке мыслей (CoT) побуждает модель ответить на вопрос, сначала создавая «цепочку мыслей», то есть шаги рассуждения, имитирующие ход мыслей. \text{Input} \rightarrow \underbrace{\text{Step}_1 \rightarrow \text{Step}_2 \rightarrow \cdots \rightarrow \text{Step}_n}_{\text{Цепочка рассуждений \rightarrow \text{Ответ Аналогично, подсказка «Древо мысли» обобщает CoT, предлагая модели сгенерировать один или несколько «возможных следующих шагов», а затем запуская модель на каждом из возможных следующих шагов с помощью поиска в ширину | в ширину, Beam search|beam или какой-либо другой метод поиска по дереву.
Декодирование самосогласованности выполняет несколько последовательных развертываний, а затем выбирает наиболее часто встречающийся вывод из всех развертываний.
=== Генерация с расширенным поиском ===
Языковая модель может ответить на запрос, сначала запросив базу данных документов с использованием запроса. Поиск документа может осуществляться через векторную базу данных, сводный индекс, древовидный индекс или индекс таблицы ключевых слов.
=== Использование инструмента ===
Языковые модели могут выполнять длинные шаги рассуждения, вызывая внешние методы, такие как числовые рецепты, программные интерпретаторы, вызовы API и т. д. Это можно быстро спроектировать, описав внешние методы в контексте (пример контекстного обучения) или точно настроить в модели.
== Контролируемая точная настройка ==
Базовую модель можно точно настроить на наборе данных задач рассуждения с примерами решений и трассировками рассуждений. Затем настроенная модель сможет генерировать логические следы для решения конкретной проблемы.
== Обучение с подкреплением ==
Предварительно обученная языковая модель может быть дополнительно обучена с помощью RL. В формализме RL генеративная языковая модель представляет собой «политику» \pi. Подсказка, определяющая задачу, которую необходимо решить, представляет собой «состояние» среды x, а ответ языковой модели на подсказку представляет собой «действие» y< /математика>. Вероятность того, что языковая модель ответит на x y, равна \pi(y|x).
Обучение модели языка рассуждений с помощью RL затем состоит из построения «модели вознаграждения» r(x, y) для управления процессом RL. Интуитивно, модель вознаграждения описывает, насколько желателен/подходящим/хорошим является ответ на подсказку. В модели языка рассуждения подсказка описывает задачу рассуждения, и награда будет высокой, если ответ решит задачу, и низкой, если ответ не сможет решить задачу.
Для моделей языка рассуждений ответ модели y может быть разбит на несколько шагов, и в этом случае он записывается как y_1, y_2, \dots, y_n.
=== Модель вознаграждения за результат ===
Модель вознаграждения за результат, или RM с контролем за результатом (ORM), — это модель вознаграждения, которая вычисляет вознаграждение за шаг r(x, y_1, \dots, y_i) определяется окончательным ответом: r(x, y_1, \dots, y_i) = r(x, y_n). Их еще называют «верификаторами».
Для задач с ответом, который легко проверить, например, словесная задача (математическое образование)|словные задачи по математике, награда за результат может быть просто двоичной: 1, если окончательный ответ правильный, и 0 в противном случае. Если ответ нелегко проверить программно, люди могут вручную пометить ответы как правильные или нет, а затем эти метки можно использовать для точной настройки базовой модели, которая предсказывает человеческую метку.
=== Модель вознаграждения процесса ===
Модель вознаграждения процесса, или RM под контролем процесса (PRM), — это модель вознаграждения, которая вычисляет вознаграждение за шаг r(x, y_1, \dots, y_i) определяется шагами на данный момент: (x, y_1, \dots, y_i).
Учитывая частичный след мышления x, y_1, \dots, y_m, человека можно спросить, верны ли шаги «на данный момент», независимо от того, будет ли окончательный ответ правильным. Затем это можно использовать в качестве двоичного сигнала вознаграждения. Поскольку человеческие метки стоят дорого, базовую модель можно настроить для прогнозирования человеческих меток.
== Приложения ==
Быстрое проектирование было обнаружено в GPT-3 как «обучение за несколько шагов»,
== См. также ==
* Генеративный предварительно обученный трансформатор
* Нейро-символический ИИ
* Автоматическое доказательство теорем
* Автоматизированное рассуждение
* Большая языковая модель
* *
Искусственный интеллект
Обработка естественного языка
Машинное обучение
Большие языковые модели
Подробнее: https://en.wikipedia.org/wiki/Reasoning_language_model
Модель языка рассуждений ⇐ Васина Википедия
-
Автор темыwiki_en
- Всего сообщений: 77124
- Зарегистрирован: 16.01.2024
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение