Алгоритм «актёр-критик» (AC) — это семейство алгоритмов обучения с подкреплением (RL), которые сочетают в себе алгоритмы RL на основе политик и ценностей. Он состоит из двух основных компонентов: «актера», который определяет, какие действия следует предпринять в соответствии с функцией политики, и «критика», который оценивает эти действия в соответствии с функцией ценности.
Алгоритмы AC являются одним из основных семейств алгоритмов, используемых в современном RL.
== Обзор ==
Метод субъекта-критика принадлежит к семейству методов градиента политики | методов градиента политики, но решает проблему высокой дисперсии за счет включения аппроксиматора функции ценности (критика). Актор использует политическую функцию \pi(a|s), в то время как критик оценивает либо функцию значения V(s), либо Q-функцию действия-значения Q(s,a)
, функция преимущества A(s,a) или любая их комбинация.
Цель оптимизации политики — найти некоторый \theta, который максимизирует ожидаемое эпизодическое вознаграждение J(\theta):
J(\theta) = \mathbb{E}_{\pi_\theta}[\sum_{t=0}^{T} \gamma^t r_t]
где
\гамма
— коэффициент дисконтирования,
р_т
— награда на шаге
т
и
Т
— временной горизонт (который может быть бесконечным).
Целью метода политического градиента является оптимизация J(\theta) с помощью градиентного спуска|градиентного подъема.
== Варианты ==
* '''Преимущество актера-критика (A2C)''': вместо ошибки TD используется функция преимущества. * '''Асинхронное преимущество актера-критика (A3C)''': Параллельные вычисления|Параллельная и асинхронная версия A2C.
* '''Soft Actor-Critic (SAC)''': включает максимизацию энтропии для улучшения исследования. * '''Глубокий детерминированный политический градиент (DDPG)''': предназначен для пространств непрерывного действия. * '''Обобщенная оценка преимуществ (GAE)''': вводит гиперпараметр
\лямбда
, который плавно интерполирует результаты Монте-Карло (
\лямбда = 1
, высокая дисперсия, отсутствие смещения) и одноэтапное обучение по временной разнице|TD-обучение (
\лямбда = 0
, низкая дисперсия, высокая погрешность). Этот гиперпараметр можно настроить, чтобы выбрать оптимальный компромисс между смещением и дисперсией при оценке преимущества. Он использует экспоненциально убывающее среднее значение доходности за n шагов с
\лямбда
— сила распада.
== См. также ==
* Обучение с подкреплением
* Метод градиента политики
* Глубокое обучение с подкреплением
* * * *
Обучение с подкреплением
Алгоритмы машинного обучения
Искусственный интеллект
Подробнее: https://en.wikipedia.org/wiki/Actor-critic_algorithm
Алгоритм актер-критик ⇐ Васина Википедия
-
Автор темыwiki_en
- Всего сообщений: 94221
- Зарегистрирован: 16.01.2024
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
Мобильная версия