Алгоритм актер-критикВасина Википедия

Новости с планеты OGLE-2018-BLG-0677
Что вы не только не знали, но и не хотели знать
Автор темы
wiki_en
Всего сообщений: 94221
Зарегистрирован: 16.01.2024
 Алгоритм актер-критик

Сообщение wiki_en »

Алгоритм «актёр-критик» (AC) — это семейство алгоритмов обучения с подкреплением (RL), которые сочетают в себе алгоритмы RL на основе политик и ценностей. Он состоит из двух основных компонентов: «актера», который определяет, какие действия следует предпринять в соответствии с функцией политики, и «критика», который оценивает эти действия в соответствии с функцией ценности.
Алгоритмы AC являются одним из основных семейств алгоритмов, используемых в современном RL.
== Обзор ==

Метод субъекта-критика принадлежит к семейству методов градиента политики | методов градиента политики, но решает проблему высокой дисперсии за счет включения аппроксиматора функции ценности (критика). Актор использует политическую функцию \pi(a|s), в то время как критик оценивает либо функцию значения V(s), либо Q-функцию действия-значения Q(s,a)
, функция преимущества A(s,a) или любая их комбинация.

Цель оптимизации политики — найти некоторый \theta, который максимизирует ожидаемое эпизодическое вознаграждение J(\theta):
J(\theta) = \mathbb{E}_{\pi_\theta}[\sum_{t=0}^{T} \gamma^t r_t]
где
\гамма
— коэффициент дисконтирования,
р_т
— награда на шаге
т
и
Т
— временной горизонт (который может быть бесконечным).

Целью метода политического градиента является оптимизация J(\theta) с помощью градиентного спуска|градиентного подъема.

== Варианты ==

* '''Преимущество актера-критика (A2C)''': вместо ошибки TD используется функция преимущества. * '''Асинхронное преимущество актера-критика (A3C)''': Параллельные вычисления|Параллельная и асинхронная версия A2C.
* '''Soft Actor-Critic (SAC)''': включает максимизацию энтропии для улучшения исследования. * '''Глубокий детерминированный политический градиент (DDPG)''': предназначен для пространств непрерывного действия. * '''Обобщенная оценка преимуществ (GAE)''': вводит гиперпараметр
\лямбда
, который плавно интерполирует результаты Монте-Карло (
\лямбда = 1
, высокая дисперсия, отсутствие смещения) и одноэтапное обучение по временной разнице|TD-обучение (
\лямбда = 0
, низкая дисперсия, высокая погрешность). Этот гиперпараметр можно настроить, чтобы выбрать оптимальный компромисс между смещением и дисперсией при оценке преимущества. Он использует экспоненциально убывающее среднее значение доходности за n шагов с
\лямбда
— сила распада.
== См. также ==
* Обучение с подкреплением
* Метод градиента политики
* Глубокое обучение с подкреплением

* * * *
Обучение с подкреплением
Алгоритмы машинного обучения
Искусственный интеллект

Подробнее: https://en.wikipedia.org/wiki/Actor-critic_algorithm
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ, комментарий, отзыв

Изменение регистра текста: 
Смайлики
:) :( :oops: :chelo: :roll: :wink: :muza: :sorry: :angel: :read: *x) :clever:
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Джон Кеннет Паранада (художественный критик)
    wiki_en » » в форуме Васина Википедия
    0 Ответы
    10 Просмотры
    Последнее сообщение wiki_en
  • Матричный/тензорный алгоритм
    wiki_en » » в форуме Васина Википедия
    0 Ответы
    185 Просмотры
    Последнее сообщение wiki_en
  • Коллапс волновой функции (алгоритм)
    wiki_en » » в форуме Васина Википедия
    0 Ответы
    176 Просмотры
    Последнее сообщение wiki_en
  • Алгоритм разрыва строки Кнута-Пласса
    wiki_en » » в форуме Васина Википедия
    0 Ответы
    96 Просмотры
    Последнее сообщение wiki_en
  • Алгоритм поисковой системы
    wiki_en » » в форуме Васина Википедия
    0 Ответы
    426 Просмотры
    Последнее сообщение wiki_en