В нейронной сети (машинное обучение)|нейронных сетях «механизм шлюзования» является архитектурным мотивом для управления потоком сигналов активации и градиента. Они наиболее широко используются в рекуррентных нейронных сетях (RNN), но также нашли применение и в других архитектурах.
== RNN ==
Механизмы вентилирования являются центральным элементом блока долговременной краткосрочной памяти|длинной краткосрочной памяти (LSTM).
Рекуррентный блок Gated (GRU) упрощает LSTM.
== Другие архитектуры ==
Механизмы шлюзования применялись и к другим нейронным архитектурам.
'''Шлюз канала'''
'''Закрытые сверточные сети'''
=== Линейный блок с затвором ===
«Gated Linear Units (GLU)» адаптирует механизм стробирования для использования в нейронных сетях с прямой связью | сетях с прямой связью, часто в Transformer (архитектура глубокого обучения) | Архитектуры на основе трансформатора. Они определяются как:
\mathrm{GLU}(a, b)=a \odot \sigma(b)
где a — это первая половина входных матриц, а b — вторая половина. \sigma представляет собой сигмовидную функцию|сигмовидную функцию активации. Варианты GLU используют альтернативные функции активации|функции активации, что приводит к таким изменениям, как:
\begin{aligned}
\mathrm{ReGLU}(a, b) &= a \odot \text{ReLU}(b)\\
\mathrm{GEGLU}(a, b) &= a \odot \text{GELU}(b)\\
\mathrm{SwiGLU}(a, b, \beta) &= a \odot \text{Swish}_\beta(b)
\end{aligned}
где ReLU, GELU и Swish — разные функции активации (определения см. на странице).
В трансформаторах такие вентильные элементы часто используются в модулях прямой связи. Для одного векторного ввода это приводит к следующему:
\begin{aligned
\operatorname{GLU}(x, W, V, b, c) & =\sigma(x W+b) \odot(x V+c) \\
\operatorname{Билинейный}(x, W, V, b, c) & =(x W+b) \odot(x V+c) \\
\operatorname{ReGLU}(x, W, V, b, c) & =\max (0, x W+b) \odot(x V+c) \\
\operatorname{GEGLU}(x, W, V, b, c) & =\operatorname{GELU}(x W+b) \odot(x V+c) \\
\operatorname{SwiGLU}(x, W, V, b, c, \beta) & =\operatorname{Swish}_\beta(x W+b) \odot(x V+c)
\end{aligned}
== См. также ==
* Рекуррентная нейронная сеть
* Длинная кратковременная память
* Закрытый рекуррентный блок
* Трансформер (архитектура глубокого обучения)|Трансформер
* Функция активации
== Дальнейшее чтение ==
*
Архитектуры нейронных сетей
Подробнее: https://en.wikipedia.org/wiki/Gating_mechanism
Механизм ворот ⇐ Васина Википедия
-
Автор темыwiki_en
- Всего сообщений: 94291
- Зарегистрирован: 16.01.2024
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
Мобильная версия