гиена
== '' 'Мотивация и контекст' '' ==
Традиционный трансформатор (архитектура глубокого обучения) | Модели трансформаторов полагаются на самопричастое (машинное обучение) | Внимание, чтобы позволить каждому токен в последовательности взаимодействовать с любым другим токеном. Although this mechanism is highly effective for capturing dependencies, its computational cost scales quadratically (O(L^2)) with the sequence length L. This quadratic scaling creates significant challenges when processing long sequences, such as entire documents, long time series, or high-resolution images.
Необходимость в более эффективных моделях, которые могут обрабатывать долгосрочные зависимости, заверяет исследователей, которые изучали альтернативы, которые уменьшают потребности в вычислительных условиях и памяти. Модель гиены была введена в качестве замены внедрения для самостоятельного приспособления, стремясь поддерживать глобальное восприимчивое поле и выразительную силу внимания при масштабировании субвадратически с длиной последовательности.
== '' 'Architecture' '==
В основе модели гиены лежит концепция неявной длинной свертывания | Своения. Традиционные свертки используют фиксированные ядра, которые явно определены и хранятся, что приводит к количеству параметров, которые линейно масштабируются с размером ядра. Напротив, гиена генерирует сверточные фильтры неявно, используя параметризованную функцию-типично реализованную в виде небольшой нейронной сети с прямой связью | Сеть подачи. Это позволяет модели синтезировать длинные фильтры на лету, эффективно отделяя длину фильтра от количества параметров.
В дополнение к неявным сверхам, оператор гиены включает в себя мультипликативное стробирование, контролируемое данными. В этом механизме каждый токен модулируется с помощью стробирования сигналов, которые получены из изученных линейных проекций ввода. Операция стробирования выполняется по элементу и служит для динамической корректировки влияния сверточного выхода, эффективно адаптируя оператора к конкретному контексту ввода.
Общий оператор гиены определяется как рецидив, который чередуется между неявными длинными сознаниями и элементом стробирования. Для оператора HORDE-N HYENA рецидив выражается следующим образом:
# Z_1 [t] = v [t] , где v является одной из линейных проекций ввода.
# Для n = 1, \ dots, n < /math>:
#* Z_ {n+1} [t] = x_n [t] \ cdot \ bigl ((h_n \ ast z_n) [t] \ bigr) , где x_n представляет собой проекцию управления и h_n является ошибочным параметризованным фильтрацией. # Окончательный вывод определяется как y [t] = z_ {n+1} [t] < /math>.
, где
* z_n [t] - это промежуточное состояние на этапе рецидива n и временной позиции t .
* v [t] -линейная проекция ввода в положении времени t , аналогично «значению» в самостоятельном примере.
* x_n [t] - проекция стробирования на этапе рецидива n .
* h_n - неявный длинный фильтр свертков для шага n .
* Оператор * обозначает свертку, так что (h_n * z_n) [t] является результатом концентрации фильтра h_n с сигналом z_n в момент времени .
. * Точка " \ cdot < /math>" указывает на умение элемента.
'' 'Математическая формулировка' '
Неявные фильтры свертки в гиене обычно параметризованы как функции времени. Для каждого фильтра h_n < /math> ответ в момент времени определяется:
h_n [t] = \ text {window} (t) \ cdot (\ text {ffn} \ circ \ text {plociallencoding}) (t) < /math>
, где \ circ является оператором композиции, что означает, что позиционное кодирование сначала применяется к t , а затем обрабатывается FFN.
Здесь функция окна служит для модуляции фильтра (например, путем наложения экспоненциального распада), а нейронная сеть с питанием | Сеть подачи (FFN) вместе с позиционными кодировками генерирует значения фильтра. Эта неявная параметризация является ключевым выбором конструкции, который позволяет гиену захватывать дальние зависимости без пропорционального увеличения количества параметров.
== '' 'эффективность и масштабируемость' '==
Заменив квадратичный самоотвратительный механизм на последовательность быстрого преобразования Фурье | Советание на основе FFT и умножения по элементу, оператор гиены достигает общей сложности времени o (nl \ log l) , где n -это число стадий повторяемости. Это субвадратическое масштабирование особенно выгодно для длинных последовательностей, что позволяет модели обрабатывать входы, которые на порядки более длины, чем те, которые возможны с обычным вниманием.
Операции в модели Hyena - как неявные сознания, так и функции стробирования - очень параллелизируемые и поддаются оптимизации современных аппаратных ускорителей. Такие методы, как быстрое преобразование Фурье | Быстрые преобразования Фурье (FFT) еще больше повышают эффективность, что делает модель хорошо подходящей для крупномасштабных применений, где как скорость, так и эффективность памяти имеют решающее значение.
== '' Сравнение с моделями трансформатора '' ==
В то время как трансформатор (архитектура глубокого обучения) | Модели трансформаторов используют самопринятое для достижения глобального восприимчивого поля, это происходит по цене квадратичной сложности по отношению к длине последовательности. Напротив, модель гиены достигает аналогичного глобального контекста посредством его повторения долгих свертков и стробирования, но с гораздо более низкими вычислительными затратами. Это делает гиену многообещающей альтернативой в настройках, где необходимо эффективно моделировать зависимости дальнего действия.
Подробнее: https://en.wikipedia.org/wiki/Hyena_Mod ... _learning)
Модель гиены (глубокое обучение) ⇐ Васина Википедия
-
Автор темыwiki_en
- Всего сообщений: 94689
- Зарегистрирован: 16.01.2024
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
Мобильная версия