Сеть Колмогорова-Арнольда (или KAN) — это нейронная сеть, которая обучается путем изучения функции активации в каждом узле, а не веса на каждом ребре, как в традиционный многослойный перцептрон. Это практическое применение теоремы о представлении Колмогорова–Арнольда.
== Описание ==
По теореме о представлении Колмогорова–Арнольда функция f может быть сколь угодно хорошо аппроксимирована в представлении
: f(\mathbf x) = f(x_1,\ldots ,x_n) = \sum_{q=0}^{2n} \Phi_{q}\!\left(\sum_{p=1}^ {n} \phi_{q,p}(x_{p})\right) .
с подходящими значениями функций \phi_{q,p}\colon[0,1]\to \R и \Phi_{q}\colon \R \to \R. Чтобы создать глубокую сеть, KAN расширяет ее до графа таких представлений:
: f(\mathbf x) = \sum_{i_{L-1}=1}^{n_{L-1 \phi_{L-1,i_L,i_{L-1 \left( \sum_{ i_{L-2}=1}^{n_{L-2 \cdots \left( \sum_{i_0=1}^{n_0} \phi_{0, i_1, i_0}(x_{i_0}) \right) \право)
где каждый \phi_{l,i,j} представляет собой обучаемый B-сплайн. Поскольку это представление является дифференцируемой функцией|дифференцируемой, значения можно узнать с помощью любого стандартного метода обратного распространения ошибки.
Для регуляризации норма L1 функции активации сама по себе недостаточна. Чтобы сохранить разреженность сети|разреженность сети и предотвратить переобучение, используется дополнительный термин энтропии S введено для каждого слоя \Phi:
Линейная комбинация этих условий и нормы L1 по всем слоям приводит к эффективному штрафу за регуляризацию. Такое разреженное представление помогает глубокой сети преодолеть проклятие размерности.
== Свойства ==
Количество параметров в таком представлении равно O(N^2 L G), где N — выходное измерение, L — глубина сеть, а G — количество интервалов, в которых определяется каждый сплайн. Может показаться, что это больше, чем параметры O(N^2 L), необходимые для обучения многослойного перцептрона глубины L и выходной размерности N ; однако Лю и др. утверждают, что в научных областях KAN может достичь эквивалентной производительности с меньшим количеством параметров, поскольку многие естественные функции можно эффективно разложить на сплайны.
Было показано, что KAN хорошо справляются с задачами теории узлов и физики (например, локализацией Андерсона), хотя они еще не масштабированы для языковых моделей.
== История ==
Вычисление оптимального представления Колмогорова-Арнольда для заданной функции было исследовательской задачей, по крайней мере, с 1993 года.
Совсем недавно был предложен алгоритм глубокого обучения для построения этих представлений с использованием операторов Урысона.
Термин «сеть Колмогорова-Арнольда» был введен Лю и др. в 2024 году, который обобщает сети до произвольной ширины и глубины и продемонстрировал высокую производительность на реалистичном классе многомерных функций, хотя обучение неэффективно.
Архитектуры нейронных сетей
Подробнее: https://en.wikipedia.org/wiki/Kolmogoro ... ld_Network
Сеть Колмогорова – Арнольда ⇐ Васина Википедия
-
Автор темыwiki_en
- Всего сообщений: 94666
- Зарегистрирован: 16.01.2024
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
Мобильная версия