'' 'Kolmogorov -Arnold Networks' '' (Kans) являются типом архитектуры искусственной нейронной сети, вдохновленной теоремой представления Колмогоров - Арнольд, также известной как теорема суперпозиции. В отличие от традиционных многослойных персептронов (MLP), которые полагаются на фиксированные функции активации и линейные веса, Kans заменяют каждый вес на обучаемую функцию одномерной, часто представленную с помощью сплайновой интерполяции | Splines.
== Архитектура ==
Канс основан на теореме представления Колмогоров - Арнольд, которая была связана с проблемами Гильберта#Проблема 13 | 13 -я проблема Гильберта.
Adward x = (x_1, x_2, \ dots, x_n) , состоящая из переменных '' n '', многомерная непрерывная функция f (x) может быть представлен как:
:
f (x) = f (x_1, \ dots, x__n) = \ sum_ {q = 1}^{2n+1} \ phi_q \ left (\ sum_ {p = 1}^{n} \ varphi_ {q, p} (x_p) \ right)
& nbsp; (1)
Эта формулировка содержит два вложенных суммирования: внешняя и внутренняя сумма. Внешняя сумма \ sum_ {q = 1}^{2n+1} агрегаты 2n+1 Условия, каждый из которых включает функцию \ phi_q: \ mathbb {r} \ to \ mathbb {r} .
Внутренняя сумма \ sum_ {p = 1}^n вычисляет '' n '' 'термины для каждого' 'q' '', где каждый термин \ varphi_ {q, p}: [0,1] \ to \ mathbb {r} - непрерывная функция единой переменной x_p .
Liu et al. предложил имя Kan. Общая сеть Кана, состоящая из слоев «L», требует «x», чтобы генерировать выход как:
: \ mathrm {kan} (x) = (\ phi^{l-1} \ circ \ phi^{l-2} \ circ \ cdots \ circ \ phi^{1} \ circ \ phi^{0}) x & nbsp; (3)
Здесь \ phi^{l} -это матрица функции слоя '' l ''-th kan или набор предварительных активаций.
Пусть '' i '' обозначает нейрон «L»-TH Layer и '' J '' Нейрон ('' L '' '+1) -кого слоя. Функция активации \ varphi^{l} _ {j, i} < /math> connects ('' l '', '' i '') to ('' l ''+1, '' j '' '):
: \ varphi^{l} _ {j, i}, \ Quad l = 0, \ dots, l-1, \; i = 1, \ dots, n_l, \; j = 1, \ dots, n_ {l+1} & nbsp; (4)
где '' n l '' '-это количество узлов «L»-TH.
Таким образом, матрица функции \ phi^{l} может быть представлена как n_ {l+1} \ times n_l Матрица активаций:
:
x^{l+1} =
\ begin {pmatrix}
\ varphi^{l} _ {1,1} (\ cdot) & \ varphi^{l} _ {1,2} (\ cdot) & \ cdots & \ varphi^{l} _ {1, n_l} (\ cdot) \\
\ varphi^{l} _ {2,1} (\ cdot) & \ varphi^{l} _ {2,2} (\ cdot) & \ cdots & \ varphi^{l} _ {2, n_l} (\ cdot) \\
\ vdots & \ vdots & \ ddots & \ vdots \\
\varphi^{l}_{n_{l+1},1}(\cdot) & \varphi^{l}_{n_{l+1},2}(\cdot) & \cdots & \varphi^{l}_{n_{l+1},n_l}(\cdot)
\ end {pmatrix}
< /math>
== Функции, используемые в kan ==
Выбор функциональной основы сильно влияет на производительность KANS. Семьи общей функции включают:
* B-Splines: обеспечить местность, плавность и интерпретацию; наиболее широко используется в текущих реализациях.
* Радиальная базисная функция | RBFS: захват локализованные функции в данных и эффективна в аппроксимировании функций с нелинейными или кластерными структурами. * Полиномы Chebyshev: предлагайте эффективное приближение с минимальной ошибкой в максимальной норме, что делает их полезными для стабильного представления функции. * Рациональные функции: полезны для аппроксимации функций с сингулярными или резкими вариациями, поскольку они могут моделировать асимптотическое поведение лучше, чем полиномы. * Серия Фурье: эффективно захватывает периодические закономерности и особенно полезны в таких областях, как машинное обучение, информированное по физике. * Вейвлет -функции =
== Использование ==
Каны обычно используются в качестве замены замены для слоев MLP в современных нейронных архитектурах, таких как сверточные нейронные сети (CNN), рецидивирующие нейронные сети (RNN) и трансформатор (модель машинного обучения) | Трансформеры. Исследователи применили их в различных задачах:
* Функциональная подгонка: Kans превосходит MLP аналогичного размера параметров в таких задачах, как подгонка символических формул или специальные функции.
* Решение уравнений по дифференциалам частично (PDE): двухслойный, 10-ширинный кан может превзойти четырехслойный, 100-ширинный MLP на два порядка как по точности, так и по эффективности параметров. * Непрерывное обучение: Kans лучше сохранить ранее изученную информацию во время постепенных обновлений, избегая катастрофического забывания - из -за локализации корректировок сплайна. * Научное открытие: из -за интерпретации изученных функций KAN использовались в качестве инструмента для заново открытия физических или математических законов.
* График Нейронные сети: расширения, такие как кольмогоров-арнольдские нейронные сети графиков (KA-GNNS), интегрируют модули KAN в архитектуры, передающие сообщения, показывая улучшения в задачах прогнозирования молекулярного свойства.
== См. Также ==
* Теорема представления Колмогоров - Арнольд
* Теорема универсального приближения
Искусственные нейронные сети
Глубокое обучение
Машинное обучение
Подробнее: https://en.wikipedia.org/wiki/Kolmogoro ... d_Networks
Колмогоров-Арнольд Сети ⇐ Васина Википедия
-
Автор темыwiki_en
- Всего сообщений: 95166
- Зарегистрирован: 16.01.2024
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
Мобильная версия