Схема (нейронная сеть)

wiki_en · Сообщение **wiki_en** » 23 мар 2026, 14:11

«Схема нейронной сети» (также известная как «искусственная нейронная цепь» или просто «схема») — это концептуальный и вычислительный подграф внутри искусственной нейронной сети, основанный на «функциях» низкого уровня и выполняющий определенную интерпретируемую функцию. Исследование искусственных цепей, вдохновленное биологическими нейронными цепями и служащее их родственником, является основным направлением деятельности в области механистической интерпретируемости. Исследователи стремятся перепроектировать модели глубокого обучения «черного ящика», идентифицируя их фундаментальные переменные, известные как функции, и математические веса, связывающие их. Сопоставляя эти схемы, исследователи могут понять, как модели обрабатывают информацию, демонстрируют возникающее поведение и генерируют конкретные результаты.

== Предыстория и биологическое вдохновение ==

В нейробиологии биологическая нейронная цепь — это совокупность взаимосвязанных нейронов, которые при активации выполняют определенную физиологическую функцию, например, рефлекторную дугу или детектор зрительных границ. Аналогично, в искусственных нейронных сетях схема представляет собой определенный подграф компонентов сети (таких как нейроны, внимание (машинное обучение) | внимание или определенные направления в пространстве активации), которые работают вместе для вычисления понятного человеку алгоритмического поведения.

Исследователи искусственного интеллекта используют математические инструменты, такие как обучение по словарям и разреженные автокодировщики, чтобы исследовать «анатомию» искусственных моделей. Исследователи из Anthropic формализовали эту метафору, утверждая, что, хотя Большая языковая модель | Большие языковые модели (LLM) создаются с помощью простых алгоритмов обучения, возникающие внутренние механизмы напоминают сложность живых организмов, созданных эволюцией. Применяя «отслеживание цепей» и создавая «графики атрибуции», исследователи могут анализировать поэтапные когнитивные процессы этих моделей, наблюдая, как различные внутренние цепи взаимодействуют для достижения конечного результата.
== Основные понятия ==

Концептуальная основа нейронных сетей была тщательно формализована Крисом Олахом и его сотрудниками. В статье 2020 года «Увеличение: введение в схемы» , авторы предложили три основных утверждения относительно искусственных нейронных сетей, первоначально сосредоточившись на сверточных нейронных сетях (CNN), используемых в компьютерном зрении | моделях зрения:
* '''Функции являются фундаментальной единицей сетей:''' Вместо того, чтобы анализировать отдельные, очень «многосемантические» нейроны (нейроны, которые активируются в ответ на множество несвязанных понятий из-за явления, известного как суперпозиция (машинное обучение)|суперпозиция), исследователи должны идентифицировать «особенности». Признаки — это интерпретируемые однозначные свойства входных данных.
* '''Функции связаны весами:''' Нейронная сеть изучает математические связи (веса) между этими функциями.
* '''Функции образуют схемы:''' Функции раннего уровня (такие как детекторы краев, кривой или высоко-низких частот) объединяются посредством изученных весов в более глубокие и сложные функции (такие как детектор «головы собаки» или «колеса автомобиля»), образуя понятную схему.

== Трансформаторные схемы ==

С появлением архитектуры Transformer (модель машинного обучения) | трансформатора фокус исследований схемотехники в значительной степени сместился с моделей машинного зрения на LLM. Антропический документ 2021 года «Математическая основа трансформаторных схем»
Ключевые компоненты трансформаторных схем включают в себя:

* '''Остаточный поток:''' Рассматривается как центральный канал связи сети. Уровни читают и записывают в этот поток, накапливая информацию по всей глубине сети.
* «Головки внимания как независимые схемы». Каждую головку внимания можно разложить на схему Query-Key (QK), которая определяет, «куда» модель смотрит в контекстном окне, и схему выходного значения (OV), которая определяет, «какая» информация извлекается и записывается обратно в остаточный поток.
* '''Индукционные головки:''' Хорошо документированный тип трансформаторной схемы, состоящий из двух головок внимания, работающих последовательно. Они в первую очередь отвечают за контекстное обучение и способность модели распознавать и продолжать текст.

По мере масштабирования языковых моделей схемы внутри них становятся все более сложными. Современные методы трассировки цепей позволяют исследователям отображать промежуточные вычислительные шаги, которые выполняет LLM. Например, исследователи выявили многоязычные схемы, схемы сложения и даже схемы «планирования», которые позволяют модели предварительно выбирать рифмующиеся слова перед созданием стихотворной строки.

== Приложения ==

Понимание схем нейронных сетей считается важнейшим шагом в обеспечении безопасности ИИ и его согласованности. Разлагая неинтерпретируемые модели на прозрачные схемы, исследователи надеются:

'''Аудит на предмет предвзятости и безопасности:''' Убедитесь, что модели не полагаются на вредные стереотипы, ошибочную эвристику или обманчивую логику для получения своих выводов.
'''Прогнозируйте возникающие возможности:''' Поймите, как и когда модели приобретают продвинутые навыки. Например, внезапное формирование цепей индукционной головки во время обучения напрямую коррелирует с внезапным улучшением модели в контекстном обучении.
'''Редактирование и управление моделями:''' Непосредственное вмешательство в схему для изменения поведения модели без необходимости тщательного переобучения или точной настройки (глубокого обучения)|тонкой настройки.

Например, процесс снятия цензуры модели с помощью «Аблации (искусственного интеллекта)|аблитерации» включает в себя сначала обнаружение того, какая «функция» соответствует нежелательному поведению (называемого «направлением отказа»), а затем ослабление активации этой функции.
== Открытия ==

В исследовании Anthropic с Claude 3.5 Haiku, используя графы атрибуции для активации и подавления цепей, они пришли к выводу, что Claude 3.5:

* «Использует чрезвычайно общие абстракции»
* Формирует «внутренние планы будущих результатов»
* «Работает в обратном направлении от своих долгосрочных целей»
* Функционально «по-видимому, можно точно описать только с помощью чрезвычайно большого причинно-следственного графа».
* Включает «механизмы, которые могут лежать в основе простой формы метапознания»

== См. также ==
Механистическая интерпретируемость
Искусственная нейронная сеть
Нейронная цепь
Объяснимый искусственный интеллект
Трансформер (модель машинного обучения)

Подробнее: https://en.wikipedia.org/wiki/Circuit_(neural_network)

Схема (нейронная сеть)

Схема (нейронная сеть) ⇐ Васина Википедия

Быстрый ответ