'' 'MultiModal Prevation Learning' '' - это подполет обучения функциям | Представление Обучение, сфокусированное на интеграции и интерпретации информации из различной модальности (взаимодействие человека с компанией) | Модальности, такие как текст, изображения, аудио или видео, проецируя их в общее скрытое пространство. Это позволяет семантически аналогичному контенту по методам модальностей быть отображенным с близлежащими точками в этом пространстве, что облегчает единое понимание различных типов данных.
== Мотивация ==
Основные мотивы для обучения мультимодальному представлению возникают из-за неотъемлемой природы реальных данных и ограничений унимодальных подходов. Поскольку мультимодальные данные предлагают дополнительную и дополнительную информацию об объекте или событии с разных точек зрения, это более информативно, чем полагаться на единую модальность. Ключевая мотивация - это сузить гетерогенный разрыв, который существует между различными методами, проецируя свои функции в общий семантический подпространство. Это позволяет семантически сходному контенту по модальностям быть представленным аналогичными векторами, облегчая понимание отношений и корреляций между ними. Обучение мультимодальному представлению направлено на использование уникальной информации, предоставляемой каждой модальностью для достижения более полного и точного понимания концепций.
Эти унифицированные представления имеют решающее значение для повышения производительности в различных задачах анализа кросс-медиа, таких как классификация видео, обнаружение событий и анализ настроений. Они также включают перекрестный поиск, позволяя пользователям искать и извлекать контент в разных методах.
== Подходы и методы ==
=== Методы на основе канонической корреляции, основанные на основе ===
Каноническая корреляция | Анализ канонической корреляции (CCA) был впервые введен в 1936 году Гарольдом Хотеллинг и w_y \ in \ mathbb {r}^q , что максимизирует корреляцию между прогнозируемыми переменными:
\ rho = \ max_ {w_x, w_y} \ frac {w_x^\ top \ sigma_ {xy} w_y} {\ sqrt {w_x^\ top \ sigma_ {xx} w_x} \ sqrt {w_y^\ sigma_ {yy} w_y> w_y> w_y < /w_y} w_y} w_y} w_y} w_y} w_y} w_y} w_y} \ sqrt {w_y^\ sigma_} w_x} \ sqrt {w_y^\ sigma_} w_x} \ sqrt {w_y^\ sigma_
Такова, что \ sigma_ {xx} и \ sigma_ {yy} являются ковариационными матрицами внутри модальности, а \ sigma_ {xy} -ковариация между модальности. Однако стандартный CCA ограничен своей линейностью, что привело к разработке нелинейных расширений, таких как CCA CCA и Deep CCA.
==== Ядра CCA ====
Анализ канонического корреляции ядра (KCCA) расширяет традиционную CCA для захвата нелинейных отношений между методами путем неявного отображения данных в высокоразмерные пространства признаков с использованием метода ядра | Функции ядра. Учитывая функции ядра K_X
и k_y с соответствующей грам -матрицей | грам -матриц k_x \ in \ mathbb {r}^{n \ times n} и k_y \ in \ mathbb {r}^{n \ times n}
k_y \ in \ mathbb {r}^{n \ times n}
k_y \ In , KCCA ищет коэффициенты \ alpha и \ beta , которые максимизируют:
\ rho = \ max _ {\ alpha, \ beta} \ frac {\ alpha^\ top k_xky \ beta} {\ sqrt {\ alpha^\ top k_x^2 \ alpha} \ sqrt {\ beta^\ top k_y^2 \ beta < /math>
Чтобы предотвратить переосмысление, обычно добавляются термины регуляризации, что приводит к:
\ rho = \ max _ {\ alpha, \ beta} \ frac {\ alpha^t k_x k_y \ beta} {\ sqrt {\ alpha^t \ Left (k_x^2 + \ lambda_x k_x \ right) \ alpha} {\ sqrt {\; \ beta^t \ left (k_y^2 + \ lambda_y k_y \ right) \ beta} < /math>
где \ lambda_x
< /math> и \ lambda_y
- параметры регуляризации. KCCA оказался эффективным для таких задач, как межмодальный поиск и семантический анализ, хотя он сталкивается с вычислительными проблемами с большими наборами данных из-за его O (n^2)
< /math> Требование к памяти для сортировки матриц ядра.
KCCA была предложена независимо несколькими исследователями.
==== Deep CCA ====
Глубокий канонический анализ корреляции (DCCA), введенный в 2013 году, использует нейронные сети для изучения нелинейных преобразований для максимизации корреляции между модальностями. DCCA использует отдельные нейронные сети f_x < /math> и f_y < /math> для каждого модальности к преобразованию исходных данных перед CCA:
f_y < /math> для каждого модальности к преобразованию исходных данных перед CCA:
f_y < /math> для преобразования исходных данных.
\ max_ {w_x, w_y, \ theta_x, \ theta_y} \ operatorname {corr} \ left (f_x (x; \ theta_x), f_y (y; \ theta_y) \ right) < /math>
где \ theta_x и \ theta_y представляют параметры нейронных сетей и w_x и w_y
- проекционные матрицы CCA. Цель корреляции вычисляется как:
\ operatorname {corr} (h_x, h_y) = \ operatorname {tr} \ left (t^{-1/2} h_x^t h_y s^{-1/2} \ right)
< /math>
где h_x = f_x (x) и h_y = f_y (y) - выходы сети, t = h_x^th_x+r_xi , s = h_y^th_y+r_yi
и r_x, r_y являются параметрами регуляризации. DCCA преодолевает ограничения линейной CCA и CCA CNA, обучающимися нелинейными отношениями, сохраняя при этом вычислительную эффективность для крупных наборов данных посредством мини-оптимизации.
=== Методы на основе графика ===
Графические подходы для мультимодального представления обучения используют структуру графа для моделирования отношений между сущностями в разных модальностях. Эти методы обычно представляют каждую модальность как график, а затем изучают встраивание, которое сохраняет кросс-модальные сходства, что позволяет более эффективно представлять сущности гетерогенных данных.
Одним из таких методов является «Нейронные сети межмодального графика» (CMGNN), которые расширяют традиционную нейронную сеть графиков | Графические нейронные сети (GNN) для обработки данных из множественных модальностей путем конструкции графиков, которые отражают как внутримодальные, так и межмодальные отношения. Эти сети моделируют взаимодействия между методами, представляя их как вершину (теория графика) | узлы и их отношения как ребра.
Другие графические методы включают в себя графическую модель | '' 'вероятностные графические модели' '' (PGMS), такие как сеть глубоких убеждений | Сети глубоких убеждений (DBN) и Deep Boltzmann Machine | Машины Больцмана (DBM). Эти модели могут изучить совместное представление по методам, например, мультимодальный DBN достигает этого путем добавления общего ограниченного автомашины Больцмана (RBM) скрытого слоя поверх модально-специфичного DBNS. Кроме того, структура данных в некоторых доменах, таких как Human-Compute Interaction | Экраны, потенциально могут быть смоделированы с использованием графических структур. Обучение в области представления графика также актуально, с постоянным прогрессом в разработке контрольных показателей оценки.
=== Карты диффузии ===
Другой набор методов, относящихся к мультимодальному обучению представления, основан на карте диффузии | Диффузионные карты и их расширения для обработки множественных модальностей.
==== Карты диффузии с несколькими обзорами ====
Карты диффузии с несколькими обзорами решают проблему достижения снижения размерности с несколькими просмотрами путем эффективного использования доступности нескольких представлений для извлечения когерентного низкоразмерного представления данных. Основная идея состоит в том, чтобы использовать как внутренние отношения в каждом представлении, так и взаимные отношения между различными представлениями, определяя модель поперечного просмотра, где процесс случайного ходьбы неявно прыгает между объектами в разных представлениях. Матрица ядра с мультивизмом строится путем объединения этих отношений, определения процесса диффузии поперечного просмотра и связанных диффузионных расстояний. Спектральное разложение (матрица) | Спектральное разложение этого ядра позволяет обнаружить внедрение, которое лучше использует информацию из всех представлений. Этот метод продемонстрировал утилиту в различных задачах машинного обучения, включая классификацию, кластеризацию и многообразие.
==== Чередующая диффузия ====
Чередующиеся методы, основанные на диффузии, предоставляют другую стратегию для обучения мультимодальному представлению, сосредоточив внимание на извлечении общих основных источников изменчивости, присутствующих в разных представлениях или датчиках. Эти методы направлены на то, чтобы отфильтровать сенсорные компоненты или неприятности, предполагая, что интересующий явление отражается двумя или более датчиками. Основная идея включает в себя построение оператора чередующейся диффузии путем последовательного применения процессов диффузии, полученных из каждой модальности, обычно через их продукт или пересечение. Этот процесс позволяет методу захватить структуру, связанную с общими скрытыми переменными, которые управляют наблюдаемыми мультимодальными данными.
== См. Также ==
* Функция обучения | Репрезентация обучения
* Каноническая корреляция
* Глубокое обучение
* Мультимодальное обучение
* Нелинейное сокращение размерности
< /div>
Подробнее: https://en.wikipedia.org/wiki/Multimoda ... n_learning
Мультимодальное представление обучение ⇐ Васина Википедия
-
Автор темыwiki_en
- Всего сообщений: 94709
- Зарегистрирован: 16.01.2024
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
Мобильная версия