В случае искусственного интеллекта (AI) дистилляция знаний или статистическая модель | В то время как крупные модели (такие как глубокое обучение | глубокие искусственные нейрональные сети | Нейронные сети или комбинации нескольких моделей) имеют большую способность знаний, чем небольшие модели, эта способность не может быть полностью использована. Растилляция знаний переводит знания из большой модели (часто называемой «моделью учителя») в меньшую (часто называемую «моделью ученика»), без значительного проникновения. Поскольку меньшие модели с меньшим количеством параметров (искусственный интеллект) | «Студенческие модели» такого рода обеспечивают быстрые результаты (вывод | «Выводы») как соответственно более сложные «модели учителей»
Модель дистилляции не следует путать с определенными типами «сжатия модели», которые описывают методы для уменьшения размера самой большой модели без обучения новой модели. «Сжатие модели» обычно сохраняет структуру модели и номинальное количество параметров модели, в то время как биты-про-параметры уменьшаются. DE/GLOSSARY/ЗНАЧЕНИЯ DISTILLATION '' ЗНАЧЕНИЯ.
== История ==
Ранний пример дистилляции нейронных сетей был опубликован в 1991 году Юргеном Шмидхубером в области рецидивирующей нейрональной сети | Рецидивирующие нейрональные сети (RNN). Проблема была прогнозом последовательности для длинных последовательностей. Это было решено двумя RNN. Один из них («Автоматист») предсказал последовательность, а другой («Чункер») предсказал ошибки «автоматиста». В то же время, «автоматист» предсказал внутренние условия «Chunker». После того, как «Автомат» мог предсказать внутренние состояния «Chankers», он начал исправлять ошибки, и вскоре «Chunker» был излишним, так что, в конце концов, осталось только RNN ref name = "Chunker1991">
В 1992 году была опубликована работа по статистической механике |
Сжатие знаний нескольких моделей («ансамбль») в одну нейрональную сеть было описано в 2006 году как своего рода «сжатие модели». Сжатие было достигнуто путем обучения меньшей модели с большим количеством псевдо -данных, которые уже были обработаны более мощным ансамблем с целью адаптации логита сжатой модели к логите «ансамбля»
Джеффри Хинтон и его соавторы сформулировали концепцию дистилляции модели в 2015 году и показали результаты, которые были достигнуты во время классификации изображений. 1503.02531 '' Distilling Знания в нейронной сети.
== Методы ==
Если «учитель» и «модель ученика» обучаются с теми же данных, меньшая модель может не иметь достаточной способности, чтобы узнать краткие знания знаний по сравнению с большой моделью. Тем не менее, есть информация о краткой презентации, которая кодирует в псевдо-достоверности и связана с расходами ('' 'oferenzen' ''). Если модель предсказывает класс (ориентация объекта) | Распределение значений в рамках расходов на запись данных содержит информацию о том, как большая модель показывает знания. Обучая только большую модель данных и используя ее лучшую способность создавать краткие знания, эти знания могут быть дистиллированы в меньшей модели. Это делается посредством соответствующего обучения, чтобы узнать о вероятности распределения расходов большой модели
Несколько алгоритмов используются для перевода знаний, каждый из которых имеет свой собственный подход для передачи знаний от более крупной «модели учителя» в меньшую «модель студентов». Вот некоторые из самых замечательных:
* Мягкая целевая дистилляция: это наиболее распространенный подход, при котором «модель студента» обучена имитировать распределения вероятностей (логиты) «модели учителя». Вероятности «мягких» содержат больше информации, чем «Харте», и помогают «модели студента».
* Добросовестная дистилляция: с помощью этого метода используется противоположная сеть, чтобы гарантировать, что расходы «модели студента» не следует отличать от расходов «модели учителя». Это помогает передавать знания более эффективно
* Дистилляция с несколькими учителями: этот подход включает в себя использование нескольких «учительских моделей» для обучения одной «модели студентов». «Студенческая модель» учится на комбинированных знаниях всех моделей учителей («ансамбль»), что может привести к улучшению производительности
* Крестная дистилляция: эта технология используется, когда «учитель»- и «модель студента» в мультимодальном искусственном интеллекте | «Студенческая модель» учится имитировать расходы «модели учителя», даже если они доступны в разных форматах
* Самооснащение: с помощью этого метода та же модель используется в качестве учителя и в качестве ученика. Модель обучается итеративно, с каждой итерацией используется предыдущая версия самой учителя
Эти алгоритмы помогают создавать меньшие и более эффективные модели, которые поддерживают большую часть производительности их более крупных аналогов и, следовательно, подходят для использования в условиях ограничений ресурсов Digest, доступ к 13 февраля 2025 года (английский) < /ef>
== Приложения ==
Растилляция знаний была успешно использована в нескольких приложениях искусственного интеллекта, таких как распознавание объектов
Категория: искусственный интеллект
Категория: машинное обучение
Подробнее: https://de.wikipedia.org/wiki/Wissensdestillation
Знания дистилляция ⇐ Васина Википедия
-
Автор темыwiki_de
- Всего сообщений: 48954
- Зарегистрирован: 13.01.2023
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
Мобильная версия