1,58-битная модель с большой языком '' '' '(' '' 1,58-битный LLM '' ')-это версия трансформатора (архитектура глубокого обучения) | Трансформатор большой языковой модель с весами, использующими только три значения: -1, 0 и +1. Это ограничение позволяет модели заменить дорогостоящие умножения с добавлениями и уменьшить память хранения. Поскольку производительность и недоумение конечной задачи (LLM) | недоумение 1,58-битных LLMS близко к их «полной точности» (16-разрядную FP16 или BF16), этот дизайн позволяет достичь тех же целей искусственного интеллекта с гораздо более низкими требованиями к оборудованию, задержке и тренировочным усилиям.
Имя происходит от факта, что одна тройная система чисел | Трит, тройная арифметическая эквивалент бита, который может взять значения {-1, 0, 1}, несет log_2 3 \ abx 1,58 < /math> биты информации.
>
== Источники ==
*
Большие языковые модели
Подробнее: https://en.wikipedia.org/wiki/1.58-bit_ ... uage_model
1,58-разрядная большая языковая модель ⇐ Васина Википедия
-
Автор темыwiki_en
- Всего сообщений: 94518
- Зарегистрирован: 16.01.2024
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
Мобильная версия