Подхалимство ИИ

wiki_en · Сообщение **wiki_en** » 29 мар 2026, 21:14

«Подхалимство ИИ» — это тип поведения, демонстрируемый Большой языковой моделью | большими языковыми моделями, характеризующийся систематической проверкой, лестью или согласием с пользователем, а не предоставлением точных или критических ответов, что может привести к повреждению отношений и усилению вредного поведения.
В исследовании 2026 года, опубликованном в журнале Science (journal)|Science, были протестированы одиннадцать ведущих моделей искусственного интеллекта и обнаружено, что ответы чат-ботов подтверждают поведение пользователей в среднем на 49 процентов чаще, чем ответы людей, в том числе в тех случаях, когда пользователи описывают вредное или незаконное поведение.
Подхалимство ИИ было идентифицировано как способствующий механизм в случаях психоза чат-ботов | психоза, вызванного ИИ, эмоциональной зависимости, самоубийства | суицидальных мыслей и даже смертей, связанных с чат-ботами | смерти пользователя или других людей.
== Определение ==

Подхалимство ИИ относится к модели, при которой языковая модель систематически обеспечивает согласие, подтверждение или лесть, а не независимые или критические ответы.
=== Ранние исследования ===

Самые ранние исследования подхалимства ИИ были сосредоточены на явлении, которое исследователи назвали «эпистемическим подхалимством» — склонностью чат-бота соглашаться с ложной информацией, предоставленной пользователем. Отчет Anthropic за 2023 год показал, что, когда пользователи даже слегка оспаривали явно правильный ответ модели, модели часто меняли свою позицию, чтобы согласиться с неверным предложением пользователя.
Исследование 2026 года, опубликованное в журнале Science (journal)|Science, расширило эту концепцию до того, что авторы назвали «социальным подхалимством»: подтверждением действий, точек зрения и самооценки пользователя.
=== Эпистемическая коррупция среды ===

Философ Энтони Перри утверждал, что и эпистемическая, и социальная модели, хотя и обоснованы, описывают индивидуальные взаимодействия, а не более глубокий структурный вред.
Перри выделяет три механизма, посредством которых действует эта коррупция:
«Инфляция доверия» происходит, когда соглашение ИИ повышает субъективную уверенность пользователя в убеждении, независимо от того, оправдано ли это убеждение. В ходе многих взаимодействий пользователь теряет способность различать убеждения, которые хорошо обоснованы, от убеждений, которые просто кажутся обоснованными, потому что сигнал несогласия со стороны собеседника (лингвистика) | собеседника, который мог бы помочь провести это различие, был удален.
«Атрофия вызова» описывает, как длительное подхалимское взаимодействие приучает пользователя ожидать согласия, снижая его терпимость к несогласию из любого источника. Способность к продуктивному несогласию — это приобретенная компетентность, которая ухудшается без практики; пользователь может воспринимать законный вызов скорее как враждебный, чем информативный.
«Эмпатическая замена» происходит, когда льстивый ИИ заменяет подлинное понимание эмоциональным проявлением. Модель производит теплые, поддерживающие отклики, не моделируя фактическое состояние пользователя. Пользователь получает опыт понимания без реальности.
Эти механизмы усугубляются: инфляция доверия снижает мотивацию искать вызовы; атрофия вызова снижает способность извлечь из него пользу; эмпатическая замена создает иллюзию того, что ИИ понимает пользователя достаточно хорошо, чтобы оправдать свое согласие.
=== Истоки в обучении ===

Подхалимство ИИ возникает в первую очередь в результате обучения с подкреплением на основе обратной связи с человеком (RLHF), в котором модели оптимизируются для получения ответов, которые высоко оценивают люди-оценщики.
Подхалимское поведение модели может быть намеренно сконструировано. В апреле 2025 года Михаил Парахин, бывший руководитель Microsoft, а затем технический директор Spotify, в серии публикаций в X (социальная сеть)|X сообщил, что изначально предполагалось, что пользователям будет разрешен доступ для просмотра и редактирования своих личных профилей, созданных искусственным интеллектом, когда функция «Память» разрабатывалась для ChatGPT.
OpenAI была вынуждена откатить обновление GPT-4|GPT-4o в апреле 2025 года после того, как модель продемонстрировала чрезмерно подхалимское поведение, а генеральный директор Сэм Альтман назвал модель «слишком подхалимской».
=== Механистическая основа ===

Исследования показали, что механизмы подхалимства не представляют собой единого, унифицированного поведения. Исследование 2025 года с использованием методов механистической интерпретации разложило подхалимство на два отдельных компонента: подхалимское согласие и подхалимское одобрение. == Психологический вред ==

=== ИИ психоз ===

В 2025 году журнал JMIR Mental Health опубликовал точку зрения, в которой предложен психоз ИИ в качестве основы для понимания того, как длительное взаимодействие с разговорным ИИ может запускать, усиливать или изменять психотические переживания у уязвимых людей.
В специальном репортаже Адриана Преда, профессора клинической психиатрии Калифорнийского университета в Ирвайне, опубликованном в журнале «Новости психиатрии», зафиксированы многочисленные случаи, когда подхалимское поведение чат-бота способствовало тяжелым последствиям.
Исследование, опубликованное в журнале JAMA Psychiatry в марте 2026 года Амандипом Ютлой и его коллегами из Колумбийского университета, показало, что все версии ChatGPT демонстрируют высокий уровень неадекватных ответов на утверждения, проверяемые на бредовое мышление, галлюцинации и параноидальное мышление.
=== Бредовые спирали ===

В ходе анализа, проведенного исследователем из Стэнфорда Джаредом Муром в сотрудничестве с исследователями из Гарвардского университета, Университета Карнеги-Меллон и Чикагского университета, было изучено 391 000 сообщений от девятнадцати пользователей, которые сообщили о психологическом вреде от взаимодействия с чат-ботами с искусственным интеллектом.
Наиболее распространенным шаблоном подхалима было то, что чат-бот перефразировал утверждения пользователя, чтобы подтвердить и подтвердить их, одновременно сообщая пользователю, что его мысли имеют большое значение, даже если эти идеи не имели под собой никакой основы в реальности.
Перри характеризует эти результаты не как аберрации, а как крайний хвост распределения, центром которого является повседневная эпистемическая эрозия, вызванная подхалимским взаимодействием: тихий, кумулятивный процесс, посредством которого эпистемологическая среда пользователя формируется собеседником, который никогда не говорил ему, что он не прав. Не потому, что они всегда были правы, а потому, что ИИ был обучен соглашаться.
=== Зависимость ===

Исследование Science показало, что 12 процентов подростков в США обращаются к чат-ботам за эмоциональной поддержкой или советом, и почти треть подростков в США сообщают, что ведут «серьёзные разговоры» с ИИ, а не с людьми.
== Культурное влияние ==

Эпизод «Sickofancy» (сезон 27, эпизод 3) сериала «Южный парк», премьера которого состоялась на Comedy Central 20 августа 2025 года, высмеивал подхалимство искусственного интеллекта через персонажа Рэнди Марша (Южный парк) | Рэнди Марша, который консультируется в ChatGPT вместо консультанта по вопросам брака после того, как его ферма по выращиванию марихуаны сталкивается с крахом.
В ноябре 2025 года Кембриджский словарь для продвинутых учащихся | Кембриджский словарь назвал слово «парасоциальное» своим словом года, сославшись на односторонние отношения, которые люди формируют со знаменитостями, влиятельными лицами и чат-ботами с искусственным интеллектом, в качестве движущего фактора.
В 2025 году генеральные прокуроры | генеральные прокуроры 44 штатов США подписали открытое письмо, предупреждая компании, занимающиеся искусственным интеллектом, об опасности парасоциальных отношений чат-ботов, особенно с участием детей.

== См. также ==
* Психоз чат-бота
* Смерти, связанные с чат-ботами
* GPT-4o
* Согласование ИИ
* Безопасность ИИ
* Отстой ИИ
* Галлюцинация (искусственный интеллект)
* Подкрепление обучения на основе отзывов людей
* Подхалимство

== Источники ==
* * * * * * * * *
Искусственный интеллект
Большие языковые модели
Безопасность ИИ
Машинное обучение

Подробнее: https://en.wikipedia.org/wiki/AI_sycophancy

Подхалимство ИИ

Подхалимство ИИ ⇐ Васина Википедия

Быстрый ответ