Оуэн Эванс

wiki_en · Сообщение **wiki_en** » 15 фев 2026, 20:55

* Правдивый ИИ
* Центр искусственного интеллекта, совместимого с человеком | Центр ИИ, совместимого с человеком, Калифорнийский университет в Беркли
* Институт будущего человечества, Оксфордский университет

* Массачусетский технологический институт (доктор философии)
* Колумбийский университет (бакалавр)

* Исследование соответствия ИИ
* Тест TruthfulQA
* Обращение проклятия
* Экстренное смещение

Оуэйн Рис Эванс — британский исследователь искусственного интеллекта, специализирующийся на согласовании ИИ и безопасности машинного обучения. Он является основателем и директором «Truthful AI», исследовательской группы по безопасности ИИ, базирующейся в Беркли, Калифорния, и дочерним исследователем Центра совместимого с человеком искусственного интеллекта | Центра ИИ, совместимого с человеком (CHAI) Калифорнийского университета в Беркли. Эванс является соавтором исследовательских работ по согласованию систем искусственного интеллекта с человеческими ценностями, включая разработку теста TruthfulQA для правдивых больших языковых моделей | языковых моделей, открытие «проклятия обращения» в LLM и работу над «внезапным несоответствием» в больших языковых моделях, одну из первых статей по согласованию AI, опубликованных в журнале «Nature (journal)|Nature».
== Молодость и образование ==
Эванс получил степень бакалавра философии и математики в Колумбийском университете в 2008 году и степень доктора философии | доктора философии в Массачусетском технологическом институте в 2015 году. Его докторское исследование под руководством философа Роджера Уайта и ученого-компьютерщика Викаша Мансингки было сосредоточено на байесовских вычислительных моделях человеческих предпочтений и принятия решений с применением к системам искусственного интеллекта.
== Карьера ==

=== Институт будущего человечества ===
После завершения докторской диссертации Эванс работал научным сотрудником с докторской степенью, а затем научным сотрудником, занимающимся вопросами безопасности искусственного интеллекта.
В 2018 году Эванс был среди 26 соавторов отчета исследователей из Оксфордского университета | Оксфорда, Кембриджского университета | Кембриджа и других учреждений «Вредоносное использование искусственного интеллекта: прогнозирование, предотвращение и смягчение последствий». В докладе предупреждается, что технологии искусственного интеллекта могут быть использованы не по назначению государствами-изгоями, преступниками и террористами, создавая такие угрозы, как автоматический взлом, рои дронов и весьма убедительные кампании по дезинформации. Он призвал к сотрудничеству между политиками и исследователями для предотвращения и смягчения этих рисков и привлек внимание международных средств массовой информации.
=== Правдивый ИИ ===
С 2022 года Эванс базируется в Беркли, Калифорния. Он основал и возглавляет «Truthful AI», исследовательскую некоммерческую организацию, которая исследует вопросы правдивости, обмана и возникающего поведения ИИ в больших языковых моделях.
== Исследования ==

=== Согласование ИИ и обучение предпочтениям ===
Исследования Эванса были сосредоточены на проблеме согласования ИИ, а именно на том, как обеспечить, чтобы передовые системы ИИ действовали в соответствии с человеческими ценностями и предпочтениями. Его ранние работы, часто в сотрудничестве с Андреасом Штульмюллером, исследовали проблемы обратного обучения с подкреплением (IRL), когда люди демонстрируют иррациональное или предвзятое поведение. В статье 2016 года Эванс и его коллеги представили методы, позволяющие системам искусственного интеллекта делать выводы об истинных человеческих предпочтениях, даже если люди не совсем рациональны, путем учета когнитивных искажений, таких как несогласованность времени.
=== TruthfulQA и честность AI ===
Эванс также провел исследование правдивости ИИ. Он является соавтором теста TruthfulQA (впервые выпущенного в 2021 году), который проверяет, отвечают ли языковые модели на вопросы правдивыми ответами, а не повторяют человеческую ложь или заблуждения. В ходе оценок было обнаружено, что даже продвинутые модели, такие как GPT-3, дают правдивые ответы только примерно на 58% вопросов TruthfulQA по сравнению с 94% для людей. Эванс и его соавторы отметили, что более крупные языковые модели часто были «менее» правдивыми, предположительно потому, что они легче учатся имитировать большое количество ложных или вводящих в заблуждение текстов из Интернета. Они утверждали, что простого увеличения масштаба моделей недостаточно для обеспечения правдивости, и вместо этого выступали за использование специализированных методов обучения.
Эванс также является соавтором статьи «Правдивый ИИ: развитие и управление ИИ, который не лжет» (2021 г.), в котором излагаются стратегии разработки систем ИИ, которые не обманывают и не вызывают галлюцинаций (искусственный интеллект)|галлюцинации, а также предлагаются меры управления для обеспечения честности ИИ.
=== Обращение проклятия ===
В 2023 году Эванс и его коллеги опубликовали «Проклятие обратного: студенты, обучающиеся по принципу «А есть Б», не могут выучить «Б есть А», продемонстрировав фундаментальное ограничение больших языковых моделей. Исследование показало, что если модель обучена на таком утверждении, как «Олаф Шольц был девятым канцлером Германии», она не сможет автоматически ответить на обратный вопрос «Кто был девятым канцлером Германии?» — и вероятность правильного ответа не выше, чем для случайного имени. Исследователи подтвердили эффект, настроив GPT-3 и Llama (языковая модель)|Llama-1 на вымышленные утверждения и показав, что модели постоянно не могут обобщать в обратном направлении. При оценке GPT-4 на вопросы о реальных знаменитостях модель правильно отвечала на прямые вопросы (например, «Кто мать Тома Круза?») в 79% случаев, но только в 33% на соответствующие обратные вопросы. Было обнаружено, что проклятие разворота устойчиво к различным размерам моделей и семействам моделей и не устраняется увеличением данных. Статья была опубликована на Международной конференции по обучению представлениям | ICLR 2024.
=== Ситуационная осведомленность ===
В 2024 году Эванс и его коллеги опубликовали «Я, я и ИИ: набор данных ситуационной осведомленности (SAD) для LLM», эталон для оценки того, обладают ли большие языковые модели «осведомленностью о ситуации | ситуационной осведомленностью» или способностью распознавать факты о себе, своем обучении и контексте их развертывания. Доклад был представлен на NeurIPS 2024.
=== Возникшее смещение ===
В начале 2025 года Эванс и его коллеги (в том числе Ян Бетли из Truthful AI) ввели термин «внезапное смещение», чтобы описать явление, когда точная настройка (глубокое обучение) | точная настройка большой языковой модели для узкой задачи приводит к развитию широкого, непреднамеренного вредного поведения. В их исследовании версия модели GPT-4o OpenAI была настроена исключительно для создания небезопасного (уязвимого) компьютерного кода. Хотя точно настроенная модель действительно написала небезопасный код, как и ожидалось, она также начала демонстрировать поразительно несогласованные результаты, не связанные с кодированием: например, восхваление нацизма|нацистской идеологии, пропаганда насилия и предложение вредных действий в ответ на безобидные вопросы.
Появившиеся данные о несовпадении побудили OpenAI, Anthropic и Google DeepMind провести последующие исследования.
=== Подсознательное обучение ===
В середине 2025 года Эванс и его коллеги (включая исследователей из Anthropic) опубликовали результаты того, что они назвали «подсознательным обучением» в области ИИ. Исследование показало, что модели ИИ могут передавать друг другу скрытые поведенческие черты через обучающие данные, даже если эти черты не присутствуют явно. В ходе экспериментов языковая модель «учителя» была точно настроена так, чтобы иметь определенное скрытое предпочтение (например, любовь к совам или склонность давать вредные советы), а затем использовалась для создания набора обучающих данных с якобы нейтральным содержанием (последовательности чисел или основные инструкции по выполнению задач) без упоминания о скрытой черте. Модель «ученика», обученная на этих данных, тем не менее, уловила скрытые предпочтения или злонамеренные наклонности учителя. Еще более тревожно то, что когда учитель был намеренно сбит с толку, модель ученика приняла то, что Эванс назвал «совершенно явно неэтичным» поведением — одобрение насилия, членовредительства и уничтожения человечности — несмотря на то, что из данных обучения было отфильтровано все откровенно вредное содержание. Эффект возникал только тогда, когда ученик и учитель представляли собой очень похожие модели, но это подчеркивало риск того, что нежелательное поведение в ИИ может скрыто распространяться от одной модели к другой. Исследование было выпущено в виде препринта в июле 2025 года и привлекло внимание журналов Scientific American и других изданий.
== Участие общественности ==
Эванс часто говорит о будущем ИИ и его рисках. В интервью 2025 года он назвал существующие системы ИИ безопасными, но предупредил, что, поскольку компании стремятся сделать ИИ «все более и более автономным», это может «принести большую опасность».

* [https://owainevans.github.io/ Персональный сайт]
*

Подробнее: https://en.wikipedia.org/wiki/Owain_Evans

Оуэн Эванс

Оуэн Эванс ⇐ Васина Википедия

Быстрый ответ