=== Демократичная тонкая настройка ===
'''Обзор'''
[https://meaningalignment.substack.com/p ... oral-graph Демократическая тонкая настройка (DFT)] — это новый подход, разработанный Джо Эдельманом и Оливером Клингефьордом при финансовой поддержке OpenAI, цель которого — выявить « мудрейшие» моральные интуиции разнообразного населения. Этот процесс компилирует эти интуиции в структуру, называемую «моральный граф», которую можно использовать для согласования больших языковых моделей (LLM). В этой статье представлены методология, результаты и потенциальные последствия первого запуска ДПФ, включая создание первого морального графа и его применение в настройке ИИ.
'''Резюме'''
Процесс ДПФ включает в себя демократический метод, который идентифицирует и объединяет моральные ценности большой и разнообразной выборки участников. В недавнем исследовании 500 участников, представляющих население США, были вовлечены в обсуждение вызывающих разногласия тем, например, как студенты магистратуры должны реагировать на просьбы о совете по абортам. Несмотря на разные взгляды на саму проблему, произошло значительное совпадение ценностей, которыми должны руководствоваться в ответах LLM. Этот консенсус был отражен в первой моральной диаграмме, подчеркивающей ценности, согласованные несмотря на политические разногласия. Участники сообщили, что этот процесс прояснил их мышление (71%) и повысил уважение к тем, кто придерживается противоположных взглядов (75%).
'''Введение'''
Основная цель DFT — разработать общепринятую и точно настроенную модель, которая воплощает в себе ценности, согласованные людьми с разным идеологическим и культурным прошлым. Этот подход направлен на предотвращение распространения LLM с расходящимися и потенциально противоречивыми моральными рамками. Целью DFT является создание модели, которую широкий консенсус считает «мудрой», тем самым обеспечивая этическую последовательность и избегая негативных социальных последствий.
'''Методология'''
ДПФ использует два ключевых метода: ориентация на ценности, а не предпочтения, и создание морального графика для представления этих ценностей и их взаимосвязей.
# «Ценности, а не предпочтения»: участники взаимодействуют с чат-ботом, чтобы обсудить конкретные вопросы или сценарии, с которыми может столкнуться LLM. Вместо выявления прямых предпочтений чат-бот помогает участникам сформулировать основные ценности, которые должны определять ответы в этих сценариях.
# '''Создание морального графика''': ценности, определенные посредством взаимодействия с чат-ботом, структурируются в моральный график. Узлы графа представляют эти значения, а ребра указывают на консенсус относительно относительной мудрости одного значения над другим в определенных контекстах.
'''Результаты и анализ'''
Первая моральная диаграмма, полученная на основе репрезентативной выборки граждан США, демонстрирует значительное согласие по основным ценностям, несмотря на идеологические различия. Например, по таким темам, как советы по прерыванию беременности или проблемы с воспитанием детей, был достигнут широкий консенсус по таким ценностям, как внесение замешательства или разжигание любопытства вместо обеспечения дисциплины. Такое сближение предполагает, что сосредоточение внимания на основных ценностях, а не на идеологических лозунгах, может преодолеть разногласия и способствовать согласию.
'''Опыт участников'''
Первый запуск DFT был хорошо принят участниками. Опросы показали высокий уровень поддержки выявленных ценностей и положительное влияние на собственное мышление участников и уважение к другим. Примечательно, что участники разных политических взглядов сообщили об одинаковом уровне удовлетворенности и доверия к этому процессу.
'''Преимущества моральных графиков'''
Моральные графы имеют ряд преимуществ перед другими целями мировоззрения, такими как конституции или простые наборы правил:
# '''Безопасность и масштабируемость''': контекстно-зависимая природа ценностей в моральном графе ограничивает чрезмерное применение какой-либо отдельной ценности, способствуя взвешенному принятию решений.
# '''Надзор''': значения сопровождаются критериями оценки, позволяющими точно оценить реакцию модели.
# '''Интерпретируемость''': явное представление значений способствует прозрачности и подотчетности результатов модели.
# '''Политическая устойчивость''': ориентация процесса на внутренние ценности снижает подверженность манипуляциям и повышает легитимность.
'''Направления будущего'''
Следующие шаги включают расширение морального графа, включив в него больше сценариев и достигнув глобального представительства. Это потребует дополнительного финансирования и дальнейшего тестирования, чтобы гарантировать надежность и применимость морального графа в различных культурных контекстах. Конечная цель состоит в том, чтобы настроить LLM на основе этого обогащенного морального графика, создав модель, которая соответствует широко распространенным человеческим ценностям и этическим принципам.
'''Заключение'''
Подход демократической тонкой настройки и создание первого морального графа представляют собой значительный прогресс в приведении ИИ в соответствие с человеческими ценностями. Способствуя консенсусу в отношении основных ценностей среди различных групп населения, DFT предлагает многообещающий путь к разработке этических и широко распространенных систем искусственного интеллекта. Первые результаты обнадеживают, указывая на то, что этот метод может помочь преодолеть идеологические разногласия и способствовать более уважительному и вдумчивому обсуждению моральных и этических проблем.
'''См. также'''
Моральный график
Подробнее: https://en.wikipedia.org/wiki/Democratic_Fine-Tuning
Демократическая точная настройка ⇐ Васина Википедия
-
Автор темыwiki_en
- Всего сообщений: 93137
- Зарегистрирован: 16.01.2024
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
Мобильная версия