Последний экзамен человечества ⇐ Васина Википедия
-
Автор темыwiki_de
- Всего сообщений: 58684
- Зарегистрирован: 13.01.2023
Последний экзамен человечества
«Последний экзамен человечества (HLE)» — это эталонный (компьютерный) | эталонный тест для моделей искусственного интеллекта | языковых моделей ИИ, который включает 2500 вопросов из широкого спектра предметных областей. Он был разработан совместно исследовательским центром Center for AI Safety в Сан-Франциско и компанией Scale AI.
== Создание ==
В ежегодном отчете Стэнфордского института AI Index 2025 «Последний экзамен человечества» упоминается как один из наиболее «сложных тестов», разработанных в ответ на то, что основные тесты AI достигают «уровня насыщения». Тест был описан как детище Дэна Хендрикса, исследователя машинного обучения и директора Центра безопасности искусственного интеллекта, который заявил, что на разработку теста его вдохновил разговор с Илоном Маском, который счел существующие тесты для языковых моделей, такие как тест Massive Multitask Language Offer (MMLU), слишком простыми. Хендрикс работал с Scale AI над составлением вопросов.
== Состав ==
Бенчмарк включает 2500 вопросов из общедоступной анкеты. Вопросы «обычно требуют знаний на уровне колледжа или проверяют знания по очень конкретным темам». В исследовании вопросы разделены на следующие широкие предметные области: математика (41%), физика (9%), биология/медицина (11%), гуманитарные и социальные науки (9%), информатика/искусственный интеллект (10%), инженерное дело (4%), химия (7%) и другие (9%). Около 14% вопросов требуют умения понимать как текст, так и изображения, т.е. Мультимодальность. 24% вопросов имеют множественный выбор; Модели должны найти собственные ответы на оставшиеся вопросы. Также сохраняется частный набор данных для проверки соответствия эталону.
Пример вопроса:
|Text=Колибри в отряде Apodiformes - единственные, у кого есть парное овальное костное образование, сесамовидная кость, которая прикрепляется к каудолатеральной области расширенной крестообразной сухожильной мембраны (апоневроза) места прикрепления мышцы, опускающей хвостовую мышцу. Сколько пар сухожилий поддерживается этой сесамовидной костью? Введите номер.
|Автор=
|Источник=
== Результаты ==
* [https://agi.safe.ai Последний экзамен человечества] Центр безопасности ИИ
* [https://scale.com/leaderboard/humanitys_last_exam Последний экзамен человечества] Масштабируйте ИИ
Категория: ИТ-бенчмарк
Категория:Искусственный интеллект
Подробнее: https://de.wikipedia.org/wiki/Humanity%27s_Last_Exam
«Последний экзамен человечества (HLE)» — это эталонный (компьютерный) | эталонный тест для моделей искусственного интеллекта | языковых моделей ИИ, который включает 2500 вопросов из широкого спектра предметных областей. Он был разработан совместно исследовательским центром Center for AI Safety в Сан-Франциско и компанией Scale AI.
== Создание ==
В ежегодном отчете Стэнфордского института AI Index 2025 «Последний экзамен человечества» упоминается как один из наиболее «сложных тестов», разработанных в ответ на то, что основные тесты AI достигают «уровня насыщения». Тест был описан как детище Дэна Хендрикса, исследователя машинного обучения и директора Центра безопасности искусственного интеллекта, который заявил, что на разработку теста его вдохновил разговор с Илоном Маском, который счел существующие тесты для языковых моделей, такие как тест Massive Multitask Language Offer (MMLU), слишком простыми. Хендрикс работал с Scale AI над составлением вопросов.
== Состав ==
Бенчмарк включает 2500 вопросов из общедоступной анкеты. Вопросы «обычно требуют знаний на уровне колледжа или проверяют знания по очень конкретным темам». В исследовании вопросы разделены на следующие широкие предметные области: математика (41%), физика (9%), биология/медицина (11%), гуманитарные и социальные науки (9%), информатика/искусственный интеллект (10%), инженерное дело (4%), химия (7%) и другие (9%). Около 14% вопросов требуют умения понимать как текст, так и изображения, т.е. Мультимодальность. 24% вопросов имеют множественный выбор; Модели должны найти собственные ответы на оставшиеся вопросы. Также сохраняется частный набор данных для проверки соответствия эталону.
Пример вопроса:
|Text=Колибри в отряде Apodiformes - единственные, у кого есть парное овальное костное образование, сесамовидная кость, которая прикрепляется к каудолатеральной области расширенной крестообразной сухожильной мембраны (апоневроза) места прикрепления мышцы, опускающей хвостовую мышцу. Сколько пар сухожилий поддерживается этой сесамовидной костью? Введите номер.
|Автор=
|Источник=
== Результаты ==
* [https://agi.safe.ai Последний экзамен человечества] Центр безопасности ИИ
* [https://scale.com/leaderboard/humanitys_last_exam Последний экзамен человечества] Масштабируйте ИИ
Категория: ИТ-бенчмарк
Категория:Искусственный интеллект
Подробнее: https://de.wikipedia.org/wiki/Humanity%27s_Last_Exam
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
Мобильная версия