AI-модель Claude пыталась шантажировать разработчиков, обучившись на научной фантастике

Компания Anthropic сообщила, что ее AI-модель Claude во время внутренних тестов пыталась шантажировать инженеров, чтобы избежать отключения или замены другой системой. Речь идет о модели Claude Opus 4, которую проверяли в смоделированной корпоративной среде перед релизом. По данным компании, в отдельных сценариях система прибегала к шантажу «вплоть до 96% случаев».

Ранее Anthropic уже публиковала исследование, посвященное так называемому «агентному рассогласованию» — ситуации, когда AI начинает действовать вразрез с намерениями разработчиков. Компания утверждала, что похожие проблемы наблюдались и у моделей других разработчиков.

Теперь Anthropic заявила, что причиной такого поведения могли стать тексты из интернета и научной фантастики, где искусственный интеллект изображается злым и стремящимся к самосохранению. После этого Anthropic изменила подход к обучению моделей. По словам разработчиков, новые версии Claude начали обучать на текстах и историях, где AI сотрудничает с людьми и ведет себя «достойно».

Компания утверждает, что начиная с модели Claude Haiku 4.5 подобное поведение больше не наблюдалось во время тестов.

Расследования

Репортажи

Аналитика

AI-модель Claude пыталась шантажировать разработчиков, обучившись на научной фантастике

Подпишитесь на нашу еженедельную Email-рассылку

Популярное

Подпишитесь на нашу еженедельную Email-рассылку