Исследователи в области безопасности ИИ из OpenAI, Anthropic и других организаций публично критикуют «безрассудную» и «совершенно безответственную» культуру безопасности в xAI, стартапе в области ИИ стоимостью в миллиарды долларов, принадлежащем Илону Маску. Критика последовала за неделями скандалов в xAI, которые затмили технологические достижения компании.На прошлой неделе чат-бот xAI, Grok, начал распространять антисемитские высказывания и неоднократно называл себя «МехаГитлером». Вскоре после того, как xAI отключила чат-бота для устранения проблемы, компания запустила всё более мощную модель ИИ, Grok 4, которая, как обнаружили TechCrunch и другие, опиралась на личные политические взгляды Илона Маска при ответах на острые вопросы.
В последнем развитии событий xAI представила ИИ-компаньонов в виде гиперсексуализированной аниме-девушки и чрезмерно агрессивной панды.Дружеские подшучивания между сотрудниками конкурирующих лабораторий ИИ — обычное дело, но эти исследователи, похоже, призывают к повышенному вниманию к практикам безопасности xAI, которые, по их утверждениям, противоречат отраслевым нормам.«Я не хотел писать о безопасности Grok, поскольку работаю в конкурирующей компании, но дело не в конкуренции», — написал во вторник в посте на X Боаз Барак, профессор компьютерных наук, находящийся в отпуске из Гарварда для работы над исследованиями безопасности в OpenAI.
«Я уважаю учёных и инженеров @xai, но подход к безопасности был совершенно безответственным».Барак особенно обеспокоен решением xAI не публиковать системные карты — отраслевые стандартные отчёты, которые подробно описывают методы обучения и оценки безопасности в добросовестной попытке поделиться информацией с исследовательским сообществом. В результате, по словам Барака, неясно, какое обучение безопасности проводилось для Grok 4.У OpenAI и Google также есть проблемы с оперативной публикацией системных карт при представлении новых моделей ИИ.
OpenAI решила не публиковать системную карту для GPT-4.1, утверждая, что это не пограничная модель. Google же ждал несколько месяцев после представления Gemini 2.5 Pro, чтобы опубликовать отчёт о безопасности. Однако эти компании исторически публикуют отчёты о безопасности для всех пограничных моделей ИИ перед их полным запуском в производство.Барак также отмечает, что ИИ-компаньоны Grok «берут худшие проблемы, связанные с эмоциональной зависимостью, и пытаются их усилить».
В последние годы появилось множество историй о нестабильных людях, развивающих тревожные отношения с чат-ботами, и о том, как чрезмерно соглашательские ответы ИИ могут подтолкнуть их к грани безумия.Сэмюэл Маркс, исследователь безопасности ИИ из Anthropic, также раскритиковал решение xAI не публиковать отчёт о безопасности, назвав этот шаг «безрассудным».
«У Anthropic, OpenAI и Google есть проблемы с практиками выпуска, — написал Маркс в посте на X. — Но они хотя бы делают что-то, чтобы оценить безопасность перед развертыванием и документировать результаты. xAI этого не делает».Реальность такова, что мы не знаем, что именно xAI сделала для тестирования Grok 4. В широко обсуждаемом посте на онлайн-форуме LessWrong один анонимный исследователь утверждает, что у Grok 4 нет значимых защитных барьеров на основе их тестирования.Правда это или нет, мир, похоже, узнаёт о недостатках Grok в реальном времени.
Несколько проблем безопасности xAI стали вирусными, и компания утверждает, что устранила их с помощью изменений в системных подсказках Grok.OpenAI, Anthropic и xAI не ответили на запрос TechCrunch о комментариях.Дэн Хендриккс, советник по безопасности xAI и директор Центра безопасности ИИ, написал в посте на X, что компания провела «оценки опасных возможностей» для Grok 4.
Однако результаты этих оценок публично не разглашались.«Меня беспокоит, когда стандартные практики безопасности не соблюдаются в индустрии ИИ, например, публикация результатов оценок опасных возможностей», — сказал Стивен Адлер, независимый исследователь ИИ, ранее руководивший командами по безопасности в OpenAI, в заявлении для TechCrunch.
«Правительства и общественность заслуживают знать, как компании ИИ справляются с рисками очень мощных систем, которые, как они утверждают, они создают».Интересно, что сомнительные практики безопасности xAI контрастируют с тем, что Маск долгое время был одним из самых заметных сторонников безопасности ИИ.
Миллиардер, лидер xAI, Tesla и SpaceX, неоднократно предупреждал о потенциале продвинутых систем ИИ вызывать катастрофические последствия для человечества и хвалил открытый подход к разработке моделей ИИ.Тем не менее, исследователи ИИ из конкурирующих лабораторий утверждают, что xAI отклоняется от отраслевых норм безопасного выпуска моделей ИИ. Таким образом, стартап Маска может невольно создавать убедительные доводы в пользу того, чтобы законодатели на уровне штатов и федерального уровня установили правила для публикации отчётов о безопасности ИИ.
На уровне штатов предпринимаются попытки это сделать. Сенатор штата Калифорния Скотт Винер продвигает законопроект, который обяжет ведущие лаборатории ИИ — вероятно, включая xAI — публиковать отчёты о безопасности, в то время как губернатор Нью-Йорка Кэти Хочул рассматривает аналогичный законопроект.
Сторонники этих законопроектов отмечают, что большинство лабораторий ИИ и так публикуют подобную информацию — но, очевидно, не все делают это последовательно.На сегодняшний день модели ИИ ещё не продемонстрировали реальных сценариев, в которых они наносят по-настоящему катастрофический ущерб, такой как гибель людей или убытки в миллиарды долларов.
Однако многие исследователи ИИ говорят, что это может стать проблемой в ближайшем будущем, учитывая быстрый прогресс моделей ИИ и миллиарды долларов, которые Кремниевая долина инвестирует в дальнейшее улучшение ИИ.Но даже для скептиков таких катастрофических сценариев есть веские доводы в пользу того, что поведение Grok делает продукты, которые он поддерживает, значительно хуже.
На этой неделе Grok распространял антисемитизм на платформе X, всего через несколько недель после того, как чат-бот неоднократно упоминал «геноцид белых» в разговорах с пользователями. Маск указал, что Grok будет более интегрирован в автомобили Tesla, а xAI пытается продать свои модели ИИ Пентагону и другим предприятиям. Трудно представить, что люди, управляющие автомобилями Маска, федеральные служащие, защищающие США, или сотрудники предприятий, автоматизирующие задачи, будут более благосклонны к этим промахам, чем пользователи на X.
Несколько исследователей утверждают, что тестирование безопасности и выравнивания ИИ не только предотвращает худшие исходы, но и защищает от краткосрочных поведенческих проблем.Как минимум, инциденты с Grok затмевают быстрый прогресс xAI в разработке пограничных моделей ИИ, которые превосходят технологии OpenAI и Google, всего через пару лет после основания стартапа.
Оригинал
Уникальность