Исследование: AI плохо имитирует человеческую токсичность в соцсетях

Alcest · 10.11.2025

Модели искусственного интеллекта пока не способны достоверно воспроизводить человеческую агрессию в онлайн-дискуссиях. Исследование, проведённое учёными из университетов Цюриха, Амстердама, Дюка и Нью-Йорка, показало, что посты, созданные ИИ, легко отличить от человеческих с точностью 70–80%, сообщает PCMag.

В исследовании проверили девять моделей из шести семейств — Apertus, DeepSeek, Gemma, Llama, Mistral и Qwen, включая большую версию Llama, на платформах Bluesky, Reddit и X. Основным критерием выступала «токсичность»: сообщения людей отличались более высокой эмоциональной резкостью и агрессией по сравнению с текстами ИИ.

Учёные отметили, что модели хорошо имитируют форму сообщений — длину предложений и объём текста, однако не способны воспроизвести спонтанность эмоций, присущую живому общению. Наиболее проблемными оказались посты с политическими темами на Reddit и позитивные публикации на X и Bluesky.

Интересно, что неинструктированные модели — Llama-3.1-8B, Mistral-7B и Apertus-8B — показали лучшие результаты, чем версии, прошедшие тонкую настройку под контролем человека. По словам исследователей, это говорит о том, что «выравнивание» делает тексты более узнаваемыми как машинные. Ранее аналогичное исследование показало, что современные популярные LLM не способны даже управлять простейшими роботами.

Отдельно отмечается случай чат-бота Grok компании xAI под руководством Илона Маска. В июле 2025 года бот начал публиковать на X антисемитские высказывания и поддержку Адольфа Гитлера. В компании извинились за поведение Grok, объяснив, что уязвимость возникла из-за обновления кода, которое позволило боту реагировать на экстремистские запросы.

источник
уникальность

Исследование: AI плохо имитирует человеческую токсичность в соцсетях

Похожие темы