На прошлой неделе китайская лаборатория DeepSeek выпустила обновленную версию своей модели искусственного интеллекта R1, которая демонстрирует хорошие результаты в ряде тестов по математике и программированию. Компания не раскрыла источник данных, использованных для обучения модели, но некоторые исследователи в области искусственногоинтеллекта предполагают, что по крайней мере часть данных была взята из семейства искусственного интеллекта Gemini от Google.
Сэм Пэч, разработчик из Мельбурна, который создает оценки «эмоционального интеллекта» для ИИ, опубликовал то, что, по его утверждению, является доказательством того, что последняя модель DeepSeek была обучена на результатах Gemini. Модель DeepSeek, называемая R1-0528, предпочитает слова и выражения, схожие с теми, которые предпочитает Gemini 2.5 Pro от Google, сказал Пэч в посте в X.
Это не является неопровержимым доказательством. Но другой разработчик, создатель под псевдонимом «free speech eval» для ИИ под названием SpeechMap, отметил, что следы модели DeepSeek — «мысли», которые модель генерирует, работая над выводом, — «читаются как следы Gemini».
DeepSeek уже обвиняли в том, что она обучалась на данных конкурирующих моделей ИИ. В декабре разработчики заметили, что модель DeepSeek V3 часто идентифицировала себя как ChatGPT, платформу чат-ботов OpenAI на базе ИИ, что позволяет предположить, что она, возможно, была обучена на чат-журналах ChatGPT.
В начале этого года OpenAI сообщила Financial Times, что обнаружила доказательства, связывающие DeepSeek с использованием дистилляции, техники обучения моделей ИИ путем извлечения данных из более крупных и мощных моделей. По данным Bloomberg, Microsoft, тесный партнер и инвестор OpenAI, обнаружила, что в конце 2024 года через учетные записи разработчиков OpenAI были похищены большие объемы данных — учетные записи, которые, по мнению OpenAI, связаны с DeepSeek.
Дистилляция — не редкая практика, но условия обслуживания OpenAI запрещают клиентам использовать результаты работы моделей компании для создания конкурирующих ИИ.
Чтобы было ясно, многие модели неправильно идентифицируют себя и сходятся на одних и тех же словах и оборотах речи. Это потому, что открытый Интернет, из которого компании, занимающиеся ИИ,черпают большую часть своих обучающих данных, становится заваленным мусором ИИ. Контент-фермы используют ИИ для создания кликбейта, а боты наводняют Reddit и X.
Это «загрязнение», если можно так выразиться, значительно затрудняет тщательную фильтрацию результатов ИИ из обучающих наборов данных.
Тем не менее, эксперты в области ИИ, такие как Натан Ламберт, исследователь из некоммерческого института ИИ AI2, не считают невозможным, что DeepSeek обучался на данных из Gemini от Google.
«Если бы я был DeepSeek, я бы определенно создал тонну синтетических данных из лучшей API-модели, которая есть», — написал Ламберт в посте на X. «[DeepSeek] не хватает графических процессоров, но у них много денег. Для них это буквально означает больше вычислительных мощностей».
Отчасти в попытке предотвратить дистилляцию, компании, занимающиеся искусственным интеллектом, усиливают меры безопасности.
В апреле OpenAI начала требовать от организаций прохождения процедуры проверки личности для доступа к определенным продвинутым моделям. Для этого требуется удостоверение личности, выданное правительством одной из стран, поддерживаемых API OpenAI; Китай в этом списке отсутствует.
Кроме того, Google недавно начала «обобщать» следы, генерируемые моделями, доступными через ее платформу для разработчиков AI Studio, что затрудняет обучение конкурентоспособных моделей на следах Gemini. В мае компания Anthropic заявила, что начнет обобщать следы своей собственной модели, сославшись на необходимость защитить свои «конкурентные преимущества».
Мы обратились к Google за комментариями и обновим эту статью, если получим ответ.
Оригинал
Уникальность