Национальный институт стандартов и технологий (NIST) опубликовал отчет о сравнительном тестировании моделей искусственного интеллекта, разработанных американскими компаниями OpenAI и Anthropic, а также китайской DeepSeek. Исследование, проведенное под эгидой созданного в 2025 году Центра стандартов и инноваций в области ИИ (CAISI), утверждает, что американские модели превзошли DeepSeek по 19 бенчмаркам.
Однако результаты требуют критического анализа, так как тестирование охватывало устаревшие версии DeepSeek (R1, R1-0528 и V3.1), тогда как новая модель V3.2-Exp, выпущенная 29 сентября 2025 года, не была включена. Кроме того, геополитическая риторика, сопровождающая отчет, вызывает вопросы о возможной предвзятости.Министр торговли США Ховард Лутник, комментируя результаты на платформе X 1 октября 2025 года, заявил, что отставание DeepSeek, особенно в кибербезопасности и программной инженерии, подчеркивает риски зависимости от иностранных ИИ.
Он связал это с угрозами национальной безопасности США, продвигая «План действий по ИИ» президента Дональда Трампа, направленный на укрепление американского лидерства в этой области. Однако такие утверждения требуют проверки, учитывая, что NIST, как часть Министерства торговли, выполняет функции, связанные с поддержкой конкурентоспособности США, что может влиять на объективность выводов.Тестирование, описанное в 69-страничном отчете от 30 сентября 2025 года, сравнивало модели DeepSeek с GPT-5, GPT-5-mini, GPT-oss (OpenAI) и Opus 4 (Anthropic) по 19 бенчмаркам.
Среди них: SWE-bench Verified и Breakpoint для программной инженерии, MMLU-Pro и GPQA для оценки общих знаний, математические конкурсы SMT 2025, PUMaC 2024 и OTIS-AIME 2025 для проверки математического мышления, а также фреймворк AgentDojo для оценки устойчивости к атакам перехвата управления. CAISI также разработал собственные тесты для выявления цензуры, связанной с политикой Компартии Китая, из-за отсутствия стандартных метрик. Американские модели показали превосходство на 20–80% по производительности и на 35% меньшие эксплуатационные расходы (на основе API-вызовов, включая повторы и инструменты). DeepSeek оказался более уязвимым к джейлбрейку, что увеличивает риски непреднамеренного поведения.
Однако выводы NIST вызывают вопросы. Во-первых, тестирование не включало последнюю модель DeepSeek V3.2-Exp, которая, по данным разработчиков, использует разреженное внимание (sparse attention), снижая затраты на обработку длинных контекстов на 50–75% без потери качества. Это может нивелировать часть выявленных недостатков. Во-вторых, независимые бенчмарки, такие как LMSYS Leaderboard (август 2025), показывают, что DeepSeek V3.1 был конкурентоспособен с GPT-4o и Claude 3.5 Sonnet в задачах общего назначения, с затратами на обучение около $6 млн против $100+ млн для GPT-4.
Это ставит под сомнение утверждения о значительном отставании китайских моделей. В-третьих, обвинения в предвзятости DeepSeek, связанной с цензурой КПК, не подкреплены сравнением с аналогичными тестами на американские модели, которые также могут отражать культурные или политические предпочтения.CAISI отмечает, что использование DeepSeek, особенно модели R1, продолжает расти, несмотря на риски для разработчиков, потребителей и национальной безопасности США. Однако отсутствие анализа новейших моделей и игнорирование альтернативных бенчмарков, таких как тесты Alibaba Qwen, ограничивают значимость выводов.
Кроме того, акцент на национальной безопасности может быть преувеличен: в 2024 году исследования MITRE показали, что уязвимости ИИ-моделей к джейлбрейку являются общими для всех крупных моделей, независимо от страны происхождения.Для объективной оценки необходимы дополнительные независимые тесты, включающие актуальные версии DeepSeek и других китайских моделей, а также сравнение с глобальными конкурентами, такими как xAI Grok или Meta LLaMA. Без этого выводы NIST рискуют быть восприняты как часть геополитической повестки, а не как беспристрастный научный анализ. Этичные вопросы, включая влияние ограничений на доступ к ИИ-технологиям в глобальном масштабе, также требуют обсуждения.
Оригинал
Уникальность