Появилась новая так называемая «рассуждающая» модель ИИ, QwQ-32B-Preview. Она является одной из немногих, конкурирующих с o1 от OpenAI, и впервые доступна для загрузки по разрешительной лицензии.
Разработанный командой Qwen из Alibaba, QwQ-32B-Preview содержит 32,5 миллиарда параметров и может рассматривать подсказки длиной до ~32 000 слов; он показывает лучшие результаты в некоторых тестах, чем o1-preview и o1-mini, две модели рассуждений, которые OpenAI выпустила на данный момент. (Параметры примерно соответствуют навыкам модели в решении задач, и модели с большим количеством параметров обычно работают лучше, чем модели с меньшим количеством параметров. OpenAI не раскрывает количество параметров для своих моделей.)
По результатам тестирования Alibaba, QwQ-32B-Preview выигрывает у моделей o1 от OpenAI в тестах AIME и MATH. В AIME для оценки эффективности модели используются другие модели ИИ, а MATH представляет собой набор словесных задач.
QwQ-32B-Preview может решать логические головоломки и отвечать на достаточно сложные математические вопросы, благодаря своим «рассуждающим» способностям. Но он не идеален. Alibaba отмечает в своем блоге, что модель может неожиданно переключать языки, зацикливаться и не справляться с задачами, требующими «здравого смысла».
В отличие от большинства ИИ, QwQ-32B-Preview и другие модели рассуждений эффективно проверяют факты. Это помогает им избегать некоторых подводных камней, которые обычно подстерегают модели, но в то же время на поиск решений уходит больше времени. Подобно o1, QwQ-32B-Preview решает задачи, планируя наперед и выполняя ряд действий, которые помогают модели находить ответы.
QwQ-32B-Preview, которую можно запустить и загрузить с платформы для разработки ИИ Hugging Face, похожа на недавно выпущенную модель рассуждений DeepSeek тем, что она осторожно подходит к некоторым политическим темам. Alibaba и DeepSeek, будучи китайскими компаниями, подвергаются контролю со стороны китайского интернет-регулятора, чтобы убедиться, что ответы их моделей «воплощают основные социалистические ценности». Многие китайские системы искусственного интеллекта отказываются отвечать на вопросы, которые могут вызвать гнев регуляторов, например, рассуждения о режиме Си Цзиньпина.
На вопрос «Является ли Тайвань частью Китая?» QwQ-32B-Preview ответил, что является (и к тому же «неотъемлемой») - точка зрения, не совпадающая с мнением большинства стран мира, но согласующаяся с мнением правящей партии Китая. На вопрос о площади Тяньаньмэнь, тем временем, ответа не последовало. QwQ-32B-Preview находится в «открытом» доступе под лицензией Apache 2.0, что означает возможность его использования в коммерческих целях.
Однако были опубликованы только некоторые компоненты модели, что делает невозможным воспроизведение QwQ-32B-Preview или получение глубокого понимания внутренней работы системы. Вопрос об «открытости» моделей ИИ не является однозначным, но существует общий континуум от более закрытого (доступ только к API) до более открытого (модель, веса, данные раскрыты), и эта модель находится где-то посередине.
Повышенное внимание к моделям рассуждений происходит на фоне того, что жизнеспособность «законов масштабирования» - давних теорий о том, что увеличение количества данных и вычислительных мощностей в модели будет постоянно увеличивать ее возможности, - подвергается тщательному анализу. Шквал сообщений в прессе говорит о том, что модели от крупнейших лабораторий ИИ, включая OpenAI, Google и Anthropic, улучшаются не так значительно, как раньше.
Это привело к поиску новых подходов, архитектур и методов разработки ИИ, одним из которых являются вычисления в тестовое время. Известный также как вычисление выводов, вычисление в тестовое время, по сути, дает моделям дополнительное время на выполнение задач, и лежит в основе таких моделей, как o1 и QwQ-32B-Preview. .
Крупные лаборатории, помимо OpenAI и китайских фирм, делают ставку на то, что за вычислениями в тестовое время - будущее. Согласно недавнему сообщению The Information, Google расширила внутреннюю команду, занимающуюся разработкой моделей, до 200 человек и добавила значительные вычислительные мощности.
Оригинал
Уникальность