Китайская лаборатория искусственного интеллекта DeepSeek, возможно, привлекла к себе основное внимание технологической индустрии на этой неделе. Но один из ее главных внутренних конкурентов, компания Alibaba, не сидит сложа руки. В понедельник команда Alibaba Qwen выпустила новое семейство моделей искусственного интеллекта Qwen2.5-VL, которые могут выполнять ряд задач по анализу текстов и изображений.
Модели могут разбирать файлы, понимать видео, считать объекты на изображениях, а также управлять компьютером - аналогично модели, на которой работает недавно запущенный OpenAI Operator. Согласно бенчмаркам, проведенным командой Qwen, лучшая модель Qwen2.5-VL опережает GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 2.0 Flash от Google по ряду оценок понимания видео, математики, анализа документов и ответов на вопросы.
Qwen2.5-VL, который можно протестировать в приложении Alibaba Qwen Chat и загрузить с платформы для разработки ИИ Hugging Face, может анализировать графики и диаграммы, извлекать данные из сканов счетов и форм, а также «понимать» многочасовые видео, утверждает команда Qwen. Qwen2.5-VL также может распознавать «IP-адреса фильмов и сериалов, а также широкий спектр продуктов», по словам команды, что позволяет предположить, что модели могли быть частично обучены на работах, защищенных авторским правом.
ИИ Qwen2.5-VL, разработанный китайской компанией, имеет определенные ограничения на темы, которые он может обсуждать - по крайней мере, в чате Qwen. Когда я попросил самую большую и способную модель Qwen2.5-VL, Qwen2.5-VL-72B, поговорить об «ошибках Си Цзиньпина», Qwen Chat выдал сообщение об ошибке. Китайский регулятор интернета проверяет многие модели, разработанные в стране, чтобы убедиться, что их ответы «воплощают основные социалистические ценности». Многие китайские системы искусственного интеллекта отказываются отвечать на темы, которые могут вызвать гнев регуляторов, например, об автономии Тайваня.
Одной из наиболее интересных особенностей Qwen2.5-VL является его способность взаимодействовать с программным обеспечением - как на ПК, так и на мобильных устройствах. В видеоролике, опубликованном на сайте X Филиппом Шмидом, техническим руководителем компании Hugging Face, показано, как Qwen2.5-VL запускает приложение Booking.com для Android и бронирует билет из Чунцина в Пекин. На видео ниже модель Qwen2.5-VL управляет приложениями на рабочем столе Linux, но, похоже, не может выполнить ничего, кроме переключения вкладок.
Возможно, показательно, что бенчмаркинг Qwen показывает, что Qwen2.5-VL плохо справляется с OSWorld, бенчмарком, который пытается имитировать реальную компьютерную среду. Две меньшие, менее сложные модели серии Qwen2.5-VL, Qwen2.5-VL-3B и Qwen2.5-VL-7B, доступны по разрешительной лицензии. Флагманская модель Qwen2.5-VL-72B, однако, доступна по пользовательской лицензии Alibaba, которая требует, чтобы компании и разработчики с более чем 100 миллионами ежемесячных активных пользователей запрашивали разрешение у Qwen/Alibaba перед коммерческим развертыванием модели.
Оригинал
Уникальность