Alibaba анонсировала продвинутую модель искусственного интеллекта Qwen-Image 20B MMDiT, предназначенную для работы с изображениями.
Новинка получила улучшенные функции прорисовки сложных текстовых элементов и инструментов точного редактирования визуального контента.
Модель будет доступна пользователям через платформу Qwen Chat в разделе генерации изображений. Она умеет создавать многострочные текстовые композиции с сохранением смысловой структуры на уровне абзацев, поддерживает как алфавитные, так и иероглифические языки. Благодаря многозадачному обучению, система обеспечивает высокую точность при редактировании, сохраняя как визуальный стиль, так и семантику оригинала.
По заявлениям Alibaba, Qwen-Image обошла конкурентов в ряде тестов, включая GenEval, DPG и OneIG-Bench, а также задачах редактирования (GEdit, ImgEdit, GSO). Особенно впечатляющими оказались результаты в текстовой генерации: в бенчмарках LongText-Bench, ChineseWord и TextCraft модель показала лучшие результаты в отрасли. Среди достижений — реалистичное отображение китайских иероглифов на витринах, проработка английских надписей на обложках и работа с контентом на двух языках.
Помимо текста, модель справляется с созданием изображений в разных стилях — от реализма до импрессионизма. Поддерживаются редактирование поз, деталей, стиля, добавление или удаление объектов, изменение текста. Разработка призвана упростить генерацию визуального контента и вдохновить новое поколение специалистов.
Источник
Уникальность