Американский производитель чипов Nvidia презентовал семейство AI-моделей NVLM 1.0 с открытым кодом, что может конкурировать с ведущими проприетарными моделями.
Флагманская модель семейства NVLM-D-72B имеет 72 млрд параметров и показывает хорошие результаты как в визуальных, так и в текстовых задачах.
Лучший результат модель получила в категории OCRBench – 853, что указывает на отличные способности NVLM 1.0 в оптическом распознавании символов. Второй лучший результат в понимании природных изображений – VQAv2 . В этой категории он достигает 85.4, что лучше показателей GPT-4V и Gemini 1.5 Pro.
Хорошие показатели NVLM-D-72B имеет также в понимании диаграмм и графиков – AI2D . Результат 94,2 на уровне с ведущей GPT-4о, но уступает Llama 3-76В и Claude 3.5 Sonnet (94.7).
Nvidia на примерах показывает возможности своей модели. На основе инструкций она подробно описала изображение СЕО компании Дженсеном Хуангом и смогла его идентифицировать.
Напомню, в июне Nvidia представила Project G-Assist, помощника на базе искусственного интеллекта, ориентированного на геймеров. Он способен оценивать происходящее на экране компьютера и понимать контекст, а также «может предложить победную тактику в игре».
по материалам
уникальность