DeepMind, исследовательская организация Google, занимающаяся вопросами искусственного интеллекта, представила модель, способную генерировать «бесконечное» разнообразие игровых 3D-миров.
Модель, получившая название Genie 2 и ставшая преемницей DeepMind Genie, выпущенной в начале этого года, может генерировать интерактивную сцену в реальном времени на основе одного изображения и текстового описания (например, «Милый человекоподобный робот в лесу»). В этом она похожа на модели, разрабатываемые компанией Фей-Фей Ли, World Labs, и израильским стартапом Decart.
DeepMind утверждает, что Genie 2 может генерировать «огромное разнообразие богатых 3D-миров», включая миры, в которых пользователи могут совершать такие действия, как прыжки и плавание, с помощью мыши или клавиатуры. Обученная на видео, модель способна моделировать взаимодействие объектов, анимацию, освещение, физику, отражения и поведение «NPC».
Многие симуляции Genie 2 выглядят как видеоигры AAA - и причина может быть в том, что данные для обучения модели содержат прохождение популярных игр. Но DeepMind, как и многие другие лаборатории искусственного интеллекта, не раскрывает подробностей о своих методах получения данных - по соображениям конкуренции или по другим причинам.
Интересно, что это может иметь последствия для интеллектуальной собственности. DeepMind - дочерняя компания Google - имеет неограниченный доступ к YouTube, и Google ранее намекала, что ее ToS дает ей разрешение на использование видеороликов YouTube для обучения моделей. Но создает ли Genie 2 несанкционированные копии видеоигр, которые она «смотрит»? Это предстоит решить суду.
DeepMind утверждает, что Genie 2 может генерировать последовательные миры с различными перспективами, такими как вид от первого лица и изометрический вид, в течение минуты, причем большинство из них длятся от 10 до 20 секунд.
«Genie 2 разумно реагирует на действия, совершаемые при нажатии клавиш на клавиатуре, идентифицирует персонажа и правильно перемещает его», - пишет DeepMind в своем блоге. «Например, наша модель [может] понять, что клавиши со стрелками должны перемещать робота, а не деревья или облака».
Большинство моделей, подобных Genie 2, - модели мира, если хотите, - могут имитировать игры и 3D-окружение, но с артефактами, согласованностью и проблемами, связанными с галлюцинациями. Например, симулятор Minecraft от Decart, Oasis, имеет низкое разрешение и быстро «забывает» расположение уровней.
Genie 2, однако, может запоминать части симулируемой сцены, которые не видны, и точно отображать их, когда они снова становятся видимыми. (Модели World Labs тоже умеют это делать).
Игры, созданные с помощью Genie 2, будут не слишком увлекательными, ведь они будут стирать ваш прогресс каждую минуту или около того. Поэтому DeepMind позиционирует модель скорее как исследовательский и творческий инструмент - средство для создания прототипов «интерактивного опыта» и оценки агентов ИИ.
«Благодаря возможностям обобщения Genie 2 за пределами распространения, концепт-арты и рисунки могут быть превращены в полностью интерактивные среды», - пишет DeepMind. «Используя Genie 2 для быстрого создания богатых и разнообразных сред для агентов ИИ, наши исследователи могут генерировать задачи оценки, которые агенты не видели во время обучения».
Креативщики могут испытывать смешанные чувства - особенно те, кто работает в индустрии видеоигр. Недавнее расследование Wired показало, что такие крупные игроки, как Activision Blizzard, уволившая десятки работников, используют ИИ для сокращения расходов, повышения производительности и компенсации убытков.
Тем не менее Google вкладывает все больше ресурсов в исследования модели мира, которые обещают стать следующей большой вещью в ИИ. В октябре DeepMind наняла Тима Брукса, который возглавлял разработку видеогенератора Sora от OpenAI, для работы над технологиями генерации видео и симуляторами мира. А два года назад лаборатория переманила из Meta Тима Роктешеля, наиболее известного своими экспериментами с видеоиграми типа NetHack, посвященными «бесконечности».
Оригинал
Уникальность
Модель, получившая название Genie 2 и ставшая преемницей DeepMind Genie, выпущенной в начале этого года, может генерировать интерактивную сцену в реальном времени на основе одного изображения и текстового описания (например, «Милый человекоподобный робот в лесу»). В этом она похожа на модели, разрабатываемые компанией Фей-Фей Ли, World Labs, и израильским стартапом Decart.
DeepMind утверждает, что Genie 2 может генерировать «огромное разнообразие богатых 3D-миров», включая миры, в которых пользователи могут совершать такие действия, как прыжки и плавание, с помощью мыши или клавиатуры. Обученная на видео, модель способна моделировать взаимодействие объектов, анимацию, освещение, физику, отражения и поведение «NPC».
Многие симуляции Genie 2 выглядят как видеоигры AAA - и причина может быть в том, что данные для обучения модели содержат прохождение популярных игр. Но DeepMind, как и многие другие лаборатории искусственного интеллекта, не раскрывает подробностей о своих методах получения данных - по соображениям конкуренции или по другим причинам.
Интересно, что это может иметь последствия для интеллектуальной собственности. DeepMind - дочерняя компания Google - имеет неограниченный доступ к YouTube, и Google ранее намекала, что ее ToS дает ей разрешение на использование видеороликов YouTube для обучения моделей. Но создает ли Genie 2 несанкционированные копии видеоигр, которые она «смотрит»? Это предстоит решить суду.
DeepMind утверждает, что Genie 2 может генерировать последовательные миры с различными перспективами, такими как вид от первого лица и изометрический вид, в течение минуты, причем большинство из них длятся от 10 до 20 секунд.
«Genie 2 разумно реагирует на действия, совершаемые при нажатии клавиш на клавиатуре, идентифицирует персонажа и правильно перемещает его», - пишет DeepMind в своем блоге. «Например, наша модель [может] понять, что клавиши со стрелками должны перемещать робота, а не деревья или облака».
Большинство моделей, подобных Genie 2, - модели мира, если хотите, - могут имитировать игры и 3D-окружение, но с артефактами, согласованностью и проблемами, связанными с галлюцинациями. Например, симулятор Minecraft от Decart, Oasis, имеет низкое разрешение и быстро «забывает» расположение уровней.
Genie 2, однако, может запоминать части симулируемой сцены, которые не видны, и точно отображать их, когда они снова становятся видимыми. (Модели World Labs тоже умеют это делать).
Игры, созданные с помощью Genie 2, будут не слишком увлекательными, ведь они будут стирать ваш прогресс каждую минуту или около того. Поэтому DeepMind позиционирует модель скорее как исследовательский и творческий инструмент - средство для создания прототипов «интерактивного опыта» и оценки агентов ИИ.
«Благодаря возможностям обобщения Genie 2 за пределами распространения, концепт-арты и рисунки могут быть превращены в полностью интерактивные среды», - пишет DeepMind. «Используя Genie 2 для быстрого создания богатых и разнообразных сред для агентов ИИ, наши исследователи могут генерировать задачи оценки, которые агенты не видели во время обучения».
Креативщики могут испытывать смешанные чувства - особенно те, кто работает в индустрии видеоигр. Недавнее расследование Wired показало, что такие крупные игроки, как Activision Blizzard, уволившая десятки работников, используют ИИ для сокращения расходов, повышения производительности и компенсации убытков.
Тем не менее Google вкладывает все больше ресурсов в исследования модели мира, которые обещают стать следующей большой вещью в ИИ. В октябре DeepMind наняла Тима Брукса, который возглавлял разработку видеогенератора Sora от OpenAI, для работы над технологиями генерации видео и симуляторами мира. А два года назад лаборатория переманила из Meta Тима Роктешеля, наиболее известного своими экспериментами с видеоиграми типа NetHack, посвященными «бесконечности».
Оригинал
Уникальность