Исследовательская группа из Университета Карнеги-Меллона создала модель искусственного интеллекта под названием LegoGPT, которая выводит правильные конструкции LEGO на основе текстовых данных. Согласно исследовательскому документу, опубликованному на GitHub, команда обучила «авторегрессионную модель большого языка для предсказания следующего добавляемого кирпича с помощью предсказания по следующему токену», но ключевым моментом является то, что ИИ LLM создает конструкции LEGO с нуля.
ИИ был обучен на наборе данных, содержащем более 47 000 конструкций LEGO, из которых можно построить более 28 000 уникальных 3D-объектов, включая книжные полки, столы, стулья, автомобили, корабли, гитары и многое другое. Эти данные были использованы для обучения модели искусственного интеллекта, что позволило ей создавать уникальные и оригинальные конструкции исключительно на основе текстового ввода. Инструмент доступен бесплатно на GitHub, и вы можете использовать его в паре с моделью компьютерного зрения или ИИ для обработки изображений.
Например, вы можете сфотографировать имеющиеся у вас кирпичики LEGO и позволить ИИ предложить вам множество уникальных вариантов строительства из того, что у вас уже есть. Команда добавила проверку достоверности и откат с учетом физики во время авторегрессионного вывода, гарантируя, что конечный результат всегда будет достоверным (т.е. без перекрывающихся кирпичей) и стабильным (т.е. без плавающих кирпичей). Кроме того, конечный результат LegoGPT может быть построен как человеком, так и роботом.
Вот как команда создала набор данных StableText2Lego, используемый для обучения LegoGPT: текстовый запрос сначала преобразуется в сетку ShapeNetCore. Затем она вставляется в воксельную сетку размером 20 x 20 x 20, на основе которой определяется начальная схема расположения кирпичиков LEGO. Затем эта схема изменяется, сохраняя общую форму, а затем из конечного результата отфильтровываются нестабильные конструкции. Оставшиеся конструкции визуализируются в 24 различных точках обзора, а затем GPT-4o используется для создания описаний для конечного результата.
Так создается новый дизайн с помощью текста: LegoGPT преобразует текст в конструктор LEGO, который затем преобразуется в текстовые лексемы, упорядоченные снизу вверх. Затем создаются инструкции для сопряжения структурированных кирпичиков LEGO с аннотациями, поясняющими конструкцию, чтобы ИИ понимал взаимосвязь между текстовой подсказкой и физическими кирпичиками. После этого LegoGPT предсказывает следующий кирпич, необходимый для создания конструкции, используя авторегрессионную модель.
Это означает, что на каждом шаге он будет проверять правильность кирпича, проверяя, правильно ли он отформатирован, существует ли в библиотеке и не пересекается ли с существующими кирпичами. Так продолжается до тех пор, пока конструкция не будет завершена, после чего проверяется ее стабильность. Если ИИ определит, что результат нестабилен, он откатится к последнему стабильному состоянию и продолжит генерацию с этой точки. Как только он получит стабильный конечный результат, разработка будет завершена.
Если вы хотите поиграть с ИИ самостоятельно, команда опубликовала набор данных, код и модели, облегчив тем самым любому желающему форк работы команды. Одним из вариантов развития событий может стать превращение этого проекта в загружаемое приложение для ИИ с настраиваемой библиотекой кирпичей.
Оригинал
Уникальность
Последнее редактирование: