Новости - OpenAI Point E: создавайте 3D-облако точек из сложных сигналов за считанные минуты на одном графическом процессоре

В новой статье Point-E: система для создания 3D-облака точек из сложных сигналов исследовательская группа OpenAI представляет Point E, систему условного синтеза текста 3D-облака точек, которая использует диффузионные модели для создания разнообразных и сложных 3D-форм, управляемых сложным текстом. подсказки.в минутах на одном графическом процессоре.
Удивительная производительность современных современных моделей генерации изображений стимулировала исследования в области создания трехмерных текстовых объектов.Однако, в отличие от 2D-моделей, которые могут генерировать выходные данные за минуты или даже секунды, объектно-генеративные модели обычно требуют нескольких часов работы графического процессора для создания одного образца.
В новой статье Point-E: система для создания трехмерных облаков точек из сложных сигналов исследовательская группа OpenAI представляет Point·E, текстовую систему условного синтеза для трехмерных облаков точек.Этот новый подход использует модель распространения для создания разнообразных и сложных 3D-форм из сложных текстовых сигналов всего за минуту или две на одном графическом процессоре.
Команда сосредоточена на задаче преобразования текста в 3D, что имеет решающее значение для демократизации создания 3D-контента для приложений реального мира, начиная от виртуальной реальности и игр и заканчивая промышленным дизайном.Существующие методы преобразования текста в 3D делятся на две категории, каждая из которых имеет свои недостатки: 1) генеративные модели можно использовать для эффективного создания образцов, но они не могут эффективно масштабироваться для разнообразных и сложных текстовых сигналов;2) предварительно обученная модель текст-изображение для обработки сложных и разнообразных текстовых сигналов, но этот подход требует больших вычислительных ресурсов, и модель может легко застрять в локальных минимумах, которые не соответствуют значимым или связным трехмерным объектам.
Поэтому команда изучила альтернативный подход, который призван объединить сильные стороны двух вышеупомянутых подходов, используя модель диффузии текста в изображение, обученную на большом наборе пар текст-изображение (что позволяет обрабатывать разнообразные и сложные сигналы) и модель распространения 3D-изображений, обученная на меньшем наборе пар текст-изображение.набор данных пары изображение-3D.Модель преобразования текста в изображение сначала сэмплирует входное изображение для создания единого синтетического представления, а модель преобразования изображения в 3D создает трехмерное облако точек на основе выбранного изображения.
Генеративный стек команды основан на недавно предложенных генеративных фреймворках для условного создания изображений из текста (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Они используют модель GLIDE с 3 миллиардами параметров GLIDE (Nichol et al., 2021), точно настроенную на визуализированных 3D-моделях, в качестве своей модели преобразования текста в изображение, а также набор моделей диффузии, которые генерируют облака точек RGB в качестве своей модели. модель трансформации.изображения к изображению.3D модели.
В то время как в предыдущей работе для обработки облаков точек использовалась 3D-архитектура, исследователи использовали простую модель на основе преобразователя (Vaswani et al., 2017) для повышения эффективности.В их архитектуре диффузионной модели изображения облака точек сначала загружаются в предварительно обученную модель ViT-L/14 CLIP, а затем выходные сетки передаются в преобразователь в качестве маркеров.
В своем эмпирическом исследовании команда сравнила предложенный метод Point·E с другими генеративными 3D-моделями при оценке сигналов из наборов данных обнаружения, сегментации и подписи объектов COCO.Результаты подтверждают, что Point·E способна генерировать разнообразные и сложные 3D-формы из сложных текстовых сигналов и ускорять время логического вывода на один-два порядка.Команда надеется, что их работа вдохновит на дальнейшие исследования в области синтеза 3D-текста.
Предварительно обученная модель распространения облака точек и оценочный код доступны на GitHub проекта.Документ Point-E: система для создания трехмерных облаков точек из сложных подсказок находится на arXiv.
Мы знаем, что вы не хотите пропустить ни одной новости или научного открытия.Подпишитесь на нашу популярную еженедельную рассылку Synced Global AI, чтобы получать еженедельные обновления AI.

Время публикации: 28 декабря 2022 г.