Bolt3D: Революционная ИИ-система от Google для молниеносного создания 3D-сцен из фотографий

Google Research и Google DeepMind представили новейшую систему искусственного интеллекта, которая за несколько секунд преобразует фотографии в реалистичные 3D-сцены, при условии, что ей известна позиция камеры.

Эта система, названная Bolt3D, обрабатывает изображения и создает полноценные трехмерные сцены всего за 6,25 секунды на графическом процессоре Nvidia H100. В отличие от других систем, которые могут занять несколько минут или даже часов, Bolt3D значительно ускоряет этот процесс.

На первом этапе Bolt3D определяет положение каждого пикселя в трехмерном пространстве и его цвет. Затем вторая модель оценивает, насколько прозрачной должно быть каждое отдельное место и как оно распределено в пространстве.

Для управления данными система применяет метод «гауссовского размазывания», организуя 3D-сцену на основе трехмерных гауссовских функций, расположенных в двумерных сетках. Каждая функция отслеживает местоположение, цвет, прозрачность и пространственные параметры, позволяя пользователям взаимодействовать со сценой под любым углом в реальном времени. Чтобы оптимизировать работу с данными, система удаляет прозрачные области и эффективно сжимает оставшиеся элементы.

Исследования показывают, что Bolt3D значительно превосходит аналогичные системы, такие как Flash3D и DepthSplat. В то время как они имеют возможность размывать только видимые области, Bolt3D генерирует реалистичный контент даже для скрытых частей сцен.

Эта функция возможна благодаря специализированной модели искусственного интеллекта, предназначенной для работы с пространственными данными. Ученые установили, что обычные модели, обученные исключительно на фотографиях, не справляются с особенностями трехмерной информации.

Чтобы разработать эту функцию, команда обучила Bolt3D на базе около 300 000 3D-сцен, используя как реконструкции на основе фотографий, так и компьютерные модели. Этот обширный набор данных позволяет системе делать обоснованные предположения о частях сцен, которые она не может полностью визуализировать.

Тем не менее, у системы есть ограничения. Она испытывает трудности с очень мелкими деталями (менее восьми пикселей), а также с прозрачными материалами, такими как стекло, и сильно отражающими поверхностями. Качество конечного результата во многом зависит от того, как были сделаны исходные фотографии и масштаба ожидаемого результата.

Несмотря на эти ограничения, Bolt3D представляет собой значительный прогресс в создании 3D-контента. Сообщается, что его высокая скорость может сделать создание масштабных 3D-сцен более реальным. Хотя пока нет информации о широкой доступности системы, заинтересованные пользователи могут узнать больше и посмотреть интерактивные демонстрации на сайте проекта.

Эта разработка появилась после выпуска Stability AI своей системы SPAR3D, которая также быстро создает 3D-объекты из отдельных изображений. Главное отличие состоит в том, что SPAR3D работает с отдельными объектами, а Bolt3D может обрабатывать целые сцены.