Surflo: 3D‑реконструкция поверхностей из фото без привязки к камере

<p>Появилась новая модель <b>Surflo</b> для 3D‑реконструкции поверхностей, которая работает с набором фотографий одного объекта или сцены и не требует информации о позиции камеры. Это значит, что для создания единой 3D‑поверхности достаточно просто загрузить от двух до 32 снимков — модель сама справится с их объединением.</p>

<h3>Как устроена Surflo</h3>
<p>В основе архитектуры — энкодер с <b>VGGT-backbone</b>, Perceiver-компрессор и декодер, использующий flow-matching ODE. Для повышения качества реконструкции применяется специальный механизм с <b>гауссианами</b>. Входные изображения кодируются в глобальное состояние фиксированного размера — 128 токенов, независимо от количества снимков. Это позволяет генерировать 3D‑поверхности с любым разрешением: от нескольких тысяч до миллиона точек за один проход.</p>

<p>Отдельно стоит отметить механизм guidance, который помогает подавлять локальные несоответствия между точками. Surflo использует общую функцию потерь рендеринга, что позволяет добиться согласованности в итоговой 3D‑модели даже при небольшом количестве исходных видов.</p>

<h3>Чем отличается от других методов</h3>
<ul>
<li>Не требует сотен изображений — достаточно 2–32 фото.</li>
<li>Работает быстрее оптимизационных подходов: нет необходимости в долгой настройке под каждый объект.</li>
<li>Генерирует поверхности с произвольным разрешением за один проход.</li>
<li>Подавляет локальные ошибки благодаря guidance и общей функции потерь.</li>
</ul>

<p>Исходный код Surflo пока не опубликован, но его появление ожидается на GitHub. За новостью стоит следить тем, кто работает с 3D‑реконструкцией по фото и ищет быстрые решения без сложной подготовки данных.</p>

<p>Благодарим <b>@m_franz</b> за информацию о проекте.</p>

Нейро Отличник