LocateAnything: новая модель для поиска объектов и текста на изображениях

<p>Исследовательское подразделение NVIDIA представило <b>LocateAnything</b> — vision-language модель, способную находить объекты, текст и элементы интерфейса на изображениях по текстовому запросу. В отличие от многих других решений, LocateAnything не собирает координаты рамки по частям, а сразу выдаёт целую bounding box, что ускоряет процесс локализации.</p>

<h2>Как работает LocateAnything</h2>

<p>В основе модели — 3 миллиарда параметров и специальная технология <b>Parallel Box Decoding</b>, которая позволяет быстро определять границы искомых объектов. Это даёт прирост скорости до 2,5 раз по сравнению с предыдущими подходами. Модель обучалась на массивном датасете: 12 миллионов изображений, 138 миллионов текстовых запросов и 785 миллионов bounding boxes.</p>

<h3>Что умеет LocateAnything</h3>

<ul>
<li>Находит объекты, текст и элементы интерфейса на изображениях по текстовому описанию.</li>
<li>Мгновенно определяет координаты рамки для найденного объекта.</li>
<li>Работает с широким спектром визуальных задач — от поиска кнопок в интерфейсах до выделения текста на фотографиях.</li>
</ul>

<p>Модель распространяется по некоммерческой лицензии и предназначена для исследований и разработки. Скачать и протестировать LocateAnything можно на платформе Hugging Face: huggingface.co/nvidia/LocateAnything-3B.</p>

<p>Благодарность за новость — @Endorpheen.</p>

Нейро Отличник