6861 subscriber

🦉 OWL-ViT: Обнаружение объектов в открытом мире с Vision Transformers

OWL-ViT — детектор объектов с открытым датасетом. Принимая на вход изображение и произвольный текст, OWL-ViT находит на изображении объекты, соответствующие этому запросу. Он также может выполнять однократное обнаружение объектов, то есть обнаруживать объекты на основе одного примера изображения. OWL-ViT достигает высочайшего уровня производительности.

🦉 OWL-ViT: Обнаружение объектов в открытом мире с Vision Transformers

Мы предоставляем исходный код для запуска с предварительно обученными моделями. Тренировочный код появится в ближайшее время.

В примере Colab показаны все шаги, необходимые для выполнения вывода, включая установку Scenic, создание экземпляра модели, загрузку контрольных точеч, предварительную обработку входных изображений, получение прогнозов и их визуализацию.

Пример кода запуска модели:

Варианты модели

Модели OWL-ViT и их предварительно обученные контрольные точки указываются в конфигурационных файлах. Файлы контрольных точек совместимы с Flax.

Если вы используете OWL-ViT, ознакомьтесь со статьей:

Github: https://github.com/google-research/scenic/tree/main/scenic/projects/owl_vit

Paper: https://arxiv.org/abs/2205.06230

Colab: https://colab.research.google.com/github/google-research/scenic/blob/main/scenic/projects/owl_vit/notebooks/OWL_ViT_minimal_example.ipynb

Dataset: https://paperswithcode.com/dataset/objects365