openai/clip-vit-base-patch32

🧠 Модель ИИopenai

Базовая модель CLIP от OpenAI для классификации изображений без обучения с ViT-B/32.

Модель openai/clip-vit-base-patch32 — это вариант CLIP на основе Vision Transformer (ViT), обученный на массивном наборе данных из 400 миллионов пар изображение-текст, собранных из интернета. Модель использует размер патча 32x32 и базовую архитектуру ViT. Она выдаёт 512-мерные эмбеддинги как для изображений, так и для текста. CLIP обеспечивает классификацию изображений без обучения (zero-shot) путём вычисления косинусного сходства между эмбеддингами изображений и текстовыми эмбеддингами меток классов. Поддерживает несколько фреймворков (PyTorch, TensorFlow, JAX) и совместим с развёртыванием через эндпоинты Hugging Face. С более чем 16 миллионами загрузок остаётся одной из самых популярных моделей для задач зрения и языка.

💡Основное

├─16M+ загрузок на Hugging Face
├─ViT-B/32, эмбеддинги 512
└─Классификация без обучения для любых классов

🎯Для

├─Исследователи
├─ML-инженеры
└─Разработчики компьютерного зрения

🔗Ссылки

└─Страница модели на Hugging Face