openai/clip-vit-base-patch32
🧠 Модель ИИopenai
Базовая модель CLIP от OpenAI для классификации изображений без обучения с ViT-B/32.
Модель openai/clip-vit-base-patch32 — это вариант CLIP на основе Vision Transformer (ViT), обученный на массивном наборе данных из 400 миллионов пар изображение-текст, собранных из интернета. Модель использует размер патча 32x32 и базовую архитектуру ViT. Она выдаёт 512-мерные эмбеддинги как для изображений, так и для текста. CLIP обеспечивает классификацию изображений без обучения (zero-shot) путём вычисления косинусного сходства между эмбеддингами изображений и текстовыми эмбеддингами меток классов. Поддерживает несколько фреймворков (PyTorch, TensorFlow, JAX) и совместим с развёртыванием через эндпоинты Hugging Face. С более чем 16 миллионами загрузок остаётся одной из самых популярных моделей для задач зрения и языка.
💡Основное
- ├─16M+ загрузок на Hugging Face
- ├─ViT-B/32, эмбеддинги 512
- └─Классификация без обучения для любых классов
🎯Для
- ├─Исследователи
- ├─ML-инженеры
- └─Разработчики компьютерного зрения