openai/clip-vit-base-patch32
🧠 KI-Modellopenai
OpenAIs CLIP-Basismodell für Zero-Shot-Bildklassifikation mit ViT-B/32.
Das openai/clip-vit-base-patch32-Modell ist eine auf Vision Transformer (ViT) basierende Variante von CLIP, trainiert auf einem massiven Datensatz von 400 Millionen aus dem Internet gesammelten Bild-Text-Paaren. Das Modell verwendet eine Patch-Größe von 32x32 und eine Basis-ViT-Architektur. Es gibt 512-dimensionale Embeddings sowohl für Bilder als auch für Text aus. CLIP ermöglicht Zero-Shot-Bildklassifikation, indem die Kosinus-Ähnlichkeit zwischen Bild-Embeddings und Text-Embeddings von Kandidatenlabels berechnet wird. Es unterstützt mehrere Frameworks (PyTorch, TensorFlow, JAX) und ist kompatibel mit Hugging Faces Endpunkt-Bereitstellung. Mit über 16 Millionen Downloads bleibt es eines der beliebtesten Vision-Language-Modelle.
💡Highlights
- ├─16M+ Downloads auf Hugging Face
- ├─ViT-B/32, 512-dim Embeddings
- └─Zero-Shot-Klassifikation auf beliebigen Klassen
🎯Für
- ├─Forschende
- ├─ML-Ingenieure
- └─Computer-Vision-Entwickler