openai/clip-vit-base-patch32

🧠 KI-Modellopenai

OpenAIs CLIP-Basismodell für Zero-Shot-Bildklassifikation mit ViT-B/32.

Das openai/clip-vit-base-patch32-Modell ist eine auf Vision Transformer (ViT) basierende Variante von CLIP, trainiert auf einem massiven Datensatz von 400 Millionen aus dem Internet gesammelten Bild-Text-Paaren. Das Modell verwendet eine Patch-Größe von 32x32 und eine Basis-ViT-Architektur. Es gibt 512-dimensionale Embeddings sowohl für Bilder als auch für Text aus. CLIP ermöglicht Zero-Shot-Bildklassifikation, indem die Kosinus-Ähnlichkeit zwischen Bild-Embeddings und Text-Embeddings von Kandidatenlabels berechnet wird. Es unterstützt mehrere Frameworks (PyTorch, TensorFlow, JAX) und ist kompatibel mit Hugging Faces Endpunkt-Bereitstellung. Mit über 16 Millionen Downloads bleibt es eines der beliebtesten Vision-Language-Modelle.

💡Highlights

├─16M+ Downloads auf Hugging Face
├─ViT-B/32, 512-dim Embeddings
└─Zero-Shot-Klassifikation auf beliebigen Klassen

🎯Für

├─Forschende
├─ML-Ingenieure
└─Computer-Vision-Entwickler

🔗Links

└─Hugging Face Modellseite