openai/clip-vit-large-patch14

🧠 KI-Modellopenai

OpenAIs CLIP ViT-L/14: Zero-Shot-Bildklassifikation, trainiert auf 400M Bild-Text-Paaren.

Das CLIP ViT-L/14-Modell ist ein großes neuronales Netzwerk, das mittels kontrastivem Lernen auf 400 Millionen aus dem Internet gesammelten Bild-Text-Paaren trainiert wurde. Es besteht aus einem Vision Transformer (ViT-L/14) für die Bildkodierung und einem transformerbasierten Text-Encoder. Das Modell gibt 768-dimensionale Einbettungen für beide Modalitäten aus und ermöglicht Zero-Shot-Bildklassifikation durch Berechnung der Kosinusähnlichkeit zwischen Bild- und Texteinbettungen. Es unterstützt mehrere Deep-Learning-Frameworks (PyTorch, TensorFlow, JAX) und ist mit Safetensors verfügbar. Zu den wichtigsten Innovationen gehören die Verwendung natürlicher Sprachüberwachung für Sehaufgaben und die Fähigkeit, ohne Feinabstimmung über verschiedene Klassifikationskategorien zu generalisieren. Das Modell wird aufgrund seiner starken Leistung auf Benchmarks wie ImageNet und seiner Flexibilität für nachgelagerte Aufgaben wie Abruf, Beschriftung und visuelle Fragenbeantwortung in Forschung und Produktion häufig eingesetzt.

💡Highlights

├─Zero-Shot-Bildklassifikation
├─400M Bild-Text-Paare trainiert
└─ViT-L/14 Backbone

🎯Für

├─ML-Forscher
├─Computer-Vision-Ingenieure
└─KI-Entwickler

🔗Links

└─Hugging Face Modellkarte