yuvalkirstain/PickScore_v1

🧠 KI-Modellyuvalkirstain

Zero-Shot-Bild-Text-Scoring-Modell basierend auf CLIP, trainiert auf Pick-a-Pic-Datensatz.

PickScore_v1 ist ein Zero-Shot-Bildklassifikationsmodell, das einen Score ausgibt, der angibt, wie gut ein Text ein Bild beschreibt. Es nutzt die CLIP-Architektur und wird auf dem Pick-a-Pic-Datensatz (arxiv:2305.01569) trainiert, um menschliche Präferenzen zu erfassen. Das Modell ist mit PyTorch implementiert, verwendet safetensors und ist mit HuggingFace-Endpunkten kompatibel, was eine einfache Bereitstellung ermöglicht. Die hohe Downloadzahl (1,7 Mio.) und 52 Likes spiegeln seinen Nutzen bei der Bewertung von Bild-Text-Übereinstimmungen für Aufgaben wie automatische Bildbewertung, Caption-Qualitätsbewertung und Datenfilterung wider.

💡Highlights

├─Zero-Shot-Bild-Text-Scoring
├─1,7 Mio.+ HuggingFace-Downloads
└─Trainiert auf Pick-a-Pic-Datensatz

🎯Für

├─Maschinenlernforscher
├─KI-Entwickler
└─Content-Ersteller

🔗Links

└─HuggingFace-Modellseite