Qwen/Qwen3-VL-4B-Instruct

🧠 KI-ModellQwen

4B Vision-Language-Modell für Bild-Text-zu-Text, instruktionsabgestimmt von Qwen.

Qwen3-VL-4B-Instruct ist ein multimodales Transformer-Modell aus der Qwen-Serie, das für Bild-Text-zu-Text-Aufgaben konzipiert wurde. Es verwendet eine Decoder-only-Architektur mit Safetensors und unterstützt hochauflösende Bild-Eingaben für detaillierte visuelle Beschreibungen, visuelle Frage-Antwort-Aufgaben und konversationelle Interaktionen. Das Modell ist auf einem vielfältigen Datensatz von Bild-Text-Paaren und menschlichem Feedback instruktionsabgestimmt und erzielt starke Leistungen in Benchmarks wie MMBench und DocVQA. Mit 4 Milliarden Parametern bietet es eine Balance zwischen Effizienz und Leistungsfähigkeit und eignet sich für den Einsatz in Forschung und Anwendungen. Das Modell ist unter der Apache-2.0-Lizenz frei verfügbar und fördert Community-Anpassungen und Feinabstimmungen. Technische Details finden sich in den Arxiv-Papern 2505.09388, 2502.13923 und 2409.12191.

💡Highlights

├─4B Parameter
├─Instruktionsabgestimmt konversationell
└─Apache-2.0 Open Source

🎯Für

├─KI-Forscher
├─Entwickler
└─Multimodale Enthusiasten

🔗Links

└─HuggingFace Modellseite