Qwen/Qwen3-VL-4B-Instruct
🧠 KI-ModellQwen
4B Vision-Language-Modell für Bild-Text-zu-Text, instruktionsabgestimmt von Qwen.
Qwen3-VL-4B-Instruct ist ein multimodales Transformer-Modell aus der Qwen-Serie, das für Bild-Text-zu-Text-Aufgaben konzipiert wurde. Es verwendet eine Decoder-only-Architektur mit Safetensors und unterstützt hochauflösende Bild-Eingaben für detaillierte visuelle Beschreibungen, visuelle Frage-Antwort-Aufgaben und konversationelle Interaktionen. Das Modell ist auf einem vielfältigen Datensatz von Bild-Text-Paaren und menschlichem Feedback instruktionsabgestimmt und erzielt starke Leistungen in Benchmarks wie MMBench und DocVQA. Mit 4 Milliarden Parametern bietet es eine Balance zwischen Effizienz und Leistungsfähigkeit und eignet sich für den Einsatz in Forschung und Anwendungen. Das Modell ist unter der Apache-2.0-Lizenz frei verfügbar und fördert Community-Anpassungen und Feinabstimmungen. Technische Details finden sich in den Arxiv-Papern 2505.09388, 2502.13923 und 2409.12191.
💡Highlights
- ├─4B Parameter
- ├─Instruktionsabgestimmt konversationell
- └─Apache-2.0 Open Source
🎯Für
- ├─KI-Forscher
- ├─Entwickler
- └─Multimodale Enthusiasten