GLM 4.5V
🧠 KI-Modellz-ai
106B MoE Vision-Language-Modell, 12B aktiviert, für multimodale Agentenanwendungen.
GLM-4.5V nutzt eine Mixture-of-Experts (MoE)-Architektur mit insgesamt 106 Milliarden Parametern, von denen nur 12 Milliarden pro Token aktiviert werden, was eine effiziente Inferenz ermöglicht. Es unterstützt eine Kontextlänge von 65.536 Token und hat einen Preis von 0,60 $ pro Million Input-Token und 1,80 $ pro Million Output-Token. Das Modell zeichnet sich im Videoverständnis aus, wie seine Leistung bei Benchmarks wie Video-MME zeigt. Es ist für multimodale Agentenanwendungen optimiert und ermöglicht Reasoning, Funktionsaufrufe und strukturierte Ausgaben. Zu den wichtigsten Funktionen gehören frequency_penalty, max_tokens, response_format, seed und Reasoning-Unterstützung.
💡Highlights
- ├─106B MoE, nur 12B aktiviert
- ├─65K Kontextfenster
- └─Spitzenleistung im Videoverständnis
🎯Für
- ├─KI-Forscher
- ├─Entwickler multimodaler Agenten
- └─Vision-Language-Ingenieure