Qwen3.5-35B-A3B

🧠 KI-Modellqwen

Hybrides Vision-Sprachmodell mit linearer Aufmerksamkeit und spärlichem MoE für effiziente Inferenz.

Die Qwen3.5-Serie 35B-A3B verwendet eine neuartige hybride Architektur, die lineare Aufmerksamkeit mit spärlichem MoE kombiniert, um die Rechenkosten zu senken und gleichzeitig eine hohe Leistung beizubehalten. Mit 35B Gesamtparametern, von denen nur 3B pro Token aktiviert werden, bietet sie Inferenz mit geringer Latenz, die für Echtzeitanwendungen geeignet ist. Sie unterstützt eine Kontextlänge von 262.144 Token und ermöglicht so langdokument- und mehrrundige multimodale Argumentation. Zu den Eingabemodalitäten gehören Text, Bild und Video, während die Ausgabe Text ist. Das Modell ist auf OpenRouter zu Preisen von 0,14 $ pro Million Eingabe-Tokens und 1,00 $ pro Million Ausgabe-Tokens erhältlich. Zu den wichtigsten Funktionen gehören Frequenzstrafe, Logit-Bias, Logprobs und Reasoning-Unterstützung. Es schneidet bei Vision-Sprach-Aufgaben wettbewerbsfähig ab, indem es sein effizientes Design nutzt, um Geschwindigkeit und Genauigkeit auszugleichen.

💡Highlights

├─35B Parameter, nur 3B aktiviert
├─262k Kontextlänge
└─Hybride lineare Aufmerksamkeit + MoE

🎯Für

├─KI-Forscher
├─ML-Ingenieure
└─Entwickler multimodaler Apps

🔗Links

└─OpenRouter Modellseite