microsoft/Phi-3.5-vision-instruct

🧠 AIモデルmicrosoft

コンパクトな視覚言語モデル、42億パラメータで推論とコードに優れる。

Phi-3.5-vision-instructは、MicrosoftのPhi-3.5ファミリーに属する軽量な視覚言語モデルです。42億パラメータを持ち、128Kトークンのコンテキストウィンドウをサポートし、複数の画像を処理できます。命令追従、安全性のためにファインチューニングされており、カスタムコードをサポートするTransformerアーキテクチャを使用。推論、数学、コードタスクに優れ、エッジデバイスに適しています。

💡ハイライト

├─42億パラメータ、128Kコンテキスト
├─多言語・複数画像対応
└─安全性と推論にファインチューニング

🎯対象

├─AI開発者
├─モバイルアプリ開発者
└─研究者

🔗リンク

└─HuggingFaceモデルカード