cactus-compute/cactus

🏗️ フレームワークcactus-compute

モバイルデバイスやウェアラブル向けの低遅延AI推論エンジン。

Cactusは、スマートフォンやウェアラブルなどのエッジデバイス向けに調整された高性能AI推論フレームワークです。Armプロセッサ向けのハードウェア固有の最適化を使用してレイテンシを最小限に抑え、量子化モデルをサポートしています。このエンジンは、llama.cppやWhisperなどの音声認識モデル、トランスフォーマーベースのLLMと統合されています。主な機能には、柔軟なデプロイ、低メモリフットプリント、AndroidおよびiOSとの互換性が含まれます。また、出力を強化するための組み込みRAGも備えています。そのアーキテクチャは、バッテリー駆動デバイスでのリアルタイムAIのために、スループットを最大化しながら消費電力を最小限に抑えます。

💡ハイライト

├─モバイル向け低遅延推論
├─C++とArm最適化で構築
└─LLM, Whisper, RAGをサポート

🎯対象

├─モバイルアプリ開発者
├─エッジAI研究者
└─組み込みシステムエンジニア

🔗リンク

└─GitHubリポジトリ