AIモデル

40件

stabilityai/sd-turbo

SD Turboは、Stability AIが開発したリアルタイム画像生成用の高速生成モデルです。Adversarial Diffusion Distillation (ADD) 技術を採用し、従来の拡散モデルと比較して大幅にレイテンシを削減し、わずか1ステップで高精細な画像を生成します。オープンソースとして提供されており、開発者やクリエイターが低遅延なインタラクティブ・アプリケーションを構築するための画期的なツールです。

text-to-imagegenerative-aistable-diffusionreal-time

Qwen/Qwen3-4B-Instruct-2507-FP8

Qwen3-4B-Instruct-2507-FP8は、Qwenチームが提供する最適化済みの指示チューニング済み言語モデルです。40億パラメータという軽量なモデルにFP8量子化を適用することで、メモリ使用量と計算コストを大幅に削減しつつ、高いテキスト生成性能を実現しました。リソースが限られた環境やエッジデバイスでのデプロイに最適で、推論速度と精度のバランスを重視する開発者に適しています。

qwen3fp8text-generationllm

MoonshotAI: Kimi K2.7 Code (free)

MoonshotAIの「Kimi K2.7 Code」は、複雑なプログラミングタスクやエンドツーエンドのソフトウェア開発向けに設計された専門AIモデルです。ネイティブなマルチモーダル混合エキスパート（MoE）アーキテクチャを採用し、大規模なコードベースや技術ドキュメントの処理に最適化されています。262,144トークンという広大なコンテキストウィンドウにより、大規模プロジェクト全体を一貫して把握可能です。テキストと画像の入力に対応しており、UIデザインや技術図面をコードと併せて分析する開発者に最適です。

codingllmmultimodallong-context

Poolside: Laguna M.1

Laguna M.1は、Poolsideが開発したコーディング特化型のフラッグシップAIモデルです。ソフトウェアエンジニアリングタスクに最適化されており、エージェントワークフロー、ツール呼び出し、複雑な推論を強力にサポートします。262,144トークンという巨大なコンテキストウィンドウを備え、大規模なコードベースの処理や長期的なプロジェクトの整合性維持が可能です。現代の開発環境にシームレスに統合できるよう設計されており、コーディング支援や自動ソフトウェア生成において高いパフォーマンスを発揮します。

codingagentsoftware-engineeringllm

google-research/timesfm

TimesFM (Time Series Foundation Model) は、Google Researchが開発した時系列予測のためのオープンソース基盤モデルです。基盤モデルアーキテクチャを採用することで、未知のデータセットに対しても再学習なしでゼロショット推論を可能にします。時系列データをパッチとして処理することで、様々な頻度やドメインに汎化でき、カスタムモデルをゼロから構築することなく予測精度を向上させたいデータサイエンティストやアナリストにとって強力なツールとなります。

time-seriesforecastingfoundation-modelgoogle-research

Poolside: Laguna XS.2

Laguna XS.2は、Poolsideが開発した第2世代のコンパクトなコーディングモデルです。エージェントワークフロー向けに設計されており、軽量なフットプリントと高度な推論・ツール利用能力を両立しています。262kトークンの巨大なコンテキストウィンドウと非常に競争力のある価格設定により、複雑なソフトウェア開発タスクを効率的に処理します。構造化出力や高度なツール統合をサポートしており、大規模モデルのオーバーヘッドなしで応答性の高いコーディングアシスタントを構築したい開発者に最適です。

codingagentreasoningefficient

pyannote/speaker-diarization

pyannoteが開発したこの話者ダイアライゼーションモデルは、音声ストリームを話者ごとに分割する主要なソリューションです。音声区間検出（VAD）、話者交代検出、話者埋め込み抽出に優れています。研究者や開発者のコミュニティで広く利用されており、会議、インタビュー、放送メディアなどの多人数音声環境において、個々の話者を正確に識別し、高精度な書き起こしや分析を可能にする堅牢なパイプラインを提供します。

audiospeechdiarizationvoice

Lykon/dreamshaper-7

DreamShaper 7は、Lykon氏によって開発された人気のオープンソース画像生成モデルです。Stable Diffusionアーキテクチャをベースに、フォトリアリズムからアニメ調まで、多様なスタイルで高品質かつ美しい画像を生成できるよう微調整されています。70万回以上のダウンロード数を誇り、プロンプトへの忠実度と芸術的な表現力を両立させたいクリエイターにとって、信頼性の高い定番モデルとなっています。

stable-diffusiontext-to-imageartanime

ZhengPeng7/BiRefNet

BiRefNetは、ZhengPeng7氏によって開発された、高品質な画像セグメンテーションのための強力なオープンソースモデルです。二値画像セグメンテーション、顕著物体検出、迷彩物体検出において優れた性能を発揮します。高度なアーキテクチャにより、クリーンなマスク生成と効率的な背景削除を可能にし、高精度な物体抽出を必要とするコンピュータビジョンタスクに最適な選択肢です。

image-segmentationbackground-removalcomputer-visiondeep-learning

biohub/ESMC-6B

ESMC-6Bは、Biohubが開発した生物学的配列のマスク言語モデリングに特化したタンパク質言語モデルです。60億のパラメータを持ち、タンパク質の構造や機能を深く理解します。タンパク質工学、変異の影響予測、構造生物学の研究において強力なツールとなり、高品質なタンパク質埋め込みベクトルを生成することで、合成生物学や創薬研究の進展を支援します。

biologyproteinesmtransformers

distil-whisper/distil-large-v3

Distil-Whisper/distil-large-v3は、Distil-Whisperチームが開発した最適化済み自動音声認識モデルです。OpenAIのWhisper large-v3を蒸留することで、高い文字起こし精度を維持しつつ、推論速度の向上とメモリ使用量の削減を実現しました。Whisperのドロップイン代替として設計されており、リアルタイム処理やリソースが制限された環境での運用に最適です。

whisperasrspeech-recognitiondistillation

rinna/japanese-roberta-base

rinna/japanese-roberta-baseは、rinna社が開発したオープンソースの日本語言語モデルです。RoBERTaアーキテクチャを採用し、CC100などの日本語コーパスで事前学習されています。マスク言語モデリング（fill-mask）タスクに特化しており、Hugging Face Transformersエコシステムと高い互換性を持つ、日本語NLPアプリケーションの強力な基盤モデルです。

japaneserobertanlpmasked-lm

lmstudio-community/gemma-4-E4B-it-MLX-5bit

lmstudio-community/gemma-4-E4B-it-MLX-5bitは、GoogleのGemma 4 E4BモデルをMLXフレームワーク向けに最適化した量子化モデルです。5bit量子化を採用することで、Apple Silicon搭載デバイス上で効率的なマルチモーダル推論を実現します。高い推論精度とメモリ効率を両立しており、Mac環境で高度なAIタスクをローカル実行したい開発者に最適です。

gemma4mlxmultimodalquantization

lmstudio-community/gemma-4-E4B-it-MLX-6bit

lmstudio-community/gemma-4-E4B-it-MLX-6bitは、GoogleのGemma 4 E4BモデルをAppleのMLXフレームワーク向けに最適化した量子化バージョンです。このany-to-anyモデルは、Mac上で効率的な画像・テキスト処理を実現します。6bit量子化によりメモリ消費を大幅に抑えつつ高いパフォーマンスを維持しており、macOSデバイスで高度なマルチモーダルAIタスクをローカル実行したい開発者に最適です。

gemma4mlxmultimodalquantization

lmstudio-community/gemma-4-E4B-it-MLX-8bit

lmstudio-community/gemma-4-E4B-it-MLX-8bitは、GoogleのGemma 4-E4B指示チューニングモデルをMLXフレームワーク向けに最適化した量子化版です。LM Studioコミュニティによって提供され、Apple Silicon上で高速かつ効率的なマルチモーダル推論を実現します。8bit量子化によりメモリ使用量を大幅に削減しつつ、元のGemma 4アーキテクチャの能力を維持しているため、Mac上で高度なマルチモーダルAIをローカル実行したい開発者に最適です。

gemma4mlxquantizationmultimodal

lmstudio-community/gemma-4-E4B-it-MLX-4bit

lmstudio-community/gemma-4-E4B-it-MLX-4bitは、GoogleのGemma 4 E4BモデルをMLXフレームワーク向けに4bit量子化したモデルです。Apple Silicon搭載デバイスでのローカル実行に最適化されており、メモリ使用量を抑えつつ高いパフォーマンスを発揮します。LM Studioコミュニティによってメンテナンスされており、macOS環境でのシームレスなマルチモーダルAI統合を可能にします。

gemma4mlxquantizationmultimodal

Google: Nano Banana Pro (Gemini 3 Pro Image)

Nano Banana Proは、GoogleのGemini 3 Proアーキテクチャを搭載した最先端のマルチモーダルモデルです。テキストと画像の双方を高度に処理し、優れた画像生成・編集能力を発揮します。65kのコンテキストウィンドウと構造化出力のサポートにより、複雑な推論や現実世界との整合性が求められる開発現場において、テキスト分析と高品質なビジュアル生成をシームレスに統合します。

multimodalgeminigoogleimage-generation

Google: Nano Banana 2 (Gemini 3.1 Flash Image)

Gemini 3.1 Flash Image（通称「Nano Banana 2」）は、Googleが提供する最新のマルチモーダルモデルです。高速な推論とプロレベルの画像生成品質を両立し、開発者が高度な視覚・テキスト機能をアプリケーションに統合できるよう設計されています。131kトークンのコンテキストウィンドウとコスト効率の高い価格設定により、クリエイティブなタスクから複雑なデータ分析まで幅広く対応可能な、次世代のエンジンです。

multimodalimage-generationgooglegemini

rifkybujana/IndoBERT-QA

IndoBERT-QAは、rifkybujana氏によるオープンソースプロジェクトで、IndoBERT Base-Uncasedをインドネシア語の質問応答（QA）タスク向けに最適化したモデルです。翻訳されたSQuAD v2.0データセットを活用することで、インドネシア語の文脈を理解した高精度な質問応答システムを構築可能にし、リソースが限られている言語のNLP開発を強力に支援します。

indobertindonesiannlpquestion-answering

michaelhla/pro-1

pro-1は、Group Relative Policy Optimization (GRPO) を活用してタンパク質の安定性予測を強化する、michaelhla開発のAIモデルです。Rosetta REF2015エネルギー関数に準拠することで、計算生物学に特化した推論エンジンとして機能します。大規模言語モデルと構造生物学の橋渡しを行い、強化学習技術を通じてタンパク質設計と安定性を研究するためのフレームワークを提供します。

biologyllmsreinforcement-learningprotein-design

zs1314/OCTAMamba

OCTAMambaは、OCTA（光干渉断層血管撮影）画像の精密なセグメンテーションを実現する革新的な深層学習フレームワークです。ICASSP 2025で発表されたこのモデルは、Mamba状態空間モデルアーキテクチャを活用し、医療画像解析において優れた性能を発揮します。zs1314氏によって開発された本プロジェクトは、効率的なSSMと高度な医療画像処理技術を組み合わせ、網膜スキャンにおける複雑な血管構造を軽量かつ高精度に抽出するソリューションを提供します。

mambamedical-imagingsegmentationdeep-learning

WeiboAI/VibeThinker

VibeThinker-1.5Bは、WeiboAIが開発した軽量な推論特化型言語モデルです。多様性を重視した最適化手法を用いることで、従来は巨大なモデルでしか実現できなかった高度な推論能力を1.5Bという小規模なパラメータ数で引き出すことに成功しました。本プロジェクトは、小規模言語モデル（SLLM）でも高い論理的パフォーマンスを発揮できることを証明し、計算リソースが限られた環境での高度な推論利用を可能にします。

llmreasoningsllmoptimization

replit/ReplitLM

ReplitLMは、Replitが開発したコード生成およびソフトウェアエンジニアリング特化型のLLMファミリーです。本リポジトリでは、これらのモデルをデプロイするための推論コード、設定ファイル、実装の詳細を提供しています。コード中心の学習により、コンテキストを理解した効率的なコーディング支援を実現し、ボイラープレートの自動化やコード補完、デバッグ支援を可能にします。

aiai4codellmcoding-assistant

AIRMEC/im4MEC

im4MECは、AIRMECが開発した子宮内膜癌の分子サブタイプを分類するための解釈可能な深層学習フレームワークです。H&E染色された全スライド画像（WSI）を解析し、アテンションメカニズムを活用することで、組織病理学的な特徴に基づいた臨床的洞察を提供します。PyTorchで構築されたこのモデルは、PORTEC試験および臨床コホートで検証されており、計算病理学や精密腫瘍学における強力なツールとなります。

pathologyhistologypytorchoncology

chychen/BasketballGAN

BasketballGANは、chychen氏によって開発された、バスケットボールの戦術に対する相手チームの反応をシミュレートする深層学習モデルです。GANを活用し、コーチがホワイトボードに描く戦術スケッチを、現実的な守備の動きの予測へと変換します。このツールは、コーチが試合前に戦術の有効性を検証し、守備の調整を予測するためのデジタルアシスタントとして機能し、伝統的なコーチングと現代の予測スポーツ分析の架け橋となります。

basketballgansports-analyticsdeep-learning

mcbuehler/VariTex

VariTexは、ICCV 2021で発表された「Variational Neural Face Textures」の実装です。ディープラーニングとニューラルレンダリング技術を活用し、リアルな顔面テクスチャを生成します。変分推論フレームワークを採用することで、顔の外観を高度に制御可能であり、コンピュータビジョンやデジタルヒューマン合成の分野において重要な貢献を果たしています。

computer-visiondeep-learningganneural-rendering

MeetKai/functionary

MeetKaiが開発したFunctionaryは、関数呼び出しとツールの解釈に特化したチャット言語モデルです。汎用LLMとは異なり、複雑なツール定義の理解、正確な関数呼び出しの実行、そして結果の処理に最適化されています。自然言語による指示とプログラム実行の架け橋となり、外部APIやデータソースと連携する自律型AIエージェントを構築する開発者にとって不可欠なツールです。

agentsfunction-callingllmpython

Cohere: North Mini Code (free)

North Mini Codeは、Cohereの「North」モデルファミリーの第一弾であり、エージェント型のコーディングワークフローに最適化されています。30Bの総パラメータ数に対し、トークンあたりのアクティブパラメータを3Bに抑えた疎な混合エキスパート（MoE）モデルで、高い効率性を実現。256,000トークンの広大なコンテキストウィンドウをサポートし、大規模なコードベースや複雑なドキュメントの処理を可能にします。OpenRouter経由で無料で利用可能です。

codingmoeagenticcohere

kyegomez/ScreenAI

ScreenAIは、ユーザーインターフェース（UI）やインフォグラフィックなどの複雑な視覚レイアウトを解釈するために設計された、特化型視覚言語モデル（VLM）です。Kye Gomez氏によって開発されたこのリポジトリは、Googleの研究論文で提案されたアーキテクチャをPyTorchで忠実に再現しています。開発者はこれを活用することで、AIエージェントにデジタルインターフェースや図表を正確に認識・推論させる高度な画面解析機能を統合できます。

vision-language-modelui-understandingpytorchcomputer-vision

SkyWorkAIGC/SkyText-Chinese-GPT3

SkyTextは、奇点智源（Singularity-AI）が開発した中国語GPT-3事前学習済み大規模言語モデルです。文章の続きの生成、対話型Q&A、中英翻訳、クリエイティブなコンテンツ作成、論理的推論など、幅広い自然言語処理タスクを処理できるように設計されています。中国語AIエコシステムにおける初期の基盤モデルとして、高品質な中国語生成や理解を必要とするアプリケーション開発者に汎用的なフレームワークを提供します。

chinese-nlpgpt3llmtext-generation

OlafenwaMoses/DeepStack_ExDark

DeepStack_ExDarkは、OlafenwaMoses氏によって開発された、低照度環境下での物体検出能力を向上させるためのコンピュータビジョンモデルです。DeepStack AIサーバーと統合することで、夜間の監視映像や暗所での画像解析を可能にします。標準的なモデルでは認識が困難な夜間のCCTVやセキュリティ用途において、Pythonベースのディープラーニング技術を活用し、信頼性の高い監視ソリューションを提供します。

computer-visionnight-visionobject-detectiondeepstack

Bria-AI/FIBO

Bria-AIが開発したFIBOは、JSONネイティブなアーキテクチャを採用した最先端のオープンソース画像生成モデルです。予測可能性と法的安全性を最優先に設計されており、開発者は高度に制御された画像生成を実現できます。エンタープライズ環境向けに構築されたFIBOは、クリエイティブなAI能力とプロフェッショナルなワークフローの厳格な要件を橋渡しし、高品質かつ倫理的に調達されたコンテンツ生成を保証します。

text-to-imageenterprise-aigenerative-aiethical-ai

microsoft/Phi-tiny-MoE-instruct

Phi-tiny-MoE-instructは、Microsoftが開発したコンパクトなMixture-of-Experts（MoE）言語モデルです。効率性と速度を重視して設計されており、スパース活性化を活用することで、軽量なフットプリントを維持しながら高品質な対話応答を提供します。推論時にパラメータの一部のみを活性化させるため、低遅延が求められるエッジコンピューティングやリソース制限のある環境に最適なモデルです。

moemicrosoftedge-aitransformers

unsloth/Qwen3.5-4B-GGUF

unsloth/Qwen3.5-4B-GGUFは、Unslothによって最適化されたQwen3.5-4Bビジョン言語モデルの量子化版です。GGUF形式を採用することで、コンシューマー向けハードウェアでも高度なマルチモーダルAIタスクを実行可能にしました。メモリ消費を抑えつつ高い性能を維持しており、ローカル環境やエッジコンピューティングでの画像認識・テキスト生成アプリケーション開発に最適です。

multimodalquantizationggufvision-language

nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4は、NVIDIAが開発した高性能なテキスト生成モデルです。高品質な対話タスク向けに設計されており、高度なアーキテクチャを活用して自然言語処理において優れたパフォーマンスを発揮します。Nemotronファミリーの一員として、パラメータ規模と推論効率のバランスを重視しており、洗練された対話型AIをアプリケーションに統合したい開発者にとって汎用性の高い選択肢です。PyTorchをサポートし、安全で最適化されたウェイト読み込みのためにsafetensorsを採用しています。

nvidiaconversationaltransformerstext-generation

circlestone-labs/Anima

circlestone-labsが開発したAnimaは、NVIDIAのCosmos-Predict2-2B-Text2Imageアーキテクチャをベースにしたオープンソースの拡散モデルです。ComfyUIとのシームレスな統合を前提に設計されており、高度な予測拡散技術を活用して高精細なビジュアルコンテンツを生成します。60万回以上のダウンロード数を誇り、効率的かつ高性能な画像生成ツールを求めるクリエイターから高い支持を得ています。

diffusioncomfyuitext-to-imageopen-source

Qwen/Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Instruct-2507は、Qwenが開発した高度なオープンソースのMixture-of-Experts (MoE) モデルです。高効率なテキスト生成を目的に設計されており、洗練されたアーキテクチャにより強力な会話能力を発揮します。60万回以上のダウンロード数を誇り、モデルの深さと計算効率のバランスを求める開発者にとって最適な選択肢となっています。Hugging Faceエコシステムと完全に互換性があり、safetensors形式を採用することで、研究や本番環境での利用が容易です。

llmmoeqwenconversational

hmellor/tiny-random-BambaForCausalLM

hmellor/tiny-random-BambaForCausalLMは、Bamba因果言語モデルをランダムに初期化した超軽量モデルです。hmellor氏によって作成され、Hugging Faceで公開されています。開発者がBambaアーキテクチャを用いたパイプラインの互換性検証、統合ロジックのテスト、デプロイ用スクリプトの動作確認を、巨大な事前学習済みウェイトを読み込むことなく効率的に行えるように設計されたテスト用ユーティリティです。

bambatestingtransformerssafetensors

Qwen/Qwen3-TTS-12Hz-0.6B-Base

Qwen3-TTS-12Hz-0.6B-Baseは、Qwenチームが開発したオープンソースのテキスト読み上げ（TTS）モデルです。効率性と高品質な音声生成を両立し、中国語、英語、日本語、韓国語の多言語に対応しています。0.6Bという軽量なパラメータ数ながら、高度なトークン化と合成技術により自然な音声を生成可能で、アプリケーションに柔軟な音声機能を組み込みたい開発者に最適です。

ttsaudiovoice-clonemultilingual

Babelscape/wikineural-multilingual-ner

Babelscape/wikineural-multilingual-nerは、Babelscapeが開発したBERTベースの強力な固有表現抽出（NER）モデルです。人物、場所、組織、その他を含むエンティティを9言語で識別可能で、言語ごとに個別のモデルを構築することなく、多言語テキストから構造化データを効率的に抽出できます。

nlpnermultilingualbert