23件
TrustLLMは、ICML 2024で発表された、大規模言語モデル(LLM)の信頼性を体系的に評価するための研究プロジェクトです。真実性、安全性、公平性、堅牢性、プライバシーなど、信頼に関する8つの主要な側面を網羅しています。HowieHwong氏らによって開発されたこのツールキットは、研究者や開発者がLLMの信頼性と安全性を測定し、現代のAIシステムにおけるアライメントや倫理的パフォーマンスに関する重要な洞察を得ることを可能にします。
BreastDCEDLは、乳がん研究におけるディープラーニング応用のために設計された専門的なデータセットです。Naomi Fridman氏によって開発され、I-SPY1、I-SPY2、DUKEコホートから収集された高品質なDCE-MRIデータを統合しています。研究者がDICOMファイルを活用し、乳がん診断、HER2状態、治療反応性の分析を行うAIモデルを訓練・評価するための、標準化されたすぐに使える形式を提供します。
TheAgentCompanyは、仮想的なソフトウェア開発環境内でAIエージェントの性能を評価するために設計されたオープンソースのベンチマークです。LLMベースのエージェントが、プロのソフトウェアエンジニアリング現場で見られる複雑な多段階タスクをどのように処理するかをテストします。現実のオフィス環境を模倣することで、研究者や開発者が制御された環境下でエージェントの信頼性、推論能力、タスク完了効率を測定することを可能にします。
PeptoneLtd/dspp-kerasは、タンパク質の秩序・無秩序データを提供する、Keras、TensorFlow、Edwardフレームワーク向けに設計されたデータセットです。Peptone社によって開発されたこのリポジトリは、自動更新サイクルを備えており、バイオテクノロジー分野における継続的な学習アプリケーションを支援します。複雑な生物学的データとAI学習パイプラインを繋ぐ重要なリソースとして、タンパク質の構造特性を予測する機械学習モデルの研究に貢献します。
AeroPathは、Raidionicsが開発したCT画像における気道セグメンテーションのための専門的な医療画像データセットです。高品質でアノテーション済みのボリュームデータを提供し、特に困難な病変を含む症例を網羅しています。このデータセットは、深層学習モデルの訓練と評価のための堅牢なベンチマークとして機能し、肺医学における自動診断ツールの精度向上に貢献します。
τ-Bench(Tau-Bench)は、Sierra Researchが開発したAIエージェントの性能評価用オープンソースフレームワークです。静的なベンチマークとは異なり、エージェント、外部ツール、ユーザーの意図が絡み合う動的な相互作用に焦点を当てています。LLMベースのエージェントがマルチステップのタスクを遂行し、エラーに対処し、長期的な対話でコンテキストを維持する能力を標準化された手法で測定でき、実用的な自律型エージェント開発に不可欠なリソースです。
kjappelbaum/awesome-chemistry-datasetsは、化学分野のAI活用に不可欠なデータセットを体系的にまとめたコミュニティ主導のリポジトリです。kjappelbaum氏によって管理されており、多様な分子・化学データソースを集約しています。研究者や開発者が機械学習モデルのトレーニングに必要な高品質なデータに容易にアクセスできるよう支援し、分子特性予測や生成モデリングといった複雑なタスクにおけるデータ収集プロセスを簡素化します。
Physionは、CogTools Labが開発しNeurIPS 2021で発表された研究用ベンチマークです。視覚入力から物理現象を予測するAIモデルの能力を評価するための標準化されたフレームワークを提供します。機械のパフォーマンスを人間の知覚と比較することで、コンピュータビジョンと直感的な物理学のギャップを埋め、複雑で動的な物理シナリオにおけるディープラーニングモデルのテスト環境を構築します。
AI4Science-WestlakeUが開発したRealPDEBenchは、ICLR 2026でOral発表された、シミュレーション物理と実世界観測のギャップを埋めるためのベンチマークです。複雑な物理システムのデータセットを提供し、ニューラルオペレーターや深層学習モデルが合成シミュレーションから実データへどの程度汎化できるかを評価可能です。科学的機械学習とPDEベースのシミュレーション精度向上に不可欠なリソースです。
TongjiFinLabが開発したFinTSBは、金融時系列予測のための堅牢なベンチマークです。ICAIF'25ワークショップで最優秀論文賞を受賞した本プロジェクトは、クオンツ金融におけるディープラーニングモデルを評価するための標準化されたフレームワークを提供します。多様なデータセットと厳格なテストプロトコルにより、研究者や実務者が様々な金融シナリオでモデルの性能を比較し、市場分析やアルゴリズム取引における信頼性の高い応用を支援します。
BIMCV-CSUSP/BIMCV-COVID-19は、バレンシア地域画像バンク(BIMCV)による重要なオープンデータプロジェクトです。PadChestデータセットとCOVID-19関連の臨床画像を統合し、深層学習モデルの開発を促進します。世界中の研究者が呼吸器疾患の診断ツールを構築するための強固な基盤を提供し、科学コミュニティの協力を加速させることを目的としています。
Arian Askari氏によって開発された本リポジトリは、質問応答(QA)検索モデルの学習および評価を目的とした包括的なデータセットです。ChatGPTが生成した回答と人間による回答を比較可能であり、情報検索(IR)や自然言語処理(NLP)の研究者にとって貴重なリソースとなります。CIKM 2023の研究文脈に基づき、AIによる合成データと実世界の人間によるベンチマークを組み合わせることで、より堅牢な検索システムの開発を支援します。
LMaaS-Papersは、txsun1997氏が管理する、Language-Model-as-a-Service(LMaaS)に関する重要な研究をまとめたコミュニティ主導の包括的なリポジトリです。大規模言語モデルをどのように提供、最適化し、クラウドインフラに統合するかを探求する学術論文を体系的に分類しています。プロンプト学習やモデルサービング、事前学習済みモデルのデプロイにおける主要な進歩を網羅しており、LLM配信システムの進化を理解したい研究者やエンジニアにとって不可欠なナレッジベースです。
DL3DV-10Kは、3D再構築や新規ビュー合成、コンピュータビジョンの研究を加速させるために設計された大規模かつ高精度なデータセットです。1万もの多様なシーンを収録しており、NeRFや3Dガウシアンスプラッティングなどの生成AI技術において、堅牢で高性能なモデルを学習させるために不可欠なリソースを提供します。
InsPLAD(Inspection of Power Line Assets Dataset)は、送電インフラの欠陥を検出する深層学習モデルの学習用に設計された画像データセットです。andreluizbvsによって開発されたこのデータセットは、ドローンで撮影された高品質な航空画像を提供し、特にがいしや重要な送電コンポーネントに焦点を当てています。エネルギー分野における自動故障検出、予知保全、コンピュータビジョン応用の研究者やエンジニアにとって不可欠なリソースです。
AIメディア「機器之心(Jiqizhixin)」が提供する、AI分野の英中技術用語の網羅的なマッピングデータベースです。機械学習やAIの研究者、翻訳者、エンジニアが言語の壁を越えて正確かつ一貫した技術コミュニケーションを行うための不可欠なリファレンスとして活用されています。
PromptPapersは、THUNLPが管理するプロンプト学習研究のハブとなるGitHubリポジトリです。事前学習済み言語モデル(PLM)におけるプロンプトベースのチューニング手法に関する重要な論文を体系的に収集・分類しています。基礎研究から最新の技術動向までを網羅しており、大規模モデルを効果的に制御するためのロードマップとして、研究者や開発者に広く活用されています。
PDEBenchは、pdebench組織が作成した科学機械学習のための広範なベンチマークです。流体力学、反応拡散などを含む物理シミュレーションにおけるML手法評価のため、PDEデータセットとベースラインモデルを提供します。標準化されたメトリクスとPyTorch/JAX実装を含んでいます。
jujumilk3によるGitHubリポジトリで、AIモデルからリークされたシステムプロンプトを集約し、隠された指示や行動を形成するディレクティブへの洞察を提供します。
Hello-SimpleAIが提供するHuman ChatGPT Comparison Corpus (HC3)は、複数ドメインで人間とChatGPTが回答した質問ペアからなるデータセットです。AI生成テキスト検出のためのベースライン検出器も含み、人間とAIの文章を区別する研究を支援します。
ObjectronはGoogle Researchによるデータセットで、9つの物体カテゴリ(自転車、本、ボトル、カメラ、シリアル箱、椅子、カップ、ノートPC、靴)にわたる約15Kの注釈付きビデオクリップと400万枚の画像を含みます。各クリップには、カメラポーズ、スパース点群、平面、3DバウンディングボックスなどのARメタデータが含まれています。単眼ビデオからの3D物体検出、追跡、再構築の進歩を目的としています。
lining808によるGitHubリポジトリで、厳選された分類済みの高品質なコンピュータサイエンスの電子書籍リストです。AI、データサイエンス、深層学習、プログラミング言語などをカバー。学習者が最良のリソースを見つけられるよう、選択肢を絞っています。
asgeirtjによるこのGitHubリポジトリは、AnthropicのClaude、OpenAIのChatGPT、GoogleのGemini、xAIのGrokなど主要なAIモデルからシステムプロンプトを抽出・公開しています。これらのモデルがどのように指示されているかを透明化し、新リリースに合わせて定期的に更新されます。