23개 발견
TrustLLM은 거대언어모델(LLM)의 신뢰성을 체계적으로 평가하기 위한 ICML 2024 연구 프로젝트입니다. 진실성, 안전성, 공정성, 견고성, 개인정보 보호 등 8가지 핵심 신뢰 차원을 다룹니다. HowieHwong과 연구진이 개발한 이 툴킷은 연구자와 개발자가 LLM의 신뢰도와 보안성을 측정하고, 현대 AI 시스템의 정렬 및 윤리적 성능에 대한 중요한 통찰력을 얻을 수 있도록 돕습니다.
BreastDCEDL은 유방암 연구의 딥러닝 애플리케이션을 위해 설계된 전문 데이터셋입니다. Naomi Fridman이 개발한 이 프로젝트는 I-SPY1, I-SPY2 및 DUKE 코호트에서 수집한 고품질 DCE-MRI 데이터를 통합합니다. 연구자들이 유방암 진단, HER2 상태 및 치료 반응 분석을 위한 AI 모델을 학습하고 평가할 수 있도록 표준화된 DICOM 파일 형식의 데이터를 제공합니다.
TheAgentCompany는 가상 소프트웨어 개발 환경 내에서 AI 에이전트의 성능을 평가하기 위해 설계된 오픈소스 벤치마크입니다. 전문적인 소프트웨어 엔지니어링 워크플로우에서 발생하는 복잡한 다단계 작업을 에이전트가 어떻게 처리하는지 테스트할 수 있는 플랫폼을 제공합니다. 실제 사무 환경을 모방함으로써 연구자와 개발자가 통제된 환경에서 에이전트의 신뢰성, 추론 능력 및 작업 완료 효율성을 측정할 수 있도록 돕습니다.
PeptoneLtd/dspp-keras는 Keras, TensorFlow 및 Edward와 같은 딥러닝 프레임워크를 위해 설계된 단백질 질서 및 무질서 데이터셋을 제공합니다. Peptone에서 개발한 이 저장소는 생물학적 데이터의 자동 업데이트 주기를 지원하여 생명공학 분야의 지속적인 학습(continuous learning) 애플리케이션을 용이하게 합니다. 복잡한 생물학적 데이터와 AI 학습 파이프라인 사이의 간극을 메워주는 단백질 구조 예측 모델 연구의 핵심 자원입니다.
AeroPath는 Raidionics에서 개발한 전문 의료 영상 데이터셋으로, CT 스캔에서의 기도 분할 성능 향상을 목표로 합니다. 고품질의 주석이 달린 볼륨 데이터를 제공하며, 특히 까다로운 병리 사례를 포함하고 있습니다. 이 데이터셋은 연구자들이 복잡한 기관지 구조에 대해 딥러닝 모델을 학습하고 평가할 수 있는 강력한 벤치마크 역할을 하여, 폐 질환 진단 도구의 정확도를 높이는 데 기여합니다.
τ-Bench(Tau-Bench)는 Sierra Research에서 개발한 오픈소스 평가 프레임워크로, 실제 환경에서 AI 에이전트의 성능을 측정합니다. 정적인 벤치마크와 달리 에이전트, 외부 도구, 사용자 의도 간의 역동적인 상호작용에 초점을 맞춥니다. LLM 기반 에이전트가 다단계 작업을 수행하고, 도구 오류를 처리하며, 긴 상호작용 속에서 문맥을 유지하는 능력을 표준화된 방식으로 테스트하여 프로덕션급 에이전트 개발에 필수적인 지표를 제공합니다.
kjappelbaum/awesome-chemistry-datasets는 화학 분야의 AI 연구에 필수적인 데이터셋을 구조적으로 정리한 커뮤니티 주도 저장소입니다. kjappelbaum이 관리하는 이 리소스는 다양한 분자 및 화학 데이터 소스를 통합하여, 연구자들이 머신러닝 모델 학습을 위한 고품질 데이터를 쉽게 발견하고 활용할 수 있도록 돕습니다. 화학과 인공지능의 교차점에서 연구하는 과학자와 개발자들에게 데이터 확보 과정을 간소화해 주는 핵심 허브 역할을 합니다.
Physion은 CogTools Lab이 개발하여 NeurIPS 2021에서 발표한 연구용 벤치마크입니다. 시각적 입력으로부터 물리적 사건을 예측하는 AI 모델의 성능을 평가하기 위한 표준화된 프레임워크를 제공합니다. 기계의 성능을 인간의 지각과 비교함으로써, 컴퓨터 비전과 직관적 물리 사이의 간극을 좁히고 복잡하고 역동적인 물리 시나리오에서 딥러닝 모델을 테스트할 수 있는 엄격한 데이터셋을 제공합니다.
AI4Science-WestlakeU에서 개발한 RealPDEBench는 ICLR 2026 Oral로 선정된 벤치마크로, 시뮬레이션 물리학과 실제 관측 데이터 간의 간극을 해소하기 위해 설계되었습니다. 복잡한 물리 시스템에 대한 강력한 데이터셋을 제공하여, 연구자들이 신경 연산자(Neural Operators) 및 딥러닝 모델이 합성 시뮬레이션에서 실제 실험 데이터로 얼마나 잘 일반화되는지 평가할 수 있도록 돕습니다. 이 데이터셋은 과학적 머신러닝과 PDE 기반 시뮬레이션의 정확도를 높이는 데 핵심적인 역할을 합니다.
TongjiFinLab에서 개발한 FinTSB는 금융 시계열 예측을 위한 강력한 벤치마크입니다. ICAIF'25 워크숍에서 최우수 논문상을 수상한 이 프로젝트는 양적 금융 분야의 딥러닝 모델을 평가하기 위한 표준화된 프레임워크를 제공합니다. 다양한 데이터셋과 엄격한 테스트 프로토콜을 통해 연구자와 실무자가 여러 금융 시나리오에서 모델 성능을 비교할 수 있도록 지원하며, 시장 분석 및 알고리즘 트레이딩 분야에서 더욱 신뢰할 수 있는 실용적인 모델 개발을 돕습니다.
BIMCV-CSUSP/BIMCV-COVID-19 저장소는 발렌시아 지역 영상 은행(BIMCV)에서 제공하는 중요한 오픈 데이터 프로젝트입니다. 이 프로젝트는 딥러닝 모델 개발을 촉진하기 위해 X-레이 및 관련 병리학 정보를 포함한 임상 의료 영상 데이터를 통합합니다. PadChest 데이터셋과 코로나19 사례를 결합하여, 연구자들이 호흡기 질환 조기 진단 도구를 구축할 수 있는 강력한 기반을 제공하며 글로벌 과학 커뮤니티의 협력을 장려합니다.
Arian Askari가 개발한 이 저장소는 질의응답(QA) 검색 모델을 학습하고 평가하기 위해 설계된 포괄적인 데이터셋을 제공합니다. ChatGPT가 생성한 응답과 인간이 작성한 응답을 비교하는 데 중점을 두며, 정보 검색(IR) 및 자연어 처리(NLP) 분야 연구자들에게 귀중한 자원을 제공합니다. CIKM 2023 연구 맥락에 따라 합성 AI 데이터와 실제 인간의 벤치마크를 결합하여 더욱 강력한 검색 시스템을 개발할 수 있도록 지원합니다.
LMaaS-Papers는 txsun1997이 관리하는 커뮤니티 기반의 종합 저장소로, Language-Model-as-a-Service(LMaaS)에 관한 필수 연구 자료를 모아두었습니다. 대규모 언어 모델을 클라우드 인프라에서 어떻게 서비스하고, 최적화하며, 통합하는지에 대한 학술 논문을 체계적으로 정리했습니다. 프롬프트 학습, 모델 서빙, 사전 학습 모델 배포 등 주요 기술적 진보를 분류하여, LLM 전달 시스템의 발전 과정을 이해하려는 연구자와 엔지니어에게 중요한 지식 기반을 제공합니다.
DL3DV-10K는 3D 재구성, 새로운 뷰 합성 및 컴퓨터 비전 연구를 발전시키기 위해 설계된 대규모 고충실도 데이터셋입니다. 복잡한 3D 환경을 이해하는 딥러닝 모델을 지원하기 위해 10,000개의 다양한 장면을 제공합니다. 이 데이터셋은 NeRF, 3D 가우시안 스플래팅 및 기타 생성형 3D 기술을 연구하는 개발자들에게 강력하고 성능 높은 비전 모델을 학습시키는 데 필수적인 자원입니다.
InsPLAD(Inspection of Power Line Assets Dataset)는 전력선 인프라의 결함을 탐지하는 딥러닝 모델 학습을 위해 설계된 이미지 데이터셋입니다. andreluizbvs가 개발한 이 데이터셋은 드론으로 촬영한 고품질 항공 이미지를 제공하며, 특히 애자(insulator)와 같은 핵심 전력선 구성 요소를 타겟팅합니다. 자동화된 결함 탐지, 예측 유지보수 및 에너지 분야의 컴퓨터 비전 연구를 위한 필수 자원입니다.
AI 미디어 플랫폼 '지기즈신(Jiqizhixin)'이 개발한 이 저장소는 인공지능 분야의 방대한 기술 용어를 영어와 중국어로 매핑하여 제공합니다. 머신러닝과 AI 분야의 연구자, 번역가, 개발자들이 언어 장벽을 넘어 기술적 의사소통의 일관성과 정확성을 유지할 수 있도록 돕는 필수적인 참고 자료입니다.
PromptPapers는 THUNLP에서 관리하는 권위 있는 GitHub 저장소로, 프롬프트 기반 학습에 관심 있는 연구자와 개발자를 위한 핵심 허브입니다. 사전 학습된 언어 모델(PLM)의 프롬프트 기반 튜닝에 관한 필수 논문들을 수집하여, 기초 연구부터 최신 기술까지 체계적인 로드맵을 제공합니다.
PDEBench는 pdebench 조직이 만든 과학적 머신러닝을 위한 광범위한 벤치마크입니다. 유체 역학, 반응-확산 등 물리 기반 시뮬레이션에서 ML 방법을 평가하기 위한 PDE 데이터셋과 기준 모델을 제공합니다. PyTorch와 JAX로 구현된 표준화된 지표와 기준선이 포함되어 있습니다.
jujumilk3가 만든 GitHub 리포지토리로, AI 모델에서 유출된 시스템 프롬프트를 수집하여 숨겨진 지시사항과 행동 지침을 제공합니다.
Hello-SimpleAI가 제공하는 Human ChatGPT Comparison Corpus (HC3)는 여러 도메인에서 인간과 ChatGPT가 답변한 질문-답변 쌍으로 구성된 데이터셋입니다. AI 생성 텍스트 탐지를 위한 기준 탐지기(baseline detector)를 포함하여 인간과 AI 글쓰기 구별 연구를 지원합니다.
Objectron은 Google Research에서 제공하는 데이터셋으로, 9개 객체 카메라(자전거, 책, 병, 카메라, 시리얼 상자, 의자, 컵, 노트북, 신발)에 대해 약 15,000개의 주석된 비디오 클립과 4M 이미지를 포함합니다. 각 클립에는 카메라 포즈, 희소 점군, 평면 및 3D 바운딩 박스와 같은 AR 메타데이터가 포함되어 있습니다. 단안 비디오에서 3D 객체 탐지, 추적 및 재구성을 발전시키기 위해 설계되었습니다.
lining808이 만든 GitHub 저장소로, 분류된 고전적인 고품질 컴퓨터 과학 전자책 목록을 제공합니다. AI, 데이터 과학, 딥러닝, 프로그래밍 언어 등을 다룹니다. 학습자에게 최상의 리소스를 찾도록 도와줍니다.
asgeirtj의 이 GitHub 리포지토리는 Anthropic의 Claude, OpenAI의 ChatGPT, Google의 Gemini, xAI의 Grok 등 주요 AI 모델의 시스템 프롬프트를 추출하여 게시합니다. 모델이 어떻게 지시되는지에 대한 투명성을 제공하며, 새로운 릴리스에 맞춰 정기적으로 업데이트됩니다.