23 открытий
TrustLLM — это исследовательский проект (ICML 2024), предлагающий систематический подход к оценке надежности больших языковых моделей (LLM). Он охватывает восемь ключевых аспектов доверия, включая правдивость, безопасность, справедливость, устойчивость и конфиденциальность. Инструментарий, разработанный HowieHwong и коллегами, позволяет исследователям и разработчикам измерять надежность своих моделей, предоставляя критически важные данные об их этичности и соответствии стандартам безопасности.
BreastDCEDL — это специализированный набор данных, созданный для задач глубокого обучения в онкологии. Автор проекта, Наоми Фридман, объединила высококачественные DCE-MRI снимки из когорт I-SPY1, I-SPY2 и DUKE. Репозиторий предоставляет стандартизированные данные, готовые к использованию для обучения и оценки ИИ-моделей, фокусируясь на диагностике рака молочной железы, определении статуса HER2 и анализе ответа на терапию с использованием DICOM-файлов.
TheAgentCompany — это бенчмарк с открытым исходным кодом для оценки производительности AI-агентов в симулированной среде разработки ПО. Платформа позволяет тестировать, как агенты на базе LLM справляются со сложными многоэтапными задачами, типичными для реальных рабочих процессов инженеров. Имитируя офисные сценарии, проект помогает исследователям и разработчикам измерять надежность, логические способности и эффективность выполнения задач агентами в контролируемых, но сложных условиях.
PeptoneLtd/dspp-keras предоставляет структурированный набор данных о порядке и беспорядке в белках, разработанный специально для глубокого обучения в Keras, TensorFlow и Edward. Проект от Peptone поддерживает непрерывное обучение в биотехнологиях благодаря автоматизированному циклу обновления данных. Это важный ресурс для исследователей, создающих модели машинного обучения для предсказания структурных характеристик белков, упрощающий интеграцию сложных биологических данных в современные AI-конвейеры.
AeroPath — это специализированный набор медицинских данных от Raidionics, предназначенный для улучшения сегментации дыхательных путей на КТ-снимках. Он содержит высококачественные аннотированные воксельные данные, включающие сложные патологии. Служа надежным эталоном, AeroPath позволяет исследователям обучать и тестировать модели глубокого обучения на сложных бронхиальных структурах, повышая точность автоматизированных диагностических инструментов в пульмонологии.
τ-Bench (Tau-Bench) — это фреймворк с открытым исходным кодом от Sierra Research для оценки производительности ИИ-агентов в реальных сценариях. В отличие от статических тестов, он фокусируется на динамическом взаимодействии агентов, внешних инструментов и намерений пользователя. Инструмент позволяет стандартизированно проверять, насколько эффективно LLM-агенты справляются с многошаговыми задачами, ошибками API и удержанием контекста, что критически важно для создания автономных агентов промышленного уровня.
kjappelbaum/awesome-chemistry-datasets — это управляемый сообществом репозиторий, предоставляющий структурированный обзор ключевых наборов данных для ИИ в химии. Ресурс объединяет разнообразные источники молекулярных и химических данных, помогая исследователям находить и использовать качественные данные для обучения моделей машинного обучения. Это центральный хаб для ученых и разработчиков, работающих на стыке химии и искусственного интеллекта, упрощающий процесс поиска данных для прогнозирования свойств молекул и задач генеративного моделирования.
Physion — это исследовательский бенчмарк, разработанный CogTools Lab и представленный на конференции NeurIPS 2021. Он предоставляет стандартизированную среду для оценки того, насколько эффективно ИИ-модели предсказывают физические события на основе визуальных данных. Сравнивая производительность машин с человеческим восприятием, проект помогает сократить разрыв между компьютерным зрением и интуитивной физикой, предлагая строгий набор данных для тестирования моделей глубокого обучения в сложных динамических сценариях.
RealPDEBench от AI4Science-WestlakeU — это бенчмарк (ICLR 2026 Oral), созданный для преодоления разрыва между симуляциями и реальными физическими наблюдениями. Он предоставляет набор данных для оценки нейронных операторов и моделей глубокого обучения, проверяя их способность к обобщению от синтетических симуляций к экспериментальным данным. Благодаря наличию парных наборов данных, проект является ключевым ресурсом для развития научного машинного обучения и повышения точности моделирования на основе уравнений в частных производных (УЧП).
FinTSB от TongjiFinLab — это надежный бенчмарк для прогнозирования финансовых временных рядов, признанный лучшей статьей на семинаре ICAIF'25. Он предоставляет стандартизированную среду для оценки моделей глубокого обучения в количественных финансах. Благодаря набору разнообразных данных и строгим протоколам тестирования, FinTSB помогает исследователям и практикам сравнивать производительность моделей в различных рыночных сценариях, обеспечивая более точный и прикладной анализ рынка и алгоритмическую торговлю.
Репозиторий BIMCV-CSUSP/BIMCV-COVID-19 — это важная инициатива по открытым данным от Банка изображений Валенсийского региона. Он объединяет клинические медицинские изображения, включая рентгеновские снимки и данные о патологиях, для разработки моделей глубокого обучения. Сочетая набор данных PadChest со специфическими случаями COVID-19, проект предоставляет исследователям надежную базу для создания диагностических инструментов, способствующих раннему выявлению респираторных заболеваний и развитию международного научного сотрудничества.
Этот репозиторий, созданный Арианом Аскари, содержит комплексный набор данных для обучения и оценки моделей вопросно-ответного поиска (QA). Он сфокусирован на сравнении ответов, сгенерированных ChatGPT, с ответами, написанными людьми, что делает его ценным ресурсом для исследователей в области информационного поиска (IR) и NLP. Набор данных способствует созданию более надежных поисковых систем, объединяя синтетические данные ИИ с реальными человеческими бенчмарками, представленными в контексте исследования CIKM 2023.
LMaaS-Papers — это комплексный репозиторий, созданный txsun1997, который объединяет ключевые исследования в области Language-Model-as-a-Service. Ресурс предоставляет структурированный список академических работ, посвященных методам обслуживания, оптимизации и интеграции больших языковых моделей в облачную инфраструктуру. Систематизируя достижения в области промпт-обучения и развертывания моделей, этот репозиторий служит важной базой знаний для исследователей и инженеров, стремящихся понять эволюцию систем доставки LLM.
DL3DV-10K — это высококачественный набор данных, предназначенный для развития исследований в области 3D-реконструкции, синтеза новых ракурсов и компьютерного зрения. Включая 10 000 разнообразных сцен, этот ресурс помогает обучать глубокие нейронные сети пониманию сложных 3D-пространств. Он незаменим для разработчиков, работающих с нейронными полями излучения (NeRF), 3D Gaussian Splatting и другими генеративными технологиями, предоставляя необходимый масштаб для создания надежных и высокопроизводительных моделей.
InsPLAD (Inspection of Power Line Assets Dataset) — это тщательно отобранная коллекция изображений для обучения моделей глубокого обучения обнаружению дефектов инфраструктуры линий электропередач. Набор данных, созданный andreluizbvs, содержит высококачественные аэрофотоснимки с дронов, сфокусированные на изоляторах и других критических компонентах ЛЭП. Это важный ресурс для исследователей и инженеров, работающих над автоматизацией диагностики, предиктивным обслуживанием и компьютерным зрением в энергетическом секторе.
Этот репозиторий, разработанный медиа-платформой Jiqizhixin, предоставляет обширную структурированную базу технических терминов на английском и китайском языках. Он служит важным справочником для исследователей, переводчиков и разработчиков в сфере машинного обучения и ИИ, обеспечивая точность и единообразие технической коммуникации.
PromptPapers — это авторитетный репозиторий от THUNLP, служащий центральным хабом для исследователей и разработчиков в области промпт-обучения. Он объединяет обязательные к прочтению научные статьи, охватывающие эволюцию и применение промпт-тюнинга для предобученных языковых моделей (PLM). Систематизируя фундаментальные и передовые исследования, репозиторий предоставляет структурированную дорожную карту для понимания того, как эффективно управлять большими моделями с помощью промпт-инжиниринга и методов настройки.
PDEBench — это обширный бенчмарк для научного машинного обучения, созданный организацией pdebench. Он предоставляет коллекцию наборов данных УЧП и базовых моделей для оценки методов ML в физически обоснованных симуляциях, охватывая гидродинамику, реакцию-диффузию и другие. Бенчмарк включает стандартизированные метрики и реализации на PyTorch и JAX.
Репозиторий на GitHub от jujumilk3, объединяющий утёкшие системные промпты от AI-моделей, раскрывающие скрытые инструкции и директивы, формирующие поведение.
Hello-SimpleAI представляет корпус Human ChatGPT Comparison Corpus (HC3) — набор данных с вопросами, на которые ответили как люди, так и ChatGPT в нескольких областях. Включает базовые детекторы для обнаружения текста, сгенерированного ИИ, поддерживая исследования по различению человеческого и машинного текста.
Objectron — это набор данных от Google Research, содержащий около 15K аннотированных видеоклипов и 4M изображений по 9 категориям объектов (велосипеды, книги, бутылки, камеры, коробки от хлопьев, стулья, чашки, ноутбуки, обувь). Каждый клип включает AR-метаданные: позиции камеры, разреженные облака точек, плоскости и 3D ограничивающие рамки. Создан для развития 3D-обнаружения, отслеживания и реконструкции по монокулярному видео.
Репозиторий GitHub от lining808, содержащий курированный список классических книг по информатике высокого качества. Охватывает AI, науку о данных, глубокое обучение, языки программирования и другое. Помогает учащимся найти лучшие ресурсы без перегрузки выбора.
Этот GitHub-репозиторий от asgeirtj извлекает и публикует системные промпты из основных AI-моделей, включая Anthropic Claude, OpenAI ChatGPT, Google Gemini и xAI Grok. Он обеспечивает прозрачность того, как эти модели инструктированы, и регулярно обновляется, чтобы идти в ногу с новыми релизами.