23 Entdeckungen
TrustLLM ist ein ICML 2024 Forschungsprojekt, das ein systematisches Framework zur Evaluierung der Vertrauenswürdigkeit von Large Language Models bietet. Es deckt acht zentrale Dimensionen ab, darunter Wahrhaftigkeit, Sicherheit, Fairness, Robustheit und Datenschutz. Das von HowieHwong und Partnern entwickelte Toolkit ermöglicht es Forschern und Entwicklern, die Zuverlässigkeit ihrer LLMs zu messen und liefert entscheidende Erkenntnisse über die Ausrichtung und ethische Leistung moderner KI-Systeme.
BreastDCEDL ist ein spezialisierter Datensatz für Deep-Learning-Anwendungen in der Brustkrebsforschung. Entwickelt von Naomi Fridman, aggregiert er hochwertige DCE-MRT-Daten aus den I-SPY1-, I-SPY2- und DUKE-Kohorten. Das Repository bietet ein standardisiertes, sofort einsatzbereites Format für Forscher, um KI-Modelle für die medizinische Bildgebung zu trainieren und zu evaluieren, mit Fokus auf Brustkrebsdiagnostik, HER2-Status und Behandlungsanalysen mittels DICOM-Dateien.
TheAgentCompany ist ein Open-Source-Benchmark zur Bewertung der Leistung von KI-Agenten in einer simulierten Softwareentwicklungsumgebung. Entwickelt von TheAgentCompany, bietet es eine strukturierte Plattform, um zu testen, wie LLM-gestützte Agenten komplexe, mehrstufige Aufgaben bewältigen, die für professionelle Software-Workflows typisch sind. Durch die Nachahmung realer Büroszenarien hilft es Forschern und Entwicklern, die Zuverlässigkeit, die logischen Fähigkeiten und die Effizienz von Agenten in einer kontrollierten, aber anspruchsvollen Umgebung zu messen.
PeptoneLtd/dspp-keras bietet einen kuratierten Datensatz zu Proteinordnung und -störung, der speziell für Deep-Learning-Frameworks wie Keras, TensorFlow und Edward entwickelt wurde. Das von Peptone entwickelte Repository ermöglicht kontinuierliche Lernanwendungen in der Biotechnologie durch einen automatisierten Aktualisierungszyklus für biologische Daten. Es dient als wichtige Ressource für Forscher, die Machine-Learning-Modelle zur Vorhersage struktureller Proteineigenschaften entwickeln, und schließt die Lücke zwischen komplexen biologischen Daten und zugänglichen KI-Trainingspipelines.
AeroPath ist ein spezialisierter medizinischer Bildgebungsdatensatz von Raidionics, der die Atemwegssegmentierung in CT-Scans vorantreiben soll. Er bietet hochwertig annotierte volumetrische Daten, die gezielt schwierige Pathologien enthalten. Als robuster Benchmark ermöglicht AeroPath Forschern das Training und die Evaluierung von Deep-Learning-Modellen an komplexen Bronchialstrukturen, um die Genauigkeit automatisierter Diagnosetools in der Lungenmedizin zu verbessern.
τ-Bench (Tau-Bench) ist ein von Sierra Research entwickeltes Open-Source-Evaluierungsframework zur Messung der Leistung von KI-Agenten in realen Umgebungen. Im Gegensatz zu statischen Benchmarks konzentriert es sich auf das dynamische Zusammenspiel zwischen Agenten, externen Tools und Benutzerabsichten. Es bietet eine standardisierte Methode, um zu testen, wie effektiv LLM-basierte Agenten mehrstufige Aufgaben bewältigen, mit Tool-Fehlern umgehen und den Kontext bei langwierigen Interaktionen wahren können – eine entscheidende Ressource für die Entwicklung produktionsreifer autonomer Agenten.
kjappelbaum/awesome-chemistry-datasets ist ein von der Community gepflegtes Repository, das einen strukturierten Überblick über essenzielle Datensätze für KI in der Chemie bietet. Es aggregiert diverse molekulare und chemische Datenquellen, um Forschern den Zugriff auf hochwertige Trainingsdaten für Machine-Learning-Modelle zu erleichtern. Als zentrale Anlaufstelle für Wissenschaftler und Entwickler an der Schnittstelle von Chemie und künstlicher Intelligenz vereinfacht es die Datenbeschaffung für Aufgaben wie die Vorhersage molekularer Eigenschaften und generative Modellierung.
Physion ist ein vom CogTools Lab entwickelter Forschungs-Benchmark, der auf der NeurIPS 2021 vorgestellt wurde. Er bietet ein standardisiertes Framework, um zu bewerten, wie gut KI-Modelle physikalische Ereignisse anhand visueller Eingaben vorhersagen können. Durch den Vergleich der Maschinenleistung mit der menschlichen Wahrnehmung zielt das Projekt darauf ab, die Lücke zwischen Computer Vision und intuitiver Physik zu schließen und einen strengen Datensatz für das Testen von Deep-Learning-Modellen in komplexen, dynamischen physikalischen Szenarien bereitzustellen.
RealPDEBench, entwickelt von AI4Science-WestlakeU, ist ein ICLR 2026 Oral Benchmark, der die Lücke zwischen simulierter Physik und realen Beobachtungen schließt. Er bietet einen robusten Datensatz komplexer physikalischer Systeme, der es Forschern ermöglicht, neuronale Operatoren und Deep-Learning-Modelle auf ihre Generalisierungsfähigkeit von synthetischen Simulationen auf experimentelle Daten zu prüfen. Durch die Bereitstellung gepaarter Datensätze dient er als entscheidende Ressource für den Fortschritt des wissenschaftlichen maschinellen Lernens und der Genauigkeit von PDE-basierten Simulationen.
FinTSB, entwickelt vom TongjiFinLab, ist ein robustes Benchmark-System für die Prognose von Finanzzeitreihen. Als „Best Paper“ auf dem ICAIF'25 Workshop ausgezeichnet, bietet es einen standardisierten Rahmen zur Bewertung von Deep-Learning-Modellen im Bereich Quantitative Finance. Durch vielfältige Datensätze und strenge Testprotokolle ermöglicht FinTSB Forschern und Praktikern den objektiven Vergleich von Modellleistungen in verschiedenen Finanzszenarien, was die Zuverlässigkeit von Anwendungen in der Marktanalyse und im algorithmischen Handel erhöht.
Das BIMCV-CSUSP/BIMCV-COVID-19-Repository ist eine wichtige Open-Data-Initiative der Valencia Region Image Bank. Es bündelt klinisch-wissenschaftliche Bilddaten, einschließlich Röntgenaufnahmen und pathologischer Informationen, um die Entwicklung von Deep-Learning-Modellen zu fördern. Durch die Kombination des PadChest-Datensatzes mit COVID-19-spezifischen Fällen erhalten Forscher eine robuste Grundlage für diagnostische Werkzeuge zur Früherkennung von Atemwegserkrankungen und stärken die globale wissenschaftliche Zusammenarbeit.
Dieses von Arian Askari entwickelte Repository bietet einen umfassenden Datensatz für das Training und die Evaluierung von Question-Answering (QA) Retrieval-Modellen. Es konzentriert sich auf den Vergleich von ChatGPT-generierten Antworten mit menschlichen Referenzantworten und ist damit eine wertvolle Ressource für die Forschung in den Bereichen Information Retrieval (IR) und NLP. Der Datensatz ermöglicht die Entwicklung robusterer Retrieval-Systeme durch die Kombination synthetischer KI-Daten mit realen Benchmarks, wie im Kontext der CIKM 2023 Forschung präsentiert.
LMaaS-Papers ist ein umfassendes, von der Community gepflegtes Repository von txsun1997, das essenzielle Forschungsergebnisse zu Language-Model-as-a-Service bündelt. Es bietet eine strukturierte Liste akademischer Arbeiten, die untersuchen, wie große Sprachmodelle bereitgestellt, optimiert und in Cloud-Infrastrukturen integriert werden. Durch die Kategorisierung wichtiger Fortschritte in den Bereichen Prompt-Learning, Modell-Serving und Deployment von vortrainierten Sprachmodellen dient diese Ressource als unverzichtbare Wissensbasis für Forscher und Ingenieure, die die Entwicklung von LLM-Bereitstellungssystemen verstehen möchten.
DL3DV-10K ist ein groß angelegter, hochpräziser Datensatz zur Förderung der Forschung in den Bereichen 3D-Rekonstruktion, Novel View Synthesis und Computer Vision. Er wurde entwickelt, um Deep-Learning-Modelle beim Verständnis komplexer 3D-Umgebungen zu unterstützen und umfasst 10.000 diverse Szenen. Diese Ressource ist essenziell für Forscher und Entwickler, die an Neural Radiance Fields (NeRF), 3D Gaussian Splatting und anderen generativen 3D-Technologien arbeiten, da sie den nötigen Umfang für das Training robuster Hochleistungsmodelle bietet.
InsPLAD (Inspection of Power Line Assets Dataset) ist eine kuratierte Bildersammlung, die für das Training von Deep-Learning-Modellen zur Fehlererkennung an Stromnetzinfrastrukturen entwickelt wurde. Der von andreluizbvs bereitgestellte Datensatz enthält hochwertige Drohnenaufnahmen, die gezielt Isolatoren und kritische Komponenten von Stromleitungen abbilden. Er dient als essenzielle Ressource für Forscher und Ingenieure, die an automatisierter Fehlererkennung, vorausschauender Wartung und Computer-Vision-Anwendungen im Energiesektor arbeiten.
Diese von der KI-Medienplattform Jiqizhixin entwickelte Datenbank bietet eine umfangreiche, strukturierte Zuordnung technischer Fachbegriffe zwischen Englisch und Chinesisch. Sie dient als unverzichtbare Referenz für Forscher, Übersetzer und Entwickler im Bereich Machine Learning und KI, um Konsistenz und Präzision in der technischen Kommunikation über Sprachbarrieren hinweg zu gewährleisten.
PromptPapers ist ein hoch angesehenes GitHub-Repository von THUNLP, das als zentrale Anlaufstelle für Forscher und Entwickler im Bereich Prompt-Learning dient. Es bündelt unverzichtbare wissenschaftliche Arbeiten zur Entwicklung und Anwendung von prompt-basiertem Tuning für vortrainierte Sprachmodelle (PLMs). Durch die Kategorisierung grundlegender und aktueller Forschung bietet das Repository einen strukturierten Leitfaden, um zu verstehen, wie große Modelle durch Prompt-Engineering und Tuning-Techniken effektiv gesteuert werden können.
PDEBench ist ein umfassender Benchmark für wissenschaftliches maschinelles Lernen, erstellt von der pdebench-Organisation. Es bietet eine Sammlung von PDE-Datensätzen und Baseline-Modellen zur Bewertung von ML-Methoden in physikbasierten Simulationen, einschließlich Fluiddynamik, Reaktions-Diffusion und mehr. Der Benchmark enthält standardisierte Metriken und Implementierungen in PyTorch und JAX.
Ein GitHub-Repository von jujumilk3, das geleakte System-Prompts von KI-Modellen sammelt und Einblicke in versteckte Anweisungen und verhaltenssteuernde Direktiven bietet.
Hello-SimpleAI präsentiert das Human ChatGPT Comparison Corpus (HC3), einen Datensatz mit Fragen, die sowohl von Menschen als auch von ChatGPT in mehreren Domänen beantwortet wurden. Es enthält Basis-Detektoren zur Erkennung KI-generierter Texte und unterstützt die Forschung zur Unterscheidung von menschlichem und KI-Schreiben.
Objectron ist ein Datensatz von Google Research mit etwa 15.000 annotierten Videoclips und 4 Millionen Bildern in 9 Objektkategorien (Fahrräder, Bücher, Flaschen, Kameras, Müslischachteln, Stühle, Tassen, Laptops, Schuhe). Jeder Clip enthält AR-Metadaten: Kamerapositionen, dichte Punktwolken, Ebenen und 3D-Bounding-Boxen. Entwickelt, um die 3D-Objekterkennung, -verfolgung und -rekonstruktion aus monokularem Video voranzutreiben.
Ein GitHub-Repository von lining808, das eine kuratierte, kategorisierte Liste klassischer, hochwertiger Informatik-Ebooks bereitstellt. Abgedeckt werden KI, Data Science, Deep Learning, Programmiersprachen und mehr. Ziel ist es, Lernenden die besten Ressourcen zu zeigen, ohne sie mit Optionen zu überfordern.
Dieses GitHub-Repository von asgeirtj extrahiert und veröffentlicht System-Prompts von großen KI-Modellen, darunter Anthropics Claude, OpenAIs ChatGPT, Googles Gemini und xAIs Grok. Es bietet Transparenz darüber, wie diese Modelle angewiesen werden, und wird regelmäßig aktualisiert, um mit neuen Veröffentlichungen Schritt zu halten.