microsoft/table-transformer-detection
🧠 KI-Modellmicrosoft
Tabellen in Dokumenten mit einem DETR-basierten Transformer-Modell von Microsoft erkennen.
Das Table Transformer Detection Modell ist ein spezialisiertes Objekterkennungsmodell von Microsoft Research, das entwickelt wurde, um Tabellen in gescannten Dokumenten und Bildern zu lokalisieren. Es basiert auf der DEtection TRansformer (DETR)-Architektur, die die Objekterkennung als direktes Mengenvorhersageproblem behandelt und viele manuell erstellte Komponenten wie Ankerboxen und Nicht-Maximum-Unterdrückung überflüssig macht. Diese spezielle Variante verwendet ein ResNet-18-Backbone und wird auf großen öffentlichen Datensätzen trainiert: PubTables-1M (über 700.000 Tabelleninstanzen aus PubMed-Artikeln) und FinTabNet (Finanztabellen). Das Modell gibt Begrenzungsrahmen um Tabellen mit Konfidenzwerten aus. Es ist auf HuggingFace Hub mit über 1,3 Millionen Downloads verfügbar und kann auf Azure-Endpunkten bereitgestellt werden. Das zugehörige Paper 'TATR: Table Transformer' enthält alle Details.
💡Highlights
- ├─1,3M+ Downloads auf HuggingFace
- ├─Basiert auf DETR mit ResNet-18
- └─Trainiert auf PubTables-1M & FinTabNet
🎯Für
- ├─Dokumenten-KI-Forscher
- ├─Dateningenieure
- └─OCR-Pipeline-Entwickler