PaddleOCR Document Parsing
🛠️ Agenten-SkillClawHub
Strukturiertes Markdown/JSON aus PDFs extrahieren mit Tabellen, Formeln (LaTeX), Abbildungen, Siegeln und Diagrammen.
Dieser Skill nutzt die leistungsstarken OCR-Fähigkeiten von PaddleOCR, um verschiedene Dokumentformate (PDFs, Bilder) in strukturierte Daten zu konvertieren. Er bietet hochpräzise Tabellenextraktion mit zellgenauen Details, Formelerkennung als LaTeX-Ausgabe und Extraktion von Abbildungen, Stempeln, Diagrammen und anderen grafischen Elementen. Die Ausgabe kann als Markdown oder JSON formatiert werden, was sie für nachgelagerte Verarbeitung, Dateneingabe oder Analyse geeignet macht. Mit 22 Versionen und über 10.000 Downloads wurde es auf Zuverlässigkeit verfeinert. Der Skill wird auf ClawHub, einem Marktplatz für KI-Skills, gehostet und ist leicht in Agenten-Workflows integrierbar.
💡Highlights
- ├─Zellgenaue Tabellenextraktion
- ├─Formelausgabe als LaTeX
- └─Markdown- und JSON-Ausgabeformate
🎯Für
- ├─Dokumentverarbeiter
- ├─KI-Entwickler
- └─Datenwissenschaftler