
chonkie-inc/chonkie
🔧 Toolchonkie-inc
Leichte & robuste RAG-Chunking-Bibliothek mit intelligenten Textaufteilungen.
Chonkie bietet eine Reihe von Chunking-Algorithmen, die Text für Vektordatenbanken und LLMs aufbereiten. Es unterstützt semantisches Chunking mittels Embeddings sowie token-, wort- und satzbasierte Aufteilungen. Zu den Hauptfunktionen gehören anpassbare Überlappung, Batch-Verarbeitung und optimierte Leistung durch Numba. Die Bibliothek ist leichtgewichtig – ohne schwere Abhängigkeiten wie torch oder transformers – und lässt sich leicht in bestehende RAG-Stacks integrieren. Die API ist einfach: einen Chunker instanziieren (z. B. SemanticChunker, TokenChunker) und chunk(text) aufrufen. Chonkie ist auf PyPI verfügbar und hat mit über 4.100 GitHub-Sternen schnell Anklang gefunden. Chonkie strebt danach, das bevorzugte Aufnahmewerkzeug für produktive RAG-Systeme zu sein.
💡Highlights
- ├─Mehrere Chunking-Strategien
- ├─Leichtgewichtig, keine schweren Abhängigkeiten
- └─4k+ GitHub-Sterne
🎯Für
- ├─RAG-Entwickler
- ├─LLM-Anwendungsentwickler
- └─NLP-Ingenieure
🔗Links
- └─GitHub