
kreuzberg-dev/kreuzberg-surrealdb
🔧 Инструментkreuzberg-dev
Мощный Python-конвейер для извлечения, нарезки и встраивания 88+ форматов документов напрямую в SurrealDB для RAG.
kreuzberg-surrealdb — это специализированная утилита на Python, предназначенная для устранения разрыва между хранилищами неструктурированных документов и векторными базами данных. Используя движок Kreuzberg, инструмент распознает огромное количество форматов — от стандартных PDF и офисных документов до сложных технических файлов, обеспечивая высокую точность извлечения текста. Ключевые функции включают стратегии автоматической нарезки текста, оптимизированные для контекстных окон LLM, и бесшовную интеграцию с моделями эмбеддингов. После обработки данные передаются напрямую в SurrealDB, которая выступает одновременно как основное хранилище документов и поисковый движок. Это исключает необходимость в сложном промежуточном ПО или синхронизации с отдельными векторными БД, что делает решение идеальным для масштабируемых AI-приложений. Проект ориентирован на модульность, позволяя гибко настраивать модели эмбеддингов и параметры нарезки под конкретные задачи.
💡Основное
- ├─Поддержка 88+ форматов файлов
- ├─Прямая интеграция с SurrealDB
- └─Автоматическая нарезка и эмбеддинги
🎯Для
- ├─AI-инженеры
- ├─Бэкенд-разработчики
- └─Архитекторы данных