DIY-Engineering/Advanced-STS-Local-AI-Assistant

📦 Open Source ProjektDIY-Engineering

Ein vollständig lokaler, privater Speech-to-Speech KI-Assistent, angetrieben durch einen integrierten Stack aus Open-Source-Modellen.

Dieses Projekt bietet ein robustes Framework für den Aufbau eines lokalen Speech-to-Speech KI-Assistenten. Es nutzt eine modulare Architektur, bei der jede Komponente für die lokale Ausführung optimiert ist. Silero VAD sorgt für eine effiziente Erkennung von Sprachaktivität, während Faster-Whisper eine schnelle und präzise Transkription liefert. Das System verwendet LM Studio als Backend für die LLM-Inferenz, wodurch Nutzer Modelle flexibel an ihre Hardware anpassen können. Für Kontext und Gedächtnis nutzt es MiniLM-L6-v2-Embeddings in einer ChromaDB-Vektordatenbank, was Retrieval-Augmented Generation (RAG) für personalisierte Antworten ermöglicht. Abschließend wandelt Coqui TTS die Textantworten in natürlich klingende Sprache um. Dieses Setup ist ideal für Entwickler, die private, latenzarme Sprachschnittstellen ohne die Kosten oder Datenschutzrisiken von Cloud-Diensten erstellen möchten.

💡Highlights

├─Vollständig lokale Offline-Verarbeitung
├─Integriert VAD, STT, LLM und TTS
└─Inklusive RAG via ChromaDB

🎯Für

├─KI-Entwickler
└─Datenschutz-Enthusiasten

🔗Links

└─GitHub-Repository