csinva/interpretable-embeddings

📦 Open Source Projektcsinva

Verwandeln Sie Black-Box-Text-Embeddings in interpretierbare Merkmale, indem LLMs Ja/Nein-Fragen beantworten.

Das Framework 'interpretable-embeddings' adressiert die Black-Box-Natur herkömmlicher Transformer-basierter Embeddings. Durch die Nutzung von LLMs als Merkmalsextraktoren konstruiert das System Einbettungsräume, in denen jede Dimension einem spezifischen, lesbaren Konzept oder einer Frage entspricht. Diese Methodik ermöglicht es Forschern, komplexe Vektordarstellungen in interpretierbare Komponenten zu zerlegen. Dies erleichtert das Debugging von RAG-Systemen, verbessert die Analyse neuronaler Enkodierungsmodelle in der Neurowissenschaft und sorgt für ein transparenteres Modellverhalten. Das Repository bietet die notwendigen Python-Tools, um diesen Ansatz zu implementieren und beliebige Texteingaben in einen durch semantische Abfragen definierten Raum abzubilden. Es ist äußerst effektiv für Aufgaben, die Interpretierbarkeit erfordern, ohne die Leistung großer Sprachmodelle zu beeinträchtigen, und bietet eine robuste Alternative zu traditionellen dichten Embedding-Methoden.

💡Highlights

├─NeurIPS 2024 akzeptierte Forschung
├─Menschlich interpretierbarer Raum
└─LLM-basierte binäre Merkmalsextraktion

🎯Für

├─KI-Forscher
├─Data Scientists
└─Computer-Neurowissenschaftler

🔗Links

└─GitHub Repository