Sreyan88/RECAP

📦 开源项目Sreyan88

利用检索增强生成技术（RAG）提升音频描述准确性的创新音频字幕系统。

RECAP（检索增强音频字幕）旨在解决标准生成式音频字幕模型中常见的幻觉或描述泛化问题。通过实现基于检索的机制，该模型会在参考数据库中搜索相似的音频-字幕对，为生成器提供高质量的上下文信息。系统利用 CLAP 实现稳健的音频-文本对齐，确保检索到的样本与输入音频在语义上高度相关。这种方法极大地增强了模型识别特定声音事件和环境上下文的能力。该代码库包含完整的 Python 实现，为研究人员和开发人员提供了复现 ICASSP 2024 研究成果的必要工具，并支持在音频领域进行检索增强流水线的实验。核心技术组件包括音频数据处理流水线、基于预训练模型的嵌入提取，以及将检索逻辑集成到字幕生成过程中的实现。

💡核心亮点

├─采用检索增强生成（RAG）技术
├─基于 CLAP 的音频-文本对齐机制
└─ICASSP 2024 论文完整实现代码

🎯适用人群

├─音频 AI 研究人员
└─机器学习工程师

🔗链接

└─GitHub 仓库