Sreyan88/RECAP

📦 오픈 소스 프로젝트Sreyan88

외부 오디오-텍스트 데이터베이스를 활용하여 오디오 캡션의 정확도를 높이는 검색 증강 생성(RAG) 시스템입니다.

RECAP(Retrieval-Augmented Audio Captioning)은 환각 현상이나 일반적인 설명에 그치는 기존 생성형 오디오 캡션 모델의 한계를 해결합니다. 검색 기반 메커니즘을 구현하여 유사한 오디오-캡션 쌍을 참조 데이터베이스에서 검색하고, 생성기에게 고품질의 문맥 정보를 제공합니다. 이 시스템은 CLAP을 활용하여 강력한 오디오-텍스트 정렬을 보장하며, 검색된 샘플이 입력 오디오와 의미적으로 관련되도록 합니다. 이러한 접근 방식은 모델이 특정 소리 이벤트와 환경적 맥락을 식별하는 능력을 크게 향상시킵니다. 이 저장소에는 Python으로 구현된 전체 코드가 포함되어 있어, 연구자와 개발자가 ICASSP 2024의 연구 결과를 재현하고 오디오 도메인에서 검색 증강 파이프라인을 실험할 수 있는 도구를 제공합니다. 주요 기술 구성 요소로는 오디오 데이터 처리 파이프라인, 사전 학습된 모델을 사용한 임베딩 추출, 캡션 생성 프로세스에 대한 검색 로직 통합 등이 있습니다.

💡하이라이트

├─검색 증강 생성(RAG) 기술 적용
├─CLAP 기반의 오디오-텍스트 정렬
└─ICASSP 2024 연구 공식 구현체

🎯대상

├─오디오 AI 연구자
└─머신러닝 엔지니어

🔗링크

└─GitHub 저장소