Qwen/Qwen3-TTS-12Hz-1.7B-Base

🧠 AI 모델Qwen

Qwen의 오픈소스 1.7B 파라미터 TTS 모델로 효율적인 12Hz 오디오 생성.

Qwen3-TTS-12Hz-1.7B-Base는 Qwen 시리즈를 개발한 AI 연구팀 Qwen이 만든 최첨단 텍스트 음성 변환 모델입니다. 1.7B 파라미터의 트랜스포머 아키텍처를 사용해 텍스트를 12Hz 저프레임레이트 음성 토큰으로 변환합니다. 혁신적인 12Hz 토큰화는 자연스러운 운율과 음성 명료도를 유지하면서 계산 오버헤드를 크게 줄여 엣지 배포 및 실시간 시스템에 적합합니다. 다양한 다국어 데이터로 학습되었으며 제로샷 음성 복제를 지원합니다. Hugging Face에서 130만 회 이상 다운로드되며 개발자와 연구자 사이에서 빠르게 인기를 얻고 있습니다. Apache 2.0 라이선스로 자유로운 사용, 수정, 배포가 가능합니다.

💡하이라이트

├─1.7B 트랜스포머 파라미터
├─12Hz 저프레임레이트 토큰
└─Apache 2.0 라이선스

🎯대상

├─AI 개발자
├─음성 인터페이스 엔지니어
└─음성 합성 연구자

🔗링크

└─Hugging Face 모델 페이지