M-SRIKAR-VARDHAN/speech-to-speech-with-lipsync

📦 ओपन सोर्स प्रोजेक्टM-SRIKAR-VARDHAN

RVC वॉयस क्लोनिंग और Wav2Lip लिप-सिंक के साथ एंड-टू-एंड स्पीच-टू-स्पीच अनुवाद पाइपलाइन।

speech-to-speech-with-lipsync रिपॉजिटरी स्वचालित वीडियो डबिंग के लिए एक मॉड्यूलर फ्रेमवर्क प्रदान करती है। यह पाइपलाइन RVC (Retrieval-based Voice Conversion) का उपयोग करके वॉयस क्लोनिंग करती है, जिससे आउटपुट ऑडियो विभिन्न भाषाओं में अनुवादित होने के बावजूद मूल वक्ता की पहचान बनाए रखता है। दृश्य घटक को Wav2Lip द्वारा संभाला जाता है, जो किसी भी वीडियो और स्पीच इनपुट के लिए सटीक लिप-सिंक उत्पन्न करता है। यह प्रोजेक्ट मीडिया प्रोसेसिंग के लिए FFmpeg और मॉडल इन्फरेंस के लिए PyTorch का उपयोग करता है। यह डबिंग में 'अनकैनी वैली' प्रभाव की चुनौती को हल करता है, यह सुनिश्चित करते हुए कि उत्पन्न ऑडियो न केवल स्वाभाविक है, बल्कि वक्ता के होंठों की गतिविधियों के साथ दृश्य रूप से भी सुसंगत है। इसे डेवलपर्स और कंटेंट क्रिएटर्स के लिए डिज़ाइन किया गया है जो बहुभाषी वीडियो उत्पादन के जटिल वर्कफ़्लो को स्वचालित करना चाहते हैं।

💡मुख्य बातें

├─वॉयस क्लोनिंग के लिए RVC एकीकरण
├─सटीक लिप-सिंक के लिए Wav2Lip
└─एंड-टू-एंड डबिंग पाइपलाइन

🎯के लिए

├─वीडियो कंटेंट क्रिएटर्स
├─एआई शोधकर्ता
└─लोकलाइजेशन इंजीनियर

🔗लिंक

└─GitHub रिपॉजिटरी