vietnh1009/Super-mario-bros-PPO-pytorch

📦 ओपन सोर्स प्रोजेक्टvietnh1009

PPO एल्गोरिदम का PyTorch कार्यान्वयन, Super Mario Bros खेलने के लिए एजेंट प्रशिक्षित करता है।

रिपॉजिटरी 'vietnh1009/Super-mario-bros-PPO-pytorch' Proximal Policy Optimization (PPO) सुदृढीकरण सीखने के एल्गोरिदम का एक ओपन-सोर्स कार्यान्वयन है, जिसे क्लासिक गेम Super Mario Bros पर लागू किया गया है। PyTorch और OpenAI Gym के साथ निर्मित, यह एक संपूर्ण प्रशिक्षण पाइपलाइन प्रदान करता है जिसमें वातावरण रैपर, तंत्रिका नेटवर्क आर्किटेक्चर (CNN-आधारित नीति और मूल्य नेटवर्क) और प्रशिक्षण लूप शामिल हैं। कोड मॉड्यूलर और अच्छी तरह से प्रलेखित है, शैक्षिक उद्देश्यों या आगे के RL अनुसंधान के लिए आधार रेखा के रूप में उपयुक्त है। यह प्रशिक्षण और मूल्यांकन दोनों मोड का समर्थन करता है, गेमप्ले रेंडर करने के विकल्प के साथ। परियोजना को RL समुदाय में व्यापक रूप से अपनाया गया है, जैसा कि GitHub पर इसकी लोकप्रियता से प्रमाणित है।

💡मुख्य बातें

├─PPO का PyTorch कार्यान्वयन
├─OpenAI Gym Super Mario Bros वातावरण
└─1,295 GitHub सितारे

🎯के लिए

├─सुदृढीकरण सीखने के शोधकर्ता
├─गेम AI डेवलपर
└─PyTorch सीखने वाले

🔗लिंक

└─GitHub रिपॉजिटरी