
utkuozdemir/nvidia_gpu_exporter
🔧 टूलutkuozdemir
nvidia-smi का उपयोग करके Nvidia GPU मेट्रिक्स की निगरानी के लिए एक हल्का Prometheus एक्सपोर्टर।
nvidia_gpu_exporter Go में निर्मित एक विशेष निगरानी टूल है, जिसे महत्वपूर्ण Nvidia GPU मेट्रिक्स को Prometheus तक पहुँचाने के लिए डिज़ाइन किया गया है। मानक nvidia-smi बाइनरी का लाभ उठाकर, यह एक्सपोर्टर जटिल निर्भरताओं की आवश्यकता के बिना विभिन्न Nvidia ड्राइवर संस्करणों के साथ अत्यधिक संगत रहता है। यह समय-समय पर GPU स्थिति की जाँच करता है और हार्डवेयर टेलीमेट्री को संरचित Prometheus मेट्रिक्स में बदलता है, जिसमें कोर उपयोग, मेमोरी बैंडविड्थ, फैन स्पीड और पावर ड्रा शामिल हैं।
इसकी मुख्य विशेषताओं में कम संसाधन ओवरहेड, मल्टी-GPU वातावरण के लिए समर्थन और कॉन्फ़िगर करने योग्य स्क्रैपिंग अंतराल शामिल हैं। इसका उपयोग व्यापक रूप से हाई-परफॉर्मेंस कंप्यूटिंग (HPC) और AI/ML इंफ्रास्ट्रक्चर में किया जाता है ताकि गहन LLM ट्रेनिंग या इन्फरेंस कार्यों के दौरान GPU स्वास्थ्य की निगरानी की जा सके। यह प्रोजेक्ट अपनी सरलता और मजबूती के लिए जाना जाता है, जो इसे उन DevOps इंजीनियरों के लिए एक मानक विकल्प बनाता है जिन्हें Grafana डैशबोर्ड में GPU ऑब्जर्वेबिलिटी को एकीकृत करने की आवश्यकता होती है।
💡मुख्य बातें
- ├─Prometheus-रेडी GPU मेट्रिक्स
- ├─कम ओवरहेड वाला Go कार्यान्वयन
- └─मल्टी-GPU वातावरण का समर्थन
🎯के लिए
- ├─DevOps इंजीनियर
- ├─MLOps इंजीनियर
- └─सिस्टम एडमिनिस्ट्रेटर