
stas00/ml-engineering
📚 教程stas00
涵盖训练、推理和调试的机器学习工程开源宝典。
ML Engineering Open Book (stas00/ml-engineering) 是一个为机器学习工程师精心策划的知识库。它提供了关于训练大型模型、调试 GPU 问题、优化推理以及管理分布式计算(使用 Slurm)的详细指南。该仓库包含常见任务的脚本、硬件和软件问题的故障排除步骤,以及 PyTorch 和 Transformers 的最佳实践。该项目已获得超过 18k 星标,成为处理大型语言模型和高性能计算的从业者的首选参考。