training-llms-megatron：Megatron-Core高效训练大语言模型

edit · 2026-02-21 08:23:24 · 51 次点击 · 0 条评论

Trains large language models (2B-462B parameters) using NVIDIA Megatron-Core with advanced parallelism strategies. Use when training models >1B parameters, need maximum GPU efficiency (47% MFU on H100), or require tensor/pipeline/sequence/context/expert parallelism. Production-ready framework used for Nemotron, LLaMA, DeepSeek.

技能包地址：https://skillsmp.com/skills/davila7-claude-code-templates-cli-tool-components-skills-ai-research-distributed-training-megatron-core-skill-md

51 次点击 ∙ 0 人收藏

登录后收藏

0 条回复