本项目基于 Neural Networks: Zero To Hero 视频讲座系列中的第一讲(关于 nanoGPT)所创建的代码。在此以 Github 仓库的形式发布,方便大家轻松尝试、浏览 git log 等。
注意:很遗憾,在视频讲座中我并未深入讲解模型初始化的内容,然而它对良好性能至关重要。当前代码可以正常训练和运行,但由于权重初始化位置不佳,收敛速度较慢。请参阅 nanoGPT model.py 中的 # init all weights 注释,特别是调用 _init_weights 函数的方式。更令人遗憾的是,本仓库中的代码在模块命名和存储方式上略有不同,因此无法直接复制粘贴此处代码。我目前计划发布一个补充视频讲座来涵盖这些部分,届时也会将精确的代码变更推送至此仓库。目前保持原样,以便与视频中实际讲解的内容基本一致。
MIT