nanogpt-lecture

本项目基于 Neural Networks: Zero To Hero 视频讲座系列中的第一讲（关于 nanoGPT）所创建的代码。在此以 Github 仓库的形式发布，方便大家轻松尝试、浏览 git log 等。

注意：很遗憾，在视频讲座中我并未深入讲解模型初始化的内容，然而它对良好性能至关重要。当前代码可以正常训练和运行，但由于权重初始化位置不佳，收敛速度较慢。请参阅 nanoGPT model.py 中的 # init all weights 注释，特别是调用 _init_weights 函数的方式。更令人遗憾的是，本仓库中的代码在模块命名和存储方式上略有不同，因此无法直接复制粘贴此处代码。我目前计划发布一个补充视频讲座来涵盖这些部分，届时也会将精确的代码变更推送至此仓库。目前保持原样，以便与视频中实际讲解的内容基本一致。