OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  nanoGPT-lecture — 面向教学的极简语言模型实现

nanoGPT-lecture — 面向教学的极简语言模型实现

 
  car ·  2026-06-10 11:00:27 · 21 次点击  · 0 条评论  

nanogpt-lecture

本项目基于 Neural Networks: Zero To Hero 视频讲座系列中的第一讲(关于 nanoGPT)所创建的代码。在此以 Github 仓库的形式发布,方便大家轻松尝试、浏览 git log 等。

注意:很遗憾,在视频讲座中我并未深入讲解模型初始化的内容,然而它对良好性能至关重要。当前代码可以正常训练和运行,但由于权重初始化位置不佳,收敛速度较慢。请参阅 nanoGPT model.py 中的 # init all weights 注释,特别是调用 _init_weights 函数的方式。更令人遗憾的是,本仓库中的代码在模块命名和存储方式上略有不同,因此无法直接复制粘贴此处代码。我目前计划发布一个补充视频讲座来涵盖这些部分,届时也会将精确的代码变更推送至此仓库。目前保持原样,以便与视频中实际讲解的内容基本一致。

许可证

MIT

21 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor