
Stanford CS336: assignment 1
作业一官方仓库:https://github.com/stanford-cs336/assignment1-basics
2025-11-22 · 60 min read · si-tan-fu-cs336-language-modeling-from-scratch
Tag View
3 published posts

作业一官方仓库:https://github.com/stanford-cs336/assignment1-basics
2025-11-22 · 60 min read · si-tan-fu-cs336-language-modeling-from-scratch

主要介绍训练模型所需的基本要素,从张量到模型、再到优化器与训练循环,强调资源效率,尤其是内存(GB)与计算量(FLOPs)的核算。课程不涉及 Transformer,而是通过更简单的模型来讲解。
2025-09-25 · 25 min read · si-tan-fu-cs336-language-modeling-from-scratch

过去八年,研究人员与底层技术的联系逐渐减弱——八年前他们会自己实现并训练模型,六年前开始下载现成模型(如 BERT)并微调,如今更多只是对专有模型(如 GPT-4、Claude、Gemini)进行提示。虽然抽象层级的提升提高了生产力,但这些抽象并不完全封闭,仍存在漏洞。要进行真正的基础研究,仍需“拆开技术栈”深入理解其原理。本课程的目标就是通过从零构建语言模型来获得这种理解。
2025-09-18 · 20 min read · si-tan-fu-cs336-language-modeling-from-scratch