11-667 实验2 小记 - 咸鱼之家

通关记录已经放在上一次ww

通过11-667的代码部分的时候，除了最后的fine tuning 我的感觉就是，这就结束了吗？

相比较15-445 给了简单的注释和警告以外 11-667的代码部分给出了足够详尽的代码解释。甚至预期和结果都会展示在函数内部的注释中，如果有任何问题，也可以通过查看测试文件查看预期的情况是什么，虽然神经网络很复杂，但是对于若干参数的比较还是容易的。

实现了一个简单的tokenizer，理解原理后并不复杂。过程也没有要求你的时间复杂度什么的。

他把transformer模型每一个小步都拆成了一个test case 细致，也保证你彻底理解了transformer的构造，再过去，我看到transformer的那个流程图，我只能说这是transformer。当我做完实验以后，我可以对着图再一次（大概）写出完整的架构，包括里面的一些细节，能够完全理解其中的数据流。

（我没有完成其中的writing部分，这部分应该是挺折磨人的，主要是乐趣远不如coding）

期待下一次的作业，RAG什么的应该还是很好玩的，希望coding部分也是！

（溜回去写15-445，写到part3才发现前两部分不如part3一半多，我这就爬）