11-667 实验2 小记
通关记录已经放在上一次ww
通过11-667的代码部分的时候,除了最后的fine tuning 我的感觉就是,这就结束了吗?
相比较15-445 给了简单的注释和警告以外 11-667的代码部分给出了足够详尽的代码解释。甚至预期和结果都会展示在函数内部的注释中,如果有任何问题,也可以通过查看测试文件查看预期的情况是什么,虽然神经网络很复杂,但是对于若干参数的比较还是容易的。
实现了一个简单的tokenizer,理解原理后并不复杂。过程也没有要求你的时间复杂度什么的。
他把transformer模型每一个小步都拆成了一个test case 细致,也保证你彻底理解了transformer的构造,再过去,我看到transformer的那个流程图,我只能说这是transformer。 当我做完实验以后,我可以对着图再一次(大概)写出完整的架构,包括里面的一些细节,能够完全理解其中的数据流。
(我没有完成其中的writing部分,这部分应该是挺折磨人的,主要是乐趣远不如coding)
期待下一次的作业,RAG什么的应该还是很好玩的,希望coding部分也是!
(溜回去写15-445,写到part3才发现前两部分不如part3一半多,我这就爬)