11-667 HW回顾
也算是完成了HW2-5 由于HW6是自己的project 所以也就在这里先告一段落
整体来说我认为HW2,HW5是非常好玩的
HW2 的话从0开始实现了一个transformer,然后用它来训练一些case,过程中有些令人绝望的调参环节。但是整体来说的话 还是非常有意义的。
HW5 则是基于transfomer库的trainer进行几个加速训练的测试。包括accelerate,deepspeed和flash attention 在课程前完成这些内容再去听课的话 会有更深的理解
HW3 RAG 感觉作业比较分散,没有很好的把内容整合在一起,工具调用那里也比较简单(?)
HW4 bias 不熟(真不好玩吧)
当然 我是以coding任务为主的,writing的话 大部分都想过如何去回答,理清楚过一个思路,觉得简单也很有可能没有实际去完成,导致感觉强度并不大(?)