注意力机制 创建于 ,更新于 小白理解:transformer模型需要学会抓重点,从一个句子中,抓到关键词,从而会生成一个加权的向量矩阵。所以就是模型需要知道将自己的注意力放在输入的内容中的哪些重点内容上。 反向链接: Chatgpt从0到1 李佳芮 [[【极客时间】李佳芮:ChatGPT 从0到1.pdf]]