注意力机制

你面前有 10 个学生，每个人都在举手回答问题。

你问的是：“昨天谁看见教室外的猫了？”

你环顾四周，这时候你：

这时，你的注意力不是平均分配给每个人，而是按相关程度分配。这就是「注意力机制」的本质！

假设模型在处理一句话：

“昨天下雨了，所以我带了伞。”

当模型读到“伞”时，它不会平均关注所有词，而是：

于是模型学到：“伞”和“下雨”关系密切。

模型里每个词都有一个“注意力打分器”：

最后，模型把重要的词加权合成，形成“我理解的重点内容（Value）”。

你在吃火锅 🍲，锅里有：

牛肉、豆腐、土豆片、辣椒、香菜。

你突然想找“辣的味道”，你会：

模型干的事就是这个：

“我想找的味道是什么？哪些成分最能提供它？”

这就是注意力机制！

注意力机制 = 模型在大量信息中，自动找到“最相关的部分”，并专心吸收这些信息，而忽略无关的内容。