跳转至

注意力机制

🧠 想象你是一个老师

你面前有 10 个学生,每个人都在举手回答问题。

你问的是:“昨天谁看见教室外的猫了?”

你环顾四周,这时候你:

  • 重点注意那个说“我看见猫!”的学生 🧍‍♂️(相关信息)
  • 稍微注意那个说“我看见狗!”的学生 🐕(有点相关)
  • 几乎不理那个说“我数学考了100分!”的学生 😅(不相关)

这时,你的注意力不是平均分配给每个人,而是按相关程度分配。 这就是「注意力机制」的本质!


🔍 放到AI里就是:

假设模型在处理一句话:

“昨天下雨了,所以我带了伞。”

当模型读到“伞”时,它不会平均关注所有词,而是:

  • 更关注 “下雨” (这是伞出现的原因 🌧️)
  • 稍微关注 “带” (动作相关)
  • 几乎不看 “昨天” (关系弱)

于是模型学到:“伞”和“下雨”关系密切。


🤖 模型内部是怎么实现这种“关注”的呢?

模型里每个词都有一个“注意力打分器”:

  • 它计算“我现在要理解的词(Query)”对“其他词(Key)”的匹配度。
  • 匹配得越高,就给越高的权重。

最后,模型把重要的词加权合成,形成“我理解的重点内容(Value)”。


📦 生活再举个更搞笑的例子:

你在吃火锅 🍲,锅里有:

牛肉、豆腐、土豆片、辣椒、香菜。

你突然想找“辣的味道”,你会:

  • 把注意力集中在“辣椒” 🌶️ 上;
  • 也稍微关注“底料”;
  • 完全不理“豆腐”。

模型干的事就是这个:

“我想找的味道是什么?哪些成分最能提供它?”

这就是注意力机制!


✅ 一句话总结:

注意力机制 = 模型在大量信息中,自动找到“最相关的部分”, 并专心吸收这些信息,而忽略无关的内容。