跳转至

多头注意力机制

🧠 先回忆:普通注意力(单头)

比如你在看一句话:

“下雨了,所以我带了伞。”

当模型看到“伞”时,它会想: “我应该重点关注谁?”

  • “下雨” ✅(强相关)
  • “带” ✅(稍相关)
  • “所以” ❌(弱相关)

于是模型重点看“下雨”和“带”。 👉 这就叫「注意力」:挑重点看


🧩 那什么是多头注意力呢?

我们还是看这句话,但换个比喻:

想象有 8 个人(注意力头)同时在看这句话, 每个人的“关注方式”都不一样。

比如说👇:

注意力头 它在干嘛 举例
头1 看“语法关系” 谁是主语、谁是宾语?(“我”做了什么?)
头2 看“因果关系” 为什么带伞?因为下雨。
头3 看“时间关系” 下雨 → 带伞,是时间上的先后。
头4 看“情绪语气” 是平静的陈述,还是抱怨?
头5 看“物体之间的连接” “伞”和“雨”有关,“带”和“伞”有关。
头6 看“句子中位置的距离” 哪些词相距近但没直接连?
头7 看“逻辑结构” 句子是“因果”句。
头8 看“词义相似” “伞”与“雨衣”或“风衣”的关系。

最后,模型会把这 8 个人的观察结果综合起来。 👉 就像开个小会:每个人看一个角度,讨论完再汇总意见。


📷 更通俗一点(摄影类比)

你有 8 台相机同时拍一只猫 🐱:

  • 第一台拍猫的脸
  • 第二台拍猫的毛
  • 第三台拍猫的爪子
  • 第四台拍猫的尾巴
  • 第五台拍猫和背景
  • 第六台拍猫的颜色反光
  • ……

拍完后,把 8 张图拼成一张完整的猫。 👉 这就叫「多头注意力」:每个头看一个方面,最后融合。


🧩 为什么要这样做?

因为一句话的信息是复杂的:

  • 有语法关系
  • 有逻辑关系
  • 有情感语气
  • 还有上下文依赖

如果模型只用一个“视角”(单头注意力),它可能只能理解其中一部分。 但多个头一起看,就像多个大脑并行思考,理解就更全面。


✅ 一句话总结:

多头注意力机制 = 模型用“多副眼睛”看同一句话, 每副眼睛关注不同类型的信息,最后合成整体理解。