跳转至

什么是LLM

LLM 就是 Large Language Model(大型语言模型),它是一类基于深度学习的人工智能模型,专门用来理解和生成自然语言文本:


1️⃣ 基本概念

  • Large:指模型参数非常多,通常有上亿到上千亿个参数。
  • Language Model:语言模型,指能够对语言序列进行建模,预测下一个词或生成合理的句子。

LLM 的本质是一个概率模型,它学习语言的统计规律,能够:

  1. 根据前文预测下一个词
  2. 完成句子补全、摘要生成、翻译、对话等任务

2️⃣ 核心特点

  1. 海量参数
  2. 参数越多,模型通常越聪明、生成文本越自然。
  3. 典型例子:GPT-4、LLaMA、Qwen、MPT。
  4. 强大的泛化能力
  5. 可以处理之前没见过的任务,只要给少量示例(few-shot)就能完成。
  6. 生成能力
  7. 不仅理解语言,还能生成逻辑通顺、语义合理的文本。
  8. 上下文理解
  9. 可以记住对话或文本中的上下文内容,使生成的结果连贯。

3️⃣ LLM 的应用场景

  • 对话助手:ChatGPT、企业客服机器人
  • 文本生成:写作、摘要、邮件生成
  • 代码生成:GitHub Copilot
  • 知识问答:文档检索 + 回答问题
  • 翻译:多语言翻译

简单来说,LLM 就是那种“会写、会回答、会翻译、会总结”的超大脑模型,而 vLLM 则是专门用来高效运行这些大脑模型的工具。