什么是LLM
LLM 就是 Large Language Model(大型语言模型),它是一类基于深度学习的人工智能模型,专门用来理解和生成自然语言文本:
1️⃣ 基本概念
- Large:指模型参数非常多,通常有上亿到上千亿个参数。
- Language Model:语言模型,指能够对语言序列进行建模,预测下一个词或生成合理的句子。
LLM 的本质是一个概率模型,它学习语言的统计规律,能够:
- 根据前文预测下一个词
- 完成句子补全、摘要生成、翻译、对话等任务
2️⃣ 核心特点
- 海量参数
- 参数越多,模型通常越聪明、生成文本越自然。
- 典型例子:GPT-4、LLaMA、Qwen、MPT。
- 强大的泛化能力
- 可以处理之前没见过的任务,只要给少量示例(few-shot)就能完成。
- 生成能力
- 不仅理解语言,还能生成逻辑通顺、语义合理的文本。
- 上下文理解
- 可以记住对话或文本中的上下文内容,使生成的结果连贯。
3️⃣ LLM 的应用场景
- 对话助手:ChatGPT、企业客服机器人
- 文本生成:写作、摘要、邮件生成
- 代码生成:GitHub Copilot
- 知识问答:文档检索 + 回答问题
- 翻译:多语言翻译
简单来说,LLM 就是那种“会写、会回答、会翻译、会总结”的超大脑模型,而 vLLM 则是专门用来高效运行这些大脑模型的工具。