大模型启动参数
大模型启动
unset XPU_DUMMY_EVENT # 移除虚拟事件占位符,确保系统使用真实的 XPU 事件处理机制
export XPU_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 # 指定当前程序可以使用的 Intel XPU 物理卡编号
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 # 兼容性设置,让识别 CUDA 的库也能看到对应的 XPU 设备
export XFT_USE_FAST_SWIGLU=1 # 启用 Fast SwiGLU 激活函数优化,提升计算效率
export XMLIR_CUDNN_ENABLED=1 # 开启 XMLIR 中模拟 cuDNN 的加速特性
export XPU_USE_DEFAULT_CTX=1 # 强制使用默认的 XPU 上下文,减少多卡环境下的资源冲突
export XMLIR_FORCE_USE_XPU_GRAPH=1 # 强制使用 XPU 图执行模式,类似 CUDA Graph,减少 CPU 调度开销
export BKCL_FORCE_SYNC=1 # 强制集合通信(BKCL)同步执行,提升分布式环境下的稳定性
export XPU_USE_MOE_SORTED_THRES=120 # 设置 MoE(混合专家模型)排序阈值,用于平衡负载与计算性能
export XPU_USE_FAST_SWIGLU=1 # 重复确认启用 Fast SwiGLU(同上,确保生效)
export XMLIR_ENABLE_MOCK_TORCH_COMPILE=false # 禁用模拟的 Torch 编译,通常为了避免与 vLLM 内部编译冲突
export USE_ORI_ROPE=1 # 使用原始的旋转位置编码(RoPE)计算逻辑,不使用变体
export VLLM_USE_V1=1 # 强制 vLLM 使用 V1 版本的执行引擎(通常用于兼容特定硬件后端)
python -m vllm.entrypoints.openai.api_server \
--host localhost \ # 服务绑定地址为本地回环
--port 8080 \ # 监听端口号为 8080
--model /data/ssd3/models/Qwen3-32B \ # 模型权重文件的物理存放路径
--gpu-memory-utilization 0.95 \ # 显存占用比例设置,此处允许使用 95% 的可用显存
--trust-remote-code \ # 允许执行模型仓库中的自定义 Python 代码
--max-model-len 32768 \ # 设置模型支持的最大序列长度
--tensor-parallel-size 2 \ # 张量并行度,即将模型拆分并在 2 张卡上协同运行
--dtype float16 \ # 推理所使用的数值精度类型(半精度浮点)
--max_num_seqs 400 \ # 单次并发处理的最大序列数(Batch Size 相关)
--max_num_batched_tokens 32768 \ # 单次 Batch 能够处理的最大 Token 总数
--max-seq-len-to-capture 32768 \ # 图捕获模式(Graph Capture)支持的最大长度
--block-size 128 \ # PagedAttention 的内存块大小,设为 128 提升吞吐
--distributed-executor-backend mp \ # 分布式执行器后端使用 multiprocessing (多进程) 模式
--no-enable-prefix-caching \ # 禁用前缀缓存功能(通常在显存极度紧张时关闭)
--no-enable-chunked-prefill \ # 禁用分块预填充,一次性处理完整 Prompt(适合长文本)
--compilation-config '{"splitting_ops": ["vllm.unified_attention_with_output_kunlun","vllm.unified_attention","vllm.unified_attention_with_output","vllm.mamba_mixer2"]}' # 针对昆仑芯/XPU 优化的算子编译拆分配置
max-model-len 单个用户最多 32K
max_num_batched_tokens 一次调度最多 32K
max-seq-len-to-capture 为 32K 长度生成 CUDA Graph