GPTQ

GPTQ（Post-Training Quantization for GPT）是一种针对大语言模型（LLM）的训练后量化技术。它的目标是在减少模型显存占用的同时，尽可能保持模型的逻辑推理能力。

如果说 AWQ 是通过“寻找重要权重”来保精度，那么 GPTQ 的逻辑更像是“通过数学补偿来消除误差”。

量化本质上是将精确的数字（FP16）强行舍入成模糊的数字（INT4），这必然会产生误差。GPTQ 的核心思想是：量化某一个权重产生的误差，可以通过调整该层中尚未量化的其他权重来“抵消”掉。

GPTQ 基于一种名为 OBC (Optimal Brain Compressor) 的算法。它在处理每一层权重时，会参考一个复杂的数学工具——海森矩阵 (Hessian Matrix)。

特性	GPTQ 量化
压缩率	极高（通常将 16-bit 压至 4-bit 或 3-bit）
精度保持	非常出色，尤其在 4-bit 级别，困惑度（Perplexity）增加极小
处理速度	量化过程比 AWQ 稍慢（因为涉及矩阵逆运算），但依然属于单卡几小时内完成
硬件优化	拥有成熟的 GPU 核函数（Kernel）支持，推理速度极快

虽然两者都能把模型压到 4-bit，但思路完全不同：

如果你遇到以下情况，通常会选择 GPTQ 版本的模型：

GPTQ 是通过数学上的“拆东墙补西墙”实现的。 它利用二阶导数信息，在量化过程中不断修正误差，使得大模型在被阉割掉 75% 的体积后，依然能保持敏捷的思维能力。

比喻一下

GPTQ做了一件更“理性”的事：

算一套最优方案，让公司整体产出下降最少

可能结果是：

但目标只有一个：

整体业务能力损失最小（全局最优）