解码加速15倍！EdgeRazor助推大模型在PC/移动端“狂飙”

近年来，大语言模型参数的持续膨胀，带来了极高的显存占用和算力需求，在 PC、手机和 IoT 等资源受限的端侧设备上部署前沿大模型十分困难。因此大语言模型轻量化的研究势在必行，量化（Quantization）成为主流的轻量化方案。然而，量化端侧部署目前受制于 “不可能三角”：后训练量化（PTQ）在极低比特下精度崩塌；量化感知训练（QAT）算力成本极高；而现有的量化感知蒸馏（QAD）又缺乏灵活性。

由南京大学机器学习与数据挖掘研究所（LAMDA）和微软 AI 联合推出的开源工具库 EdgeRazor，直击端侧部署的核心痛点，一举打破了极低比特大语言模型 “能力塌陷” 的魔咒；其核心采用混合精度量化感知蒸馏（MPQAD），不仅保障了更低成本的训练，更支持了灵活的训练数据配比，成功构建出一个开源、即插即用的轻量化框架。论文通讯作者为南京大学 LAMDA 团队张绍群助理教授。

论文标题：EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation 论文地址：https://arxiv.org/abs/2605.04062 GitHub 链接：https://github.com/zhangsq-nju/EdgeRazor Hugging Face 链接：https://huggingface.co/collections/zhangsq-nju/edgerazor-nbit Playground 链接：https://huggingface.co/spaces/zhangsq-nju/EdgeRazor-PlayGround

端侧破局：兼得 SOTA 与 15 倍加速

图 1：EdgeRazor 和基线算法在基础型、指令微调型和多模态大模型上的性能表现

全面评测，性能领跑：EdgeRazor 在基础型（MobileLLM-350M）、指令微调型（Qwen3-0.6B/1.7B）和多模态（Qwen2.5-Omni-7B）大模型上开展了系统的性能评测。评测范围包括常识推理、指令遵循、数学推理、代码生成以及视频理解类型的 16 个下游任务。如图 1 所示，面对当前主流 PTQ、QAT 及 QAD 方法，EdgeRazor 在各类模型架构和比特位宽下均保持性能的领先，确立了全新的 SOTA 性能基准。

图 2：Qwen3-1.7B-EdgeRazor 在 PC 端和手机端部署效果演示

端侧部署，丝滑落地：为了展示真实受限资源下的工程落地，EdgeRazor 提供了适配于端侧部署的 DEMO。如图 2 所示，在 PC 端和手机端的 CPU 部署场景下，EdgeRazor 释放出极高的推理潜能。相较于 16-bit 基座模型，其解码速度分别实现了 16× 和 12× 的飞跃，整体端到端响应速度也获得了 10× 和 11× 的大幅提升，真正赋予了本地轻量化模型丝滑、“秒回” 的体验。

图 3：EdgeRazor 和基线算法在 Qwen3-0.6B 模型上 2-bit 量化尺度的性能表现

打破魔咒，拒绝塌陷：在极低比特位宽下，量化模型的复杂推理能力往往最先遭遇灾难性衰退，但 EdgeRazor 打破了这一魔咒。如图 3 所示，在 GSM8K（数学推理）和 HumanEval（代码生成）复杂任务上，现有主流 2-bit 方法普遍出现性能的断崖式下跌，甚至面临彻底失效的困境。相比之下，EdgeRazor 即使在 1.88-bit 这种极低比特预算下，依然展现出较好的稳健性，其任务表现显著优于同类 2-bit 方法。

图 4：EdgeRazor 和 ParetoQ 在 MobileLLM-350M 模型上的性能表现和训练开销

十倍轻训，降本增效：高质量的低比特模型往往依赖庞大的训练开销，而 EdgeRazor 彻底打破了这一现状。如图 4 所示，在 MobileLLM-350M 上，EdgeRazor 不仅在全比特位宽下超越了性能最强的 QAT 基线 ParetoQ，更在训练效率上实现了大幅优化。其训练所需的 tokens 数量缩减了 75%–90%（最低仅需 3.1B，而基线高达 30B）。

图 5：EdgeRazor 和基线算法在 Qwen3-0.6B 模型下的量化比例和压缩比

全员量化，刷新极限：传统的量化方法往往因规避精度崩溃而对嵌入层和语言模型头 “手下留情”。如图 5 所示，这导致模型整体的真实量化参数覆盖率仅 73.89%，然而 EdgeRazor 突破了这一妥协，实现了 99.99% 的极高量化参数覆盖率，并且在 1.58-bit 极低比特下达到了突破性的 7.03× 压缩比，远超传统方法 2.94× 的瓶颈。

图 6：EdgeRazor 在 llama.cpp 推理框架上测试 Qwen3-0.6B 的效率表现

EdgeRazor 选取 Qwen3-0.6B 为基座模型，依托开源推理框架 llama.cpp，在纯 CPU 算力环境下（Apple M4 Pro）进行推理效率评测。

百兆体积，轻量部署：如图 6 所示，相较于 16-bit 基座模型，1.58-bit EdgeRazor 量化模型将磁盘占用压缩至 1/5.8（仅约 190MB），峰值运行内存降至 1/2.9。百兆级别的轻量资源占用，扫清了大模型向智能手机、IoT 等内存受限设备迁移的物理障碍。十五倍速，解码狂飙：如图 6 所示，1.58-bit EdgeRazor 量化模型的预填充吞吐量不仅达到了基座模型的 2.11×，在对用户体验起决定性作用的自回归解码环境，速度更是实现了 15.16× 的爆炸级提升。这标志着端侧大模型迈入 “秒回” 级别的全新阶段。

即插即用：一键训练轻量化大模型

图 7：EdgeRazor 用于轻量化模型训练的流程图

EdgeRazor 不仅在性能与效率上追求极致，在工程易用性上也同样力求开发者友好。如图 7 所示，EdgeRazor 被设计为一个高度模块化的开源工具库。开发者无需精通底层的复杂量化感知蒸馏逻辑，通过统一的配置文件（配置量化比例、目标比特数和蒸馏损失等内容），将庞大的 16-bit 模型训练为 1.58-bit 轻量化模型。其核心使用优势包括：

代码解耦，即插即用：零侵入式设计。只需寥寥数行代码配置，EdgeRazor 就能无缝并入开发者现有的全精度大模型训练流水线，完全不需要重构底层的训练代码。极简配置，一键启动：EdgeRazor 通过三个输入（16-bit 模型、自由配比的数据和配置文件），即可输出各种低比特模型（例如，1.58-bit 模型）。混合数据，配比自由：相比于传统的 QAD 方法只支持蒸馏 16-bit 模型的数据进行训练，EdgeRazor 还支持人类标注数据和高质量模型合成数据，训练数据配比自由。繁杂底层，自动接管：框架内部接管了繁杂的底层操作。从加载各种格式的配置，利用量化选择器为特定层注入量化实现（QAT 模块），到同步计算各种蒸馏损失（KD 模块），全流程自动化闭环。算力降维，单机可训：告别传统 QAT 方法对庞大算力的依赖（例如，ParetoQ 使用了 16 张显卡，消耗了 30B tokens）。EdgeRazor 在常规单机多卡环境下即可完成训练（相同模型只使用了 8 张显卡，消耗了 3.1B tokens）。

核心架构：三大模块攻克极低比特

图 8：EdgeRazor 框架的核心模块

开发者友好的易用性背后，是核心算法的支撑。如图 8 所示，EdgeRazor 采用混合精度量化感知蒸馏范式来压缩各类型的大模型，其核心创新主要由以下三个模块构成：

混合精度的结构量化（Structural Quantization with Mixed Precision, SQMP）：打破传统量化统一位宽的设定。SQMP 支持将 4-bit 和 1.58-bit 在输入通道维度进行细粒度的灵活混合（例如实现 1.88-bit 或 2.79-bit 的平均位宽）。这不仅能精准契合实际硬件的资源预算，交错的 4-bit 高精度行还能作为 “缓冲区”，有效吸收激活异常值带来的量化误差。层自适应的特征蒸馏（Layer-Adaptive Feature Distillation, LAFD）：告别盲目的人工调参。LAFD 通过计算教师模型相邻层的余弦相似度（表征结构变换程度），自适应地找出对特征转换最关键的 Top-k 层进行重点特征蒸馏。从而将 “好钢用在刀刃上”，不仅避免了盲目依赖人工经验去启发地选择蒸馏层，还有效阻止了量化误差在层间的放大。熵感知的 KL 散度（Entropy-Aware KL Divergence, EAKLD）：摆脱了对教师模型生成数据的强依赖。EAKLD 纯粹依靠教师模型输出分布的熵来动态调节前向 KL 散度与反向 KL 散度的比例。这使得 EdgeRazor 能够完美兼容人工标注数据和高质量模型合成数据，实现了训练数据的配比自由。

总结

回归到轻量化的初衷，EdgeRazor 想解决的并不是单纯的 “跑个分”，而是一个更底层且务实的问题：如何通过一套统一的算法框架，让各种架构、各种参数规模的大模型低成本地转化为在资源受限环境（例如，手机和 PC 等端侧设备）下可部署的低比特轻量化版本。其实现的开源工具库打通了 “低成本量化”、“轻量化训练” 与 “极低成本部署” 的 AI 全生态链路，为个人 AI 助理的普惠化与私密化提供有力的解决方案。