近年来,大语言模型参数的持续膨胀,带来了极高的显存占用和算力需求,在 PC、手机和 IoT 等资源受限的端侧设备上部署前沿大模型十分困难。因此大语言模型轻量化的研究势在必行,量化(Quantization)成为主流的轻量化方案。然而,量化端侧部署目前受制于 “不可能三角”:后训练量化(PTQ)在极低比特下精度崩塌;量化感知训练(QAT)算力成本极高;而现有的量化感知蒸馏(QAD)又缺乏灵活性。

由南京大学机器学习与数据挖掘研究所(LAMDA)和微软 AI 联合推出的开源工具库 EdgeRazor,直击端侧部署的核心痛点,一举打破了极低比特大语言模型 “能力塌陷” 的魔咒;其核心采用混合精度量化感知蒸馏(MPQAD),不仅保障了更低成本的训练,更支持了灵活的训练数据配比,成功构建出一个开源、即插即用的轻量化框架。论文通讯作者为南京大学 LAMDA 团队张绍群助理教授。



端侧破局:兼得 SOTA 与 15 倍加速



图 1:EdgeRazor 和基线算法在基础型、指令微调型和多模态大模型上的性能表现

全面评测,性能领跑:EdgeRazor 在基础型(MobileLLM-350M)、指令微调型(Qwen3-0.6B/1.7B)和多模态(Qwen2.5-Omni-7B)大模型上开展了系统的性能评测。评测范围包括常识推理、指令遵循、数学推理、代码生成以及视频理解类型的 16 个下游任务。如图 1 所示,面对当前主流 PTQ、QAT 及 QAD 方法,EdgeRazor 在各类模型架构和比特位宽下均保持性能的领先,确立了全新的 SOTA 性能基准。



图 2:Qwen3-1.7B-EdgeRazor 在 PC 端和手机端部署效果演示

端侧部署,丝滑落地:为了展示真实受限资源下的工程落地,EdgeRazor 提供了适配于端侧部署的 DEMO。如图 2 所示,在 PC 端和手机端的 CPU 部署场景下,EdgeRazor 释放出极高的推理潜能。相较于 16-bit 基座模型,其解码速度分别实现了 16× 和 12× 的飞跃,整体端到端响应速度也获得了 10× 和 11× 的大幅提升,真正赋予了本地轻量化模型丝滑、“秒回” 的体验。



图 3:EdgeRazor 和基线算法在 Qwen3-0.6B 模型上 2-bit 量化尺度的性能表现

打破魔咒,拒绝塌陷:在极低比特位宽下,量化模型的复杂推理能力往往最先遭遇灾难性衰退,但 EdgeRazor 打破了这一魔咒。如图 3 所示,在 GSM8K(数学推理)和 HumanEval(代码生成)复杂任务上,现有主流 2-bit 方法普遍出现性能的断崖式下跌,甚至面临彻底失效的困境。相比之下,EdgeRazor 即使在 1.88-bit 这种极低比特预算下,依然展现出较好的稳健性,其任务表现显著优于同类 2-bit 方法。



图 4:EdgeRazor 和 ParetoQ 在 MobileLLM-350M 模型上的性能表现和训练开销

十倍轻训,降本增效:高质量的低比特模型往往依赖庞大的训练开销,而 EdgeRazor 彻底打破了这一现状。如图 4 所示,在 MobileLLM-350M 上,EdgeRazor 不仅在全比特位宽下超越了性能最强的 QAT 基线 ParetoQ,更在训练效率上实现了大幅优化。其训练所需的 tokens 数量缩减了 75%–90%(最低仅需 3.1B,而基线高达 30B)。



图 5:EdgeRazor 和基线算法在 Qwen3-0.6B 模型下的量化比例和压缩比

全员量化,刷新极限:传统的量化方法往往因规避精度崩溃而对嵌入层和语言模型头 “手下留情”。如图 5 所示,这导致模型整体的真实量化参数覆盖率仅 73.89%,然而 EdgeRazor 突破了这一妥协,实现了 99.99% 的极高量化参数覆盖率,并且在 1.58-bit 极低比特下达到了突破性的 7.03× 压缩比,远超传统方法 2.94× 的瓶颈。



图 6:EdgeRazor 在 llama.cpp 推理框架上测试 Qwen3-0.6B 的效率表现

EdgeRazor 选取 Qwen3-0.6B 为基座模型,依托开源推理框架 llama.cpp,在纯 CPU 算力环境下(Apple M4 Pro)进行推理效率评测。

即插即用:一键训练轻量化大模型



图 7:EdgeRazor 用于轻量化模型训练的流程图

EdgeRazor 不仅在性能与效率上追求极致,在工程易用性上也同样力求开发者友好。如图 7 所示,EdgeRazor 被设计为一个高度模块化的开源工具库。开发者无需精通底层的复杂量化感知蒸馏逻辑,通过统一的配置文件(配置量化比例、目标比特数和蒸馏损失等内容),将庞大的 16-bit 模型训练为 1.58-bit 轻量化模型。其核心使用优势包括:

核心架构:三大模块攻克极低比特



图 8:EdgeRazor 框架的核心模块

开发者友好的易用性背后,是核心算法的支撑。如图 8 所示,EdgeRazor 采用混合精度量化感知蒸馏范式来压缩各类型的大模型,其核心创新主要由以下三个模块构成:

总结

回归到轻量化的初衷,EdgeRazor 想解决的并不是单纯的 “跑个分”,而是一个更底层且务实的问题:如何通过一套统一的算法框架,让各种架构、各种参数规模的大模型低成本地转化为在资源受限环境(例如,手机和 PC 等端侧设备)下可部署的低比特轻量化版本。其实现的开源工具库打通了 “低成本量化”、“轻量化训练” 与 “极低成本部署” 的 AI 全生态链路,为个人 AI 助理的普惠化与私密化提供有力的解决方案。