3.3.0 NPU 支持 / SME2 指令加速 / EAGLE 投机解码加速
MNN 3.3 Release Note
一、大语言模型(LLM)能力增强
-
新增模型支持:
-
支持 Qwen2.5-Omni、Qwen3-VL、GPT-OSS、MiniCPM-4、Fast VLM 、GTE Reranker 等主流开源模型。
-
支持 Attention Sink、Sliding Window Attention
-
-
LLM 推理优化:
-
新增 EAGLE-3 投机解码 支持,Mac CPU 上 Llama3-8B decode 性能提升达 2.24x。
-
完善 Python 接口,支持多模态推理、逐步推理、context 信息获取等能力。
-
-
量化与精度:
-
集成 HQQ 量化算法,与AWQ算法精度接近,但量化时间远低于AWQ(Qwen 2.5 - 0.5B 各类量化方案 ppl 数据: 原始: 17.83 ;awq: 17.08 ;hqq : 16.85)
-
支持 SmoothQuant 与 输入 per-tensor 量化。
-