MNN

MNN is a blazing fast, lightweight deep learning framework, battle-tested by business-critical use cases in Alibaba. Full multimodal LLM Android App:[MNN-LLM-Android](./apps/Android/MnnLlmChat/README.md). MNN TaoAvatar Android - Local 3D Avatar Intelligence: apps/Android/Mnn3dAvatar/README.md

MNN 3.3 Release Note

一、大语言模型（LLM）能力增强

新增模型支持：
- 支持 Qwen2.5-Omni、Qwen3-VL、GPT-OSS、MiniCPM-4、Fast VLM 、GTE Reranker 等主流开源模型。
- 支持 Attention Sink、Sliding Window Attention
LLM 推理优化：
- 新增 EAGLE-3 投机解码 支持，Mac CPU 上 Llama3-8B decode 性能提升达 2.24x。
- 完善 Python 接口，支持多模态推理、逐步推理、context 信息获取等能力。
量化与精度：
- 集成 HQQ 量化算法，与AWQ算法精度接近，但量化时间远低于AWQ（Qwen 2.5 - 0.5B 各类量化方案 ppl 数据：原始： 17.83 ；awq: 17.08 ；hqq : 16.85）
- 支持 SmoothQuant 与 输入 per-tensor 量化。

MNN 3.3 Release Note

一、大语言模型（LLM）能力增强

新增模型支持：
- 支持 Qwen2.5-Omni、Qwen3-VL、GPT-OSS、MiniCPM-4、Fast VLM 、GTE Reranker 等主流开源模型。
- 支持 Attention Sink、Sliding Window Attention
LLM 推理优化：
- 新增 EAGLE-3 投机解码 支持，Mac CPU 上 Llama3-8B decode 性能提升达 2.24x。
- 完善 Python 接口，支持多模态推理、逐步推理、context 信息获取等能力。
量化与精度：
- 集成 HQQ 量化算法，与AWQ算法精度接近，但量化时间远低于AWQ（Qwen 2.5 - 0.5B 各类量化方案 ppl 数据：原始： 17.83 ；awq: 17.08 ；hqq : 16.85）
- 支持 SmoothQuant 与 输入 per-tensor 量化。

MNN

3.3.0 NPU 支持 / SME2 指令加速 / EAGLE 投机解码加速

MNN 3.3 Release Note

一、大语言模型（LLM）能力增强

Related Projects

mapbox-navigation-android

ToastFish

barcodelib

haze

3.3.0 NPU 支持 / SME2 指令加速 / EAGLE 投机解码加速

MNN 3.3 Release Note

一、大语言模型（LLM）能力增强

二、硬件加速与 NPU 支持

三、框架功能与稳定性提升

四、开源社区与兼容性

Related Projects

mapbox-navigation-android

ToastFish

barcodelib

haze