MNN 3.4.0 版本发布说明
发布日期: 2026年2月
📌 版本概述
MNN 3.4.0 版本聚焦于 GPU/QNN 后端能力深化、Attention 计算及长文本内存优化 与 GPU 线上运行稳定性 三大核心主题:
- GPU/QNN 能力深化: Vulkan 后端新增 LLM 推理支持并引入 CoopMat 矩阵加速指令;Metal 后端支持 TensorAPI 和 Flash Attention;QNN 后端扩展支持 Qwen3 系列和 VL 模型,并新增 Python 直接导出和 OmniQuant 量化能力。
- Attention 与长文本内存优化: CPU 和 Metal 后端全面支持 Flash Attention;CPU 支持 KV Cache 量化;新增 Prefix K...