English Version

重要更新

飞桨框架3.2版本在大模型训练推理性能、硬件适配、主流大模型及高性能加速库的支持上进一步提升。

大模型训练方面，飞桨框架在计算、并行策略、容错能力三方面进行了升级：
- 从基础计算性能层面，提出了存算重叠的稀疏掩码注意力计算FlashMask V3，极致优化Attention的计算效率，同时还实现了高效的FP8混合精度效果无损训练技术。
- 在分布式并行策略层面，提出了动态自适应的显存卸载策略，实现存算最优均衡，再结合创新设计的显存友好的流水线并行调度，进一步降低显存开销。
- 增强了框架原生的容错能力，实现了大规模集群训练容错系统，可在不影响训练效率的前提下在线监测静默数据损坏等难以察觉的故障，并实现了高可用的检查点容灾方法，降低中断恢复损失。
在硬件适配方面，面向类CUDA芯片，全面升级插件式适配方案。
- 在设备资源的管理调度和高性能集合通讯库方面，针对类CUDA芯片做了管理接口升级和通信能力的增强，特别增强了分布式通信能力，使XCCL对齐NCCL的各结构体和功能。
- 新增了类CUDA算子注册机制。以沐曦适配为例，在复用GPU算子内核的基础上，仅需一行代码即可完成算子内核注册。经过统计计算，算子内核的复用率最高可以达到92%，可大幅降低硬件适配成本。
使用体验方面，重点提升了兼容能力，包括开发接口兼容业界用法、safetensors模型格式兼容、和第三方高性能加速库的兼容。
- 新增和修改开发接口兼容业界用法，新增系列API和别名，新增参数别名，新增专有和通用的参数。
- 全面兼容 Safetensors 模型格式。新增 FlexCheckpoint 机制，支持跨分布式策略、跨模型结构间自动实现参数重切分，可显著降低权重转换成本，进而提升大模型端到端的训练与推理研发效率。

重要更新

飞桨框架3.2版本在大模型训练推理性能、硬件适配、主流大模型及高性能加速库的支持上进一步提升。

大模型训练方面，飞桨框架在计算、并行策略、容错能力三方面进行了升级：

从基础计算性能层面，提出了存算重叠的稀疏掩码注意力计算FlashMask V3，极致优化Attention的计算效率，同时还实现了高效的FP8混合精度效果无损训练技术。
在分布式并行策略层面，提出了动态自适应的显存卸载策略，实现存算最优均衡，再结合创新设计的显存友好的流水线并行调度，进一步降低显存开销。
增强了框架原生的容错能力，实现了大规模集群训练容错系统，可在不影响训练效率的前提下在线监测静默数据损坏等难以察觉的故障，并实现了高可用的检查点容灾方法，降低中断恢复损失。

在硬件适配方面，面向类CUDA芯片，全面升级插件式适配方案。

在设备资源的管理调度和高性能集合通讯库方面，针对类CUDA芯片做了管理接口升级和通信能力的增强，特别增强了分布式通信能力，使XCCL对齐NCCL的各结构体和功能。
新增了类CUDA算子注册机制。以沐曦适配为例，在复用GPU算子内核的基础上，仅需一行代码即可完成算子内核注册。经过统计计算，算子内核的复用率最高可以达到92%，可大幅降低硬件适配成本。

使用体验方面，重点提升了兼容能力，包括开发接口兼容业界用法、safetensors模型格式兼容、和第三方高性能加速库的兼容。

新增和修改开发接口兼容业界用法，新增系列API和别名，新增参数别名，新增专有和通用的参数。
全面兼容 Safetensors 模型格式。新增 FlexCheckpoint 机制，支持跨分布式策略、跨模型结构间自动实现参数重切分，可显著降低权重转换成本，进而提升大模型端到端的训练与推理研发效率。

重要更新

Related Projects

mapbox-navigation-android

ToastFish

barcodelib

haze

重要更新

Related Projects

mapbox-navigation-android

ToastFish

barcodelib

haze

1. 用户体验

新特性

Bug修复

功能增强

文档

其他

2. 基础执行架构

新功能

Bug修复

功能增强

废弃

其他

3. 分布式&自动并行

并行策略

功能新增

Bug 修复

优化改进

自动并行

功能改进

Bug 修复

其他

通信库

Bug修复

功能改进

4. 算子机制

新特性

Bug修复

功能增强

性能优化

文档

其他

5. 硬件适配

类CUDA硬件接入方案完善

主仓单测支持多硬件

新增Custom Device API支持

6. 安装环境

Bug 修复

其他

7. 贡献者名单