PaddlePaddle 3.1.1 Release Note
重要更新
飞桨框架3.1.1版本围绕大模型训练全流程进行了系统性强化,通过体系化修复大模型场景下算子数值精度和功能等底层稳定性问题,结合API的日志系统规范化与单元测试全覆盖,显著提升大模型训练的正确性和稳定性;性能层面,在提高部分关键框架API和FP8场景下的量化计算效率的同时增强分布式训练场景下FP8量化和流水线并行效率,大幅提升训练吞吐。扩展自动并行架构的切分推导覆盖范围;推理部署提高兼容性的同时进一步增强EP并行推理能力;整体上在保持API兼容性的基础上构建出更稳健、高效的大模型研发技术底座。
算子与执行体系正确性、稳定性增强:系统化修复0-size、大shape Tensor、CPU/GPU 精度一致性问题,保障大模型训练正确性、稳定性。 FP8相关算子优化: 进一步提升FP8相关量化和计算融合算子的性能,并调整了部分算子的sm使用量,提升FP8混合精度训练效率 大模型训练更稳更快:系统性优化了Slice相关场景的执行效率,大幅提升Slice相关操作性能;修复流水线场景下的参数同步问题、新增Sharding场景的FP8参数量化能力和DualPipe下的极致通信计算重叠能力,保障并行训练稳定高效。同时增强自动并行架构下的切分推导能力增强自动并行切分效率。 推理部署:新增支持safetensors加载功能,EP并行方面对internode_ll_two_stage进行了功能增强助力进一步提升推理效率。
1. 用户体验升级
在3.1版本中,主要对大模型场景下常用的的多个API进行了补充,并且系统化修复了API日志以及部分代码实现问题。