昇腾 Ascend 950 深度解析：950PR 与 950DT 芯片架构与关键新特性

导语：人工智能正以前所未有的速度渗透千行百业，算力已成为 AI 产业发展的核心竞争力。在此背景下，昇腾推出新一代 AI 芯片 Ascend 950PR 与 Ascend 950DT。两款芯片在继承上一代优秀能力的基础上，围绕计算、通信等关键维度实现多项技术突破，涵盖 NDDMA、CV 融合、SIMT、UB、CCU 等创新特性。本文从芯片架构、计算与通信规格、关键新特性等维度，对 Ascend 950 进行全面、深入、细致的解析。

一、Ascend 950 硬件架构总览

1.1 双产品线：PR 与 DT 各司其职

Ascend 950 代际发布了两款芯片，均基于 Ascend 950 Die 与不同 Memory 合封构成：

型号	定位	代表场景	核心特点
Ascend 950PR	Prefill & Recommendation	Prefill、推荐系统	较低成本，更高性价比
Ascend 950DT	Decode & Training	Decode、模型训练	更高访存带宽，极致性能

🏗️ 双 DIE UMA 架构：Ascend 950 Die 采用双 DIE UMA（Unified Memory Architecture）架构，双 DIE 间通过高速 DIE to DIE 通道连接，用户可以无感地使用 2 DIE 的算力，极大提升了易用性。

1.2 三大子系统全面升级

相比前代昇腾芯片，Ascend 950 在以下子系统进行了系统性提升：

子系统	核心升级	用户价值
AICORE	第三代 Davinci 架构，新增 FP8/MXFP8/MXFP4/HiF8 支持，Cube-Vector 融合通路，128B Sector-Cache，NDDMA	大模型训练与推理性能大幅提升
存储子系统	支持 HiBL 1.0（高容量低成本）和 HiZQ 2.0（高访存带宽），统一接口	灵活适配不同业务需求
IO子系统	UB 灵衢互联，18 个 400Gbps 端口，CCU 硬化集合通信加速	超节点级互联带宽与低时延

二、核心创新特性详解

2.1 第三代 DavinciCore：AICORE 的算力革命

昇腾 AI 芯片第三代 DavinciCore 架构，针对当前以 Transformer 为核心、兼顾推荐、多模态等多种算法趋势，从低精度算力、计算效率、易用性等方面进行了全面提升：

全新低精度格式支持：在业界标准 FP8/MXFP8/MXFP4 基础上，新增自研 HiF8 动态位宽浮点格式，在保证精度的同时大幅降低存储与带宽需求，动态范围接近 FP16，计算效率提升 2~4 倍，尤其适合 LLM 训练与推理
Cube-Vector 融合通路：增加 Cube（张量计算）与 Vector（向量计算）融合通路，极大提升了融合算子性能
Cube:Vector 算力配比达 8:1：大规模提升了 Vector 算力，适配 Transformer 时代混合计算需求
SIMD/SIMT 新同构设计：创新的并行编程模式，规则计算用 SIMD 双发指令，小包搬运和复杂逻辑切换至 SIMT 线程级并行，编程易用性大幅提升
128 字节 Sector-Cache：支持离散且不连续的内存访问性能优化
NDDMA 高效数据访问：革新内存访问效率

2.2 核的微架构改进：性能提升 4 倍的秘密

算力效率革命：低精度计算 + 混合架构

第三代 DavinciCore 通过全栈数值格式创新和访存效率优化，彻底释放低精度计算潜力：

低精度格式	特点	适用场景
FP8	业界标准 8 位浮点	通用深度学习训练与推理
MXFP8	混合精度 8 位浮点	大模型训练
MXFP4	混合精度 4 位浮点	极致压缩推理
HiF8（自研）	变长前缀编码 + 原码阶码优化，动态范围接近 FP16，计算效率提升 2~4 倍	LLM 训练与推理（核心亮点）

        💡 张量-向量协同计算：单核内 Cube 核峰值算力与上一代持平，Vector 核 FP16/FP32 性能翻倍，二者通过高速直连通道实现数据无缝流转，彻底解决混合计算（如 FA）任务中的瓶颈问题。
      

访存效率优化

L2 Cache 支持 128B Sector：访存颗粒度从 512B 降至 128B，小包场景带宽效率提升 4 倍
数据访问 GM 支持多种 L2 Control Hint：通过指令控制 L2 Cache 缓存策略，优化 Cache 使用效率，提升网络 E2E 的 Cache hit 率
ND2NZ 支持 Advance 模式：对 Stride 不大于 256B 的场景都支持并包处理

核微架构"黑科技"

特性	作用	性能收益
SIMD/SIMT 混合编程	规则计算用 SIMD 双发指令，复杂逻辑/小包搬运切换 SIMT	代码可读性与执行效率兼得
NDDMA 指令	一行指令完成 transpose/stride/broadcast/slice，硬件自动格式转换、对齐、分块	效率提升 50%+
极简同步机制	BufferID 模型取代 set/wait 配对，消除分支逻辑	多核协作代码更直观、更健壮

2.3 存储子系统：HiBL 与 HiZQ 双路并行

950 芯片的存储子系统支持两种类型的 Memory，采用统一接口实现不同 Memory 的对接：

HiBL 1.0：高容量、低成本，适合大容量需求场景
HiZQ 2.0：高访存带宽，适合极致性能需求场景

950PR 与 950DT 分别选择不同 Memory 合封，PR 侧重成本优化，DT 侧重带宽极致，共同基于同一个 Die 设计，降低了开发成本和生态适配复杂度。

2.4 IO子系统：UB 灵衢互联与超高带宽

支持 18 个 400Gbps 端口，提供超大互联带宽
支持 UB&UBOE 互联协议，同时兼容 PCIe 互联
支持 Load/Store 同步通信语义和 URMA 异步消息通信语义
硬化的集合通信加速单元（CCU），降低通信对访问带宽的占用，提升通信性能，并降低通信对计算的影响

三、基于灵衢互联构建大规模超节点集群

3.1 灵衢互联（UB）核心概念

灵衢互联 UB（UnifiedBus，简称 UB）是面向新一代智算集群打造的新型互联协议，是破解算力瓶颈、共建开放生态的重要布局。灵衢互联以"协议归一、平等协同、全局池化"为核心，打破了传统互联的层级壁垒，让 CPU、NPU、存储等异构组件实现无主从直接通信，并大幅降低通信时延、提升带宽利用率。

        🌐 华为已开放灵衢 2.0 完整技术规范，推动产业协同创新。未来灵衢将持续演进，突破更大规模组网能力，携手产业伙伴构建自主可控、高效可靠的算力底座。
      

3.2 灵衢协议栈

灵衢互联提供分层的协议栈结构，从下到上由以下层组成：

层级	组件	说明
物理层	物理传输介质	支持 ETH 物理层的 UBoE 传输模式
数据链路层 ~ 事务层	标准分层协议	可靠的端到端数据传输
功能层	Entity（功能实体）	全局通信的基本单元
访问层	URMA（统一远程内存访问）	统一远程内存访问接口
管理平面	UMMU、UBFM（UB Fabric Manager）	集群管理与 Fabric 调度

3.3 Ascend 950 IO 接口

36 Lane 按 x4 Port 分成 9 个 Port
UB 支持 9×4（两个 IO-Die 支持最大 18×4），并支持转发
Lane 32~35 支持 x4 UBoE（物理层为 ETH 的 UB 传输模式）
0~15 Lane Comb x16 PCIe RC/EP，Ascend 950 可嵌套接 PCIe Device

3.4 支持多种硬件拓扑

形态	拓扑	特点
POD 形态	1D fullmesh + CLOS 拓扑	64 NPU + 16 CPU（2:8 配比），支持 16/32×18 25 配置
AI Server 形态	典配 2CPU + 8 Davinci，FullMesh/CLOS	单机支持 UBoE/RoCE 互连，支持多张 18 25 网卡
标卡形态	基于 X86 底座，四卡 UB FullMesh	每卡 3 个 x4 UB 端口，支持第三方网卡参数面互联

3.5 Ascend 950 超节点架构

Ascend 950 围绕超节点架构持续创新，将多台物理机器深度互联，重新定义高效、稳定、可扩展的大规模有效算力新范式，并打造全系列超节点产品。

Ascend 950 以灵衢互联为基础构建的超节点架构，在以下核心 AI 业务场景均可提供领先的系统能力：

大模型预训练
中心推理
后训练与强化学习
多模态内容生成

四、技术总结与展望

        Ascend 950 的核心升级可归纳为三大维度：
        计算效能革新：第三代 Davinci + HiF8/FP8/MXFP8/MXFP4 低精度格式 + Cube-Vector 融合，性能提升 4 倍
访存效率深挖：128B Sector-Cache + NDDMA + ND2NZ Advance 模式，小包场景带宽效率提升 4 倍
互联架构突破：UB 灵衢互联 + 18×400Gbps + CCU 硬化通信，超节点级带宽与低时延

      

Ascend 950PR 和 Ascend 950DT 芯片面向大模型预训练、中心推理、后训练与强化学习、推荐系统、多模态内容生成等核心 AI 业务场景，提供了系统的软硬协同能力，为 AI 产业的算力需求增长提供了强有力的算力底座支撑。

        📅 活动预告：CANN 2026 首场 Meetup

          4 月 18 日（周六）14:00-17:30｜北京中关村理工大学亚朵S酒店

          延伸解读面向 Ascend 950 的热门技术与前沿创新，干货拉满！

参考资料

昇腾社区官网：https://www.hiascend.com/
CANN 技术文档：https://www.hiascend.com/cann