🔥 新品首发

昇腾 Ascend 950:950PR 与 950DT
芯片架构与关键新特性深度解析

📦 来源:昇腾官方技术解读 📅 整理:2026-04-12 🏷️ 华为昇腾 · Ascend 950 · 芯片架构
导语:人工智能正以前所未有的速度渗透千行百业,算力已成为 AI 产业发展的核心竞争力。在此背景下,昇腾推出新一代 AI 芯片 Ascend 950PRAscend 950DT。两款芯片在继承上一代优秀能力的基础上,围绕计算、通信等关键维度实现多项技术突破,涵盖 NDDMA、CV 融合、SIMT、UB、CCU 等创新特性。本文从芯片架构、计算与通信规格、关键新特性等维度,对 Ascend 950 进行全面、深入、细致的解析。

一、Ascend 950 硬件架构总览

1.1 双产品线:PR 与 DT 各司其职

Ascend 950 代际发布了两款芯片,均基于 Ascend 950 Die 与不同 Memory 合封构成:

型号 定位 代表场景 核心特点
Ascend 950PR Prefill & Recommendation Prefill、推荐系统 较低成本,更高性价比
Ascend 950DT Decode & Training Decode、模型训练 更高访存带宽,极致性能
🏗️ 双 DIE UMA 架构:Ascend 950 Die 采用双 DIE UMA(Unified Memory Architecture)架构,双 DIE 间通过高速 DIE to DIE 通道连接,用户可以无感地使用 2 DIE 的算力,极大提升了易用性。

1.2 三大子系统全面升级

相比前代昇腾芯片,Ascend 950 在以下子系统进行了系统性提升:

子系统 核心升级 用户价值
AICORE 第三代 Davinci 架构,新增 FP8/MXFP8/MXFP4/HiF8 支持,Cube-Vector 融合通路,128B Sector-Cache,NDDMA 大模型训练与推理性能大幅提升
存储子系统 支持 HiBL 1.0(高容量低成本)和 HiZQ 2.0(高访存带宽),统一接口 灵活适配不同业务需求
IO子系统 UB 灵衢互联,18 个 400Gbps 端口,CCU 硬化集合通信加速 超节点级互联带宽与低时延

二、核心创新特性详解

2.1 第三代 DavinciCore:AICORE 的算力革命

昇腾 AI 芯片第三代 DavinciCore 架构,针对当前以 Transformer 为核心、兼顾推荐、多模态等多种算法趋势,从低精度算力、计算效率、易用性等方面进行了全面提升

2.2 核的微架构改进:性能提升 4 倍的秘密

算力效率革命:低精度计算 + 混合架构

第三代 DavinciCore 通过全栈数值格式创新和访存效率优化,彻底释放低精度计算潜力:

低精度格式 特点 适用场景
FP8 业界标准 8 位浮点 通用深度学习训练与推理
MXFP8 混合精度 8 位浮点 大模型训练
MXFP4 混合精度 4 位浮点 极致压缩推理
HiF8(自研) 变长前缀编码 + 原码阶码优化,动态范围接近 FP16,计算效率提升 2~4 倍 LLM 训练与推理(核心亮点)
💡 张量-向量协同计算:单核内 Cube 核峰值算力与上一代持平,Vector 核 FP16/FP32 性能翻倍,二者通过高速直连通道实现数据无缝流转,彻底解决混合计算(如 FA)任务中的瓶颈问题。

访存效率优化

核微架构"黑科技"

特性 作用 性能收益
SIMD/SIMT 混合编程 规则计算用 SIMD 双发指令,复杂逻辑/小包搬运切换 SIMT 代码可读性与执行效率兼得
NDDMA 指令 一行指令完成 transpose/stride/broadcast/slice,硬件自动格式转换、对齐、分块 效率提升 50%+
极简同步机制 BufferID 模型取代 set/wait 配对,消除分支逻辑 多核协作代码更直观、更健壮

2.3 存储子系统:HiBL 与 HiZQ 双路并行

950 芯片的存储子系统支持两种类型的 Memory,采用统一接口实现不同 Memory 的对接:

950PR 与 950DT 分别选择不同 Memory 合封,PR 侧重成本优化,DT 侧重带宽极致,共同基于同一个 Die 设计,降低了开发成本和生态适配复杂度。

2.4 IO子系统:UB 灵衢互联与超高带宽

三、基于灵衢互联构建大规模超节点集群

3.1 灵衢互联(UB)核心概念

灵衢互联 UB(UnifiedBus,简称 UB)是面向新一代智算集群打造的新型互联协议,是破解算力瓶颈、共建开放生态的重要布局。灵衢互联以"协议归一、平等协同、全局池化"为核心,打破了传统互联的层级壁垒,让 CPU、NPU、存储等异构组件实现无主从直接通信,并大幅降低通信时延、提升带宽利用率。

🌐 华为已开放灵衢 2.0 完整技术规范,推动产业协同创新。未来灵衢将持续演进,突破更大规模组网能力,携手产业伙伴构建自主可控、高效可靠的算力底座。

3.2 灵衢协议栈

灵衢互联提供分层的协议栈结构,从下到上由以下层组成:

层级 组件 说明
物理层 物理传输介质 支持 ETH 物理层的 UBoE 传输模式
数据链路层 ~ 事务层 标准分层协议 可靠的端到端数据传输
功能层 Entity(功能实体) 全局通信的基本单元
访问层 URMA(统一远程内存访问) 统一远程内存访问接口
管理平面 UMMU、UBFM(UB Fabric Manager) 集群管理与 Fabric 调度

3.3 Ascend 950 IO 接口

3.4 支持多种硬件拓扑

形态 拓扑 特点
POD 形态 1D fullmesh + CLOS 拓扑 64 NPU + 16 CPU(2:8 配比),支持 16/32×18 25 配置
AI Server 形态 典配 2CPU + 8 Davinci,FullMesh/CLOS 单机支持 UBoE/RoCE 互连,支持多张 18 25 网卡
标卡形态 基于 X86 底座,四卡 UB FullMesh 每卡 3 个 x4 UB 端口,支持第三方网卡参数面互联

3.5 Ascend 950 超节点架构

Ascend 950 围绕超节点架构持续创新,将多台物理机器深度互联,重新定义高效、稳定、可扩展的大规模有效算力新范式,并打造全系列超节点产品。

Ascend 950 以灵衢互联为基础构建的超节点架构,在以下核心 AI 业务场景均可提供领先的系统能力:

四、技术总结与展望

Ascend 950 的核心升级可归纳为三大维度:
  • 计算效能革新:第三代 Davinci + HiF8/FP8/MXFP8/MXFP4 低精度格式 + Cube-Vector 融合,性能提升 4 倍
  • 访存效率深挖:128B Sector-Cache + NDDMA + ND2NZ Advance 模式,小包场景带宽效率提升 4 倍
  • 互联架构突破:UB 灵衢互联 + 18×400Gbps + CCU 硬化通信,超节点级带宽与低时延

Ascend 950PR 和 Ascend 950DT 芯片面向大模型预训练、中心推理、后训练与强化学习、推荐系统、多模态内容生成等核心 AI 业务场景,提供了系统的软硬协同能力,为 AI 产业的算力需求增长提供了强有力的算力底座支撑。


📅 活动预告:CANN 2026 首场 Meetup
4 月 18 日(周六)14:00-17:30|北京中关村理工大学亚朵S酒店
延伸解读面向 Ascend 950 的热门技术与前沿创新,干货拉满!

参考资料