一、Ascend 950 硬件架构总览
1.1 双产品线:PR 与 DT 各司其职
Ascend 950 代际发布了两款芯片,均基于 Ascend 950 Die 与不同 Memory 合封构成:
| 型号 | 定位 | 代表场景 | 核心特点 |
|---|---|---|---|
| Ascend 950PR | Prefill & Recommendation | Prefill、推荐系统 | 较低成本,更高性价比 |
| Ascend 950DT | Decode & Training | Decode、模型训练 | 更高访存带宽,极致性能 |
1.2 三大子系统全面升级
相比前代昇腾芯片,Ascend 950 在以下子系统进行了系统性提升:
| 子系统 | 核心升级 | 用户价值 |
|---|---|---|
| AICORE | 第三代 Davinci 架构,新增 FP8/MXFP8/MXFP4/HiF8 支持,Cube-Vector 融合通路,128B Sector-Cache,NDDMA | 大模型训练与推理性能大幅提升 |
| 存储子系统 | 支持 HiBL 1.0(高容量低成本)和 HiZQ 2.0(高访存带宽),统一接口 | 灵活适配不同业务需求 |
| IO子系统 | UB 灵衢互联,18 个 400Gbps 端口,CCU 硬化集合通信加速 | 超节点级互联带宽与低时延 |
二、核心创新特性详解
2.1 第三代 DavinciCore:AICORE 的算力革命
昇腾 AI 芯片第三代 DavinciCore 架构,针对当前以 Transformer 为核心、兼顾推荐、多模态等多种算法趋势,从低精度算力、计算效率、易用性等方面进行了全面提升:
- 全新低精度格式支持:在业界标准 FP8/MXFP8/MXFP4 基础上,新增自研 HiF8 动态位宽浮点格式,在保证精度的同时大幅降低存储与带宽需求,动态范围接近 FP16,计算效率提升 2~4 倍,尤其适合 LLM 训练与推理
- Cube-Vector 融合通路:增加 Cube(张量计算)与 Vector(向量计算)融合通路,极大提升了融合算子性能
- Cube:Vector 算力配比达 8:1:大规模提升了 Vector 算力,适配 Transformer 时代混合计算需求
- SIMD/SIMT 新同构设计:创新的并行编程模式,规则计算用 SIMD 双发指令,小包搬运和复杂逻辑切换至 SIMT 线程级并行,编程易用性大幅提升
- 128 字节 Sector-Cache:支持离散且不连续的内存访问性能优化
- NDDMA 高效数据访问:革新内存访问效率
2.2 核的微架构改进:性能提升 4 倍的秘密
算力效率革命:低精度计算 + 混合架构
第三代 DavinciCore 通过全栈数值格式创新和访存效率优化,彻底释放低精度计算潜力:
| 低精度格式 | 特点 | 适用场景 |
|---|---|---|
| FP8 | 业界标准 8 位浮点 | 通用深度学习训练与推理 |
| MXFP8 | 混合精度 8 位浮点 | 大模型训练 |
| MXFP4 | 混合精度 4 位浮点 | 极致压缩推理 |
| HiF8(自研) | 变长前缀编码 + 原码阶码优化,动态范围接近 FP16,计算效率提升 2~4 倍 | LLM 训练与推理(核心亮点) |
访存效率优化
- L2 Cache 支持 128B Sector:访存颗粒度从 512B 降至 128B,小包场景带宽效率提升 4 倍
- 数据访问 GM 支持多种 L2 Control Hint:通过指令控制 L2 Cache 缓存策略,优化 Cache 使用效率,提升网络 E2E 的 Cache hit 率
- ND2NZ 支持 Advance 模式:对 Stride 不大于 256B 的场景都支持并包处理
核微架构"黑科技"
| 特性 | 作用 | 性能收益 |
|---|---|---|
| SIMD/SIMT 混合编程 | 规则计算用 SIMD 双发指令,复杂逻辑/小包搬运切换 SIMT | 代码可读性与执行效率兼得 |
| NDDMA 指令 | 一行指令完成 transpose/stride/broadcast/slice,硬件自动格式转换、对齐、分块 | 效率提升 50%+ |
| 极简同步机制 | BufferID 模型取代 set/wait 配对,消除分支逻辑 | 多核协作代码更直观、更健壮 |
2.3 存储子系统:HiBL 与 HiZQ 双路并行
950 芯片的存储子系统支持两种类型的 Memory,采用统一接口实现不同 Memory 的对接:
- HiBL 1.0:高容量、低成本,适合大容量需求场景
- HiZQ 2.0:高访存带宽,适合极致性能需求场景
950PR 与 950DT 分别选择不同 Memory 合封,PR 侧重成本优化,DT 侧重带宽极致,共同基于同一个 Die 设计,降低了开发成本和生态适配复杂度。
2.4 IO子系统:UB 灵衢互联与超高带宽
- 支持 18 个 400Gbps 端口,提供超大互联带宽
- 支持 UB&UBOE 互联协议,同时兼容 PCIe 互联
- 支持 Load/Store 同步通信语义和 URMA 异步消息通信语义
- 硬化的集合通信加速单元(CCU),降低通信对访问带宽的占用,提升通信性能,并降低通信对计算的影响
三、基于灵衢互联构建大规模超节点集群
3.1 灵衢互联(UB)核心概念
灵衢互联 UB(UnifiedBus,简称 UB)是面向新一代智算集群打造的新型互联协议,是破解算力瓶颈、共建开放生态的重要布局。灵衢互联以"协议归一、平等协同、全局池化"为核心,打破了传统互联的层级壁垒,让 CPU、NPU、存储等异构组件实现无主从直接通信,并大幅降低通信时延、提升带宽利用率。
3.2 灵衢协议栈
灵衢互联提供分层的协议栈结构,从下到上由以下层组成:
| 层级 | 组件 | 说明 |
|---|---|---|
| 物理层 | 物理传输介质 | 支持 ETH 物理层的 UBoE 传输模式 |
| 数据链路层 ~ 事务层 | 标准分层协议 | 可靠的端到端数据传输 |
| 功能层 | Entity(功能实体) | 全局通信的基本单元 |
| 访问层 | URMA(统一远程内存访问) | 统一远程内存访问接口 |
| 管理平面 | UMMU、UBFM(UB Fabric Manager) | 集群管理与 Fabric 调度 |
3.3 Ascend 950 IO 接口
- 36 Lane 按 x4 Port 分成 9 个 Port
- UB 支持 9×4(两个 IO-Die 支持最大 18×4),并支持转发
- Lane 32~35 支持 x4 UBoE(物理层为 ETH 的 UB 传输模式)
- 0~15 Lane Comb x16 PCIe RC/EP,Ascend 950 可嵌套接 PCIe Device
3.4 支持多种硬件拓扑
| 形态 | 拓扑 | 特点 |
|---|---|---|
| POD 形态 | 1D fullmesh + CLOS 拓扑 | 64 NPU + 16 CPU(2:8 配比),支持 16/32×18 25 配置 |
| AI Server 形态 | 典配 2CPU + 8 Davinci,FullMesh/CLOS | 单机支持 UBoE/RoCE 互连,支持多张 18 25 网卡 |
| 标卡形态 | 基于 X86 底座,四卡 UB FullMesh | 每卡 3 个 x4 UB 端口,支持第三方网卡参数面互联 |
3.5 Ascend 950 超节点架构
Ascend 950 围绕超节点架构持续创新,将多台物理机器深度互联,重新定义高效、稳定、可扩展的大规模有效算力新范式,并打造全系列超节点产品。
Ascend 950 以灵衢互联为基础构建的超节点架构,在以下核心 AI 业务场景均可提供领先的系统能力:
- 大模型预训练
- 中心推理
- 后训练与强化学习
- 多模态内容生成
四、技术总结与展望
- 计算效能革新:第三代 Davinci + HiF8/FP8/MXFP8/MXFP4 低精度格式 + Cube-Vector 融合,性能提升 4 倍
- 访存效率深挖:128B Sector-Cache + NDDMA + ND2NZ Advance 模式,小包场景带宽效率提升 4 倍
- 互联架构突破:UB 灵衢互联 + 18×400Gbps + CCU 硬化通信,超节点级带宽与低时延
Ascend 950PR 和 Ascend 950DT 芯片面向大模型预训练、中心推理、后训练与强化学习、推荐系统、多模态内容生成等核心 AI 业务场景,提供了系统的软硬协同能力,为 AI 产业的算力需求增长提供了强有力的算力底座支撑。
4 月 18 日(周六)14:00-17:30|北京中关村理工大学亚朵S酒店
延伸解读面向 Ascend 950 的热门技术与前沿创新,干货拉满!
参考资料
- 昇腾社区官网:https://www.hiascend.com/
- CANN 技术文档:https://www.hiascend.com/cann