HBM高带宽内存,新一代DRAM解决方案171
JEDEC定义三类DRAM标准:HBM属于细分图形DDR下述三种 DRAM 类别使用相同的 DRAM 阵列进行存储,以电容器作为基本存储元件;每个类别都提供独特的架构功能(数据速率和数据宽度自定义、主机和 DRAM 之间的连接选项、电气规格、I/O(输入/输出)端接方案、DRAM 电源状态、可靠性特性等),旨在最好地满足目标应用程序的要求。 HBM演进必要性:解决存储墙瓶颈刺激内存高带宽需求“内存墙”:存储与运算之间数据交换通路窄以及由此引发的高能耗两大难题。 HBM(High Bandwidth Memory,高带宽内存):一款新型的CPU/GPU内存芯片,其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。 通过增加带宽,扩展内存容量,让更大的模型,更多的参数留在离核心计算更近的地方,从而减少内存和存储解决方案带来的延迟。 HBM提高有效带宽途径:Pseudo Channel Mode伪通道HBM2的主要增强功能之一是其伪通道模式(Pseudo Channel Mode),该模式将通道分为两个单独的子通道,每个子通道分别具有64位I/O,从而为每个存储器的读写访问提供128位预取。 伪通道以相同的时钟速率运行,共享行和列命令总线以及CK和CKE输入。但是,它们具有独立的存储体,分别解码和执行命令。 海力士表示,伪通道模式可优化内存访问并降低延迟,从而提高有效带宽。 HBM结构:通过TSV将数个DRAM die垂直堆叠HBM主要是通过硅通孔(Through Silicon Via, 简称“TSV”)技术进行芯片堆叠,以增加吞吐量并克服单一封装内带宽的限制,将数个DRAM裸片像楼层一样垂直堆叠。 SK海力士表示,TSV是在DRAM芯片上搭上数千个细微孔并通过垂直贯通的电极连接上下芯片的技术。该技术在缓冲芯片上将数个DRAM芯片堆叠起来,并通过贯通所有芯片层的柱状通道传输信号、指令、电流。相较传统封装方式,TSV技术能够缩减30%体积,并降低50%能耗。 HBM结构:通过TSV将数个DRAM die垂直堆叠凭借TSV方式,HBM大幅提高了容量和数据传输速率。与传统内存技术相比,HBM具有更高带宽、更多I/O数量、更低功耗、更小尺寸。 HBM的高带宽离不开各种基础技术和先进设计工艺的支持。由于HBM是在3D结构中将一个逻辑die与4-16个DRAM die堆叠在一起,因此开发过程极为复杂。 美光HBM2E DRAM的内部组织为8个独立通道A到H(如下图),适用于4高和8高的DRAM配置。每个通道都配备有自己的时钟、命令/地址和数据接口,并且可以完全独立于其他通道运行。 DRAM技术路线:HBM促使DRAM从传统的2D加速走向3D从技术角度看,HBM促使DRAM从传统2D加速走向立体3D,充分利用空间、缩小面积,契合半导体行业小型化、集成化的发展趋势。HBM突破了内存容量与带宽瓶颈,被视为新一代DRAM解决方案,业界认为这是DRAM通过存储器层次结构的多样化开辟一条新的道路,革命性提升DRAM的性能。 HBM技术演进:目前SK海力士为唯一量产新世代HBM3供应商 2022年1月,JEDEC组织正式发布了新一代高带宽内存HBM3的标准规范,继续在存储密度、带宽、通道、可靠性、能效等各个层面进行扩充升级。 JEDEC表示,HBM3是更高带宽、更低功耗和单位面积容量的解决方案,对于高数据处理速率要求的应用场景来说至关重要,比如图形处理和高性能计算的服务器。 HBM的不足:出厂后无法容量扩展,内存容量受限,访问延迟较高 不足1:系统搭配缺乏灵活性 ✓ 2013年,HBM由SK Hynix首度制造问世,同年,HBM被JEDEC(电子元器件工业联合会)的JESD235标准采用。第一颗应用了HBM存储的GPU是2015年的AMD Fiji(Radeon R9 Fury X);2016年三星开始大规模量产HBM2——英伟达Tesla P100是最早采用HBM2存储的GPU。 ✓ HBM与主芯片封装在一起,不存在容量扩展的可能,在出厂时就已经确定规格。而且它和现在笔记本设备上,DDR内存焊死在主板上还不一样,HBM是由芯片制造商整合到芯片上的——其灵活性会更弱,对OEM厂商而言尤其如此,虽然现在某些高端系统,存在HBM+DDR的解决方案,即两种内存作为不同层级的存储系统来调配。 不足2:内存容量相比DDR受局限 ✓ 虽说一片HBM封装就可以堆8层DRAM die,但实际上每层仅8Gbit,那么8层就是8GByte;像A64FX超算芯片留4个HBM接口,也就是4个HBM堆栈封装,则一颗芯片也就总计32GByte容量。 ✓ 消费市场上普通PC需要堆大于32GByte的内存非常常见,不仅是PC、服务器主板上可扩展的内存插槽亦很常见,某些DDR4/5 DIMMs内存颗粒也在进行DRAM die的堆叠,比如,采用比较高端的DRAM die堆叠,2-rank的RDIMM(registered DIMMs)能实现128GByte容量——考虑高端服务器96个DIMM插槽,即至多12TByte的容量。 不足3:访问延迟高 ✓ 对于PC而言,HBM一直都没有应用于CPU主内存的一个重要原因在于其延迟很高。当代的DDR内存,在规格上普遍会标CL(CAS延迟,列寻址所需的时钟周期,表示读取延迟的长短)。CAS延迟,是指从读取指令(与Column Address Strobe)发出,到数据准备就绪的过程,中间的等待时间,即在内存控制器告诉内存,需要访问某个特定位置的数据后,需要若干个周期的时间以后才能抵达该位置并执行控制器发出的指令。CL是内存延迟中最重要的参数。就延迟长短来说,这里的“周期”其实还需要乘以每周期的时间(越高的整体工作频率,则表明每周期时间越短)。 ✓ HBM的频率的确比DDR/GDDR低很多,三星此前的Flarebolt HBM2内存每pin的传输带宽是2Gbit/s,差不多是1GHz的频率;后来有加压提频到1.2GHz的产品。三星当时提到这个过程还需要考虑降低超过5000个TSV之间的并行时钟干扰;而且要增加DRAM die之间的散热bump数量,来缓解发热问题。 HBM VS GDDR:美光的图形DDR产品对比HBM VS GDDR:封装形式 & 应用数据中心正在不断发展,以解决快速有效地存储、移动和分析数据的挑战。在很大程度上,这种演变是由如下图所示的四种高性能应用程序趋势驱动的。 传统游戏和专业可视化主要是在PC领域,并满足于快速GDDR内存的创新。但随着人工智能(AI)训练和推理以及高性能计算的发展,我们看到数据中心对最快内存、高带宽内存(HBM)的使用越来越多。应用程序架构师必须在这些段中找到可能的最大带宽。 HBM VS 其他DDR:性能对比 HBM + DDR:HBM负责高带宽小容量,DDR负责稍低带宽大容量 HBM重新调整了内存的功耗效率,能大幅提高数据处理速度,是当下速度最快的DRAM产品,其每瓦带宽比GDDR5高出3倍还多,且HBM比GDDR5节省了94%的表面积。高带宽、高延迟特性,决定了HBM非常适用于高端GPU显存,这类负载的特点是需要高带宽,而对延迟并没有那么敏感。但对于电脑来说,要求各种随机存储访问,对延迟天生有着更高的敏感度,而且对低延迟的要求往往还高于对高带宽的要求,再加上HBM成本很高,至少就短期来看,HBM很难在PC上替代DDR。 在服务器上,有HBM+DDR搭配使用的方案,HBM负责高带宽小容量,DDR负责稍低带宽大容量。 HBM竞争格局&应用市场:三巨头垄断,受益于AI服务器市场增长 相关内存模组市场规模 每一代新的DDR在容量、数据速率和功耗方面都有改进。然而,与此同时,模块设计人员面临着新的信号完整性挑战,这使得在更高的速度下实现更高的模块容量变得更加困难。为了解决这些问题,需要特定的内存条芯片。 相关DIMM芯片组市场规模 根据Yole,随着最新一代DDR,每个模块的DIMM芯片数量有所增加。模块上芯片组包括RCD, DB, PMIC, SPD集线器和温度传感器芯片,用于最先进的模块。 DDR5的渗透将导致DIMM芯片组市场在2028年达到约40亿美元,CAGR21-28为约28%。 除了DDR之外,各种新的开放接口和协议目前正在开发中:CXL、Gen-Z、OpenCAPI、CCIX。 其中,CXL在AI/HPC数据中心应用中势头强劲,在容量和密度方面为连接高容量DRAM和SCM技术(如3D XPoint)提供了最佳点。 相关标的:澜起科技内存拓展需求催涨CXL及PCIe芯片需求 计算高速链路(CXL)利用PCIe(外围组件互连高速)接口,是一种新的标准化接口,有助于提高 CPU、GPU、加速器和内存的效率。 CXL内存的主要优势在于可扩展性:CXL允许灵活扩展现有服务器系统无法提供的内存,其中内存容量和性能在采用特定服务器平台时是固定的。 CXL的增长潜力是无限的,因为它是运行AI和大数据应用程序的高性能计算系统的有前途的新接口。 CXL在新兴HPC应用内存可组合性和分解方面的优势 根据新思官网,计算结果表明,CXL 2.0引入的内存池理论上可至少支持1.28拍字节 (PB) 的CXL附加内存,如果在CXL 3.0中引入多级切换和其他功能,甚至可支持更高的内存容量。这为解决大规模计算问题提供了新思路,使多个主机可以一边处理大量问题,一边同时访问整个数据集。例如,假设系统可以一次性处理整个问题,而不是将问题分解成更小的部分,那么通过访问1拍字节的内存,就可以创建全新的模型并对其编码,以此来处理复杂的问题(例如,模拟气候变化)。 CXL 3.0中引入的高级结构功能是基于前几代及其传统树基架构的一次转变。新架构支持多达4,096个节点,每个节点都能够通过基于端口的路由 (PBR) 机制与另一个节点相互通信。节点可以包括CPU主机、CXL加速器(无论是否包含内存)、PCIe设备或全局结构连接内存 (GFAM) 设备。 GFAM设备是一种3型设备,可有效地充当共享内存池,其I/O空间属于一个主机或结构管理器。配置后,CXL结构中的其他主机和设备可以直接访问GFAM设备的池式内存。GFAM设备带来了很多新的可能性,可以根据特定的负载需求构建由计算和内存元件组成的系统。例如,通过访问1太字节或1拍字节的内存,可以创建全新的模型来应对像绘制人类基因组图谱一样复杂的挑战。 CXL通过单一接口实现介质独立,例如DDR3/4/5,优化内存/存储 一直以来,只有几种方法可以为加速器或其他SoC增加内存。最常见的方法是添加额外DDR内存通道来支持更多标准DDR内存模块。 另一种可行的方法是,将内存与SoC集成在同一个封装内,借助CXL,可以将内存放在非常类似于PCIe总线的东西上(CXL使用PCIe PHY和电气元件)。这让系统能够使用带有标准CXL接口的卡来支持更多的内存模块,而无需额外DDR通道。 下图举例说明了如何大幅增加SoC可访问的内存:从内存量(GB)和内存类型(RAM或持久内存)两方面来说明。通过使用这种方法,内存开始变得类似于资源池,可由多个主机通过切换功能进行访问;切换功能在CXL 2.0中首次引入,并在CXL 3.0中得到显著扩展。 CXL兼具内存分解与可组合性优势 从上图(CXL通过单一接口实现介质独立,例如 DDR3/4/5、LPDDR 3/4/5、优化内存/存储)可以看出,CXL可以解决阻碍多系统访问可扩展内存池开发的问题——它取消了专有互连,因此任何需要的CPU、GPU或张量处理单元 (TPU) 可以访问基于标准的CXL接口设计的额外内存。 CXL最终将允许连接到大量的内存模块,包括SSD、DDR DRAM和新兴的持久内存。CXL具有低延迟、一致性、内存池和共享等功能,这使其成为一种可行的技术,让系统架构师可以创建大型的易失性和持久内存池,这些内存将会扩展到多个基础架构池,成为真正的共享资源。 2022年闪存峰会传达的一个明确信号是,CXL是用于汇集和共享联网内存设备的新兴领先架构,主要用于DRAM和NAND闪存设备。CXL现已收购了Z世代和 OpenCAPI,进一步扩大和增加了CXL可以处理的应用的范围和类型。 CXL优势1【内存分解】:能够将内存扩展到各种设备,同时仍允许多个服务器进行共享和保持一致性,使得内存不再聚合并专用于单个设备或服务器。 CXL优势2【可组合性】:能够根据需要将分解后的内存分配给特定CPU 或 TPU,结果是可大幅提高内存利用率。 澜起科技 · 业务版图 澜起科技互联类芯片产品布局 澜起科技催化1:互连类芯片,全球领跑者乘DDR5渗透之风 内存接口芯片:澜起科技发明的DDR4全缓冲“1+9”架构被JEDEC 国际标准采纳,该架构在DDR5世代演化为“1+10”框架,继续作为LRDIMM的国际标准。DDR5 LRDIMM“1+10”基础架构包括一颗RCD芯片和十颗DB芯片。 内存模组配套芯片:根据JEDEC组织的定义,在DDR5世代,服务器内存模组需要配置三种配套芯片,包括一颗SPD芯片、一颗PMIC芯片和两颗TS芯片;普通台式机、笔记本电脑的内存模组UDIMM、SODIMM上,需要配置两种配套芯片,包括一颗SPD芯片和一颗PMIC芯片。 以每台计算机搭载1-2条内存,每台服务器搭载10-12条内存计算,2021年计算机和服务器领域对DDR内存的需求量超过4.84亿条,下游DDR内存模组行业增规模的提升将带动应用于DDR内存模组的内存接口芯片及配套芯片产品需求量持续加。 目前DDR5内存接口芯片的竞争格局与DDR4世代类似,全球只有三家供应商可提供DDR5第一子代的量产产品,分别是澜起科技、瑞萨电子和Rambus,澜起科技在内存接口芯片的市场份额保持稳定。在配套芯片上,SPD和TS目前主要的两家供应商是澜起科技和瑞萨电子,澜起科技是目前全球可以提供DDR5内存接口及模组配套芯片全套解决方案的两家供应商之一。 澜起科技催化2:CXL与PCIe等弥补高速发展的HBM内存局限弱势 澜起科技的CXL内存扩展控制器(MXC)芯片是一款Compute Express Link™ (CXL™) DRAM内存控制器,属于CXL协议所定义的第三种设备类型。该芯片支持JEDEC DDR4和DDR5标准,同时也符合CXL2.0规范,支持PCIe® 5.0的速率。针对HBM内存相比DDR有局限的情况,澜起科技的CXL芯片可为CPU及基于CXL协议的设备提供高带宽、低延迟的高速互连解决方案,从而实现CPU与各CXL设备之间的内存共享,在大幅提升系统性能的同时,显著降低软件堆栈复杂性和数据中心总体拥有成本(TCO)。 该MXC芯片专为内存AIC扩展卡、背板及EDSFF内存模组而设计,可大幅扩展内存容量和带宽,满足高性能计算、人工智能等数据密集型应用日益增长的需求。 澜起科技催化2:CXL与PCIe等弥补高速发展的HBM内存局限弱势 澜起科技的PCIe Retimer芯片,采用先进的信号调理技术来补偿信道损耗并消除各种抖动源的影响,从而提升信号完整性,增加高速信号的有效传输距离,为服务器、存储设备及硬件加速器等应用场景提供可扩展的高性能PCIe互连解决方案。 其中,PCIe 4.0 Retimer芯片符合PCIe 4.0基本规范,PCIe 5.0/CXL 2.0 Retimer符合PCIe 5.0和CXL2.0基本规范,支持业界主流封装,功耗和传输延时等关键性能指标达到国际先进水平,并已与CPU、PCIe交换芯片、固态硬盘、GPU及网卡等进行了广泛的互操作测试。 以上内容仅供学习交流,不构成投资建议。详情参阅原报告。 Prev什么是SD NAND存储芯片?
Next在内存领域关于HBM的竞赛
Article classification:
DRAM
|