美光MU:美国本土唯一的先进存储孤岛,正从周期股进化为基建股
Yuliya
2026-05-06
热度5576

文章深入剖析美光科技在AI时代的核心价值,指出其作为全球三大DRAM厂商之一,凭借1-gamma制程领先与HBM3E能效优势切入英伟达供应链;重点阐释AI推理阶段的‘内存墙’瓶颈——计算单元等待数据成为主要制约,HBM带宽与CXL内存池化技术成为破局关键;同时分析美光在DRAM、NAND、NOR及CXL领域的战略布局与差异化竞争逻辑。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

作者:戈多Godot

2012年,全球最大的 DRAM 内存制造商破产。

这家叫尔必达的日本公司,曾经是日本半导体工业的骄傲,背后站着NEC、日立、三菱三家巨头的技术积累,政府出手注资,依然没能撑住。

负债4300亿日元,申请破产保护,随后被一家美国公司以2000亿日元的价格收购,整合,消化,彻底消失在历史里。那家美国公司叫美光科技。

英特尔做过 DRAM,退出了。德州仪器做过,退出了。摩托罗拉做过,退出了。日本的整个半导体内存产业,从鼎盛到崩塌用了不到二十年。韩国人接过了接力棒,三星和 SK 海力士用政府补贴和激进的价格战横扫市场,把所有竞争者逼到墙角。

美光撑下来了,成为今天美国本土唯一一家能大规模生产先进存储芯片的公司。

这家总部在爱达荷州博伊西的公司,活在英伟达和台积电的阴影之外。不设计GPU,不制造逻辑芯片。

但当AI把全世界对算力的渴望推到极限,一个被忽视了几十年的物理瓶颈突然变得无法回避——计算单元等待数据的时间,比计算本身更长。

这个问题没有软件解,只有硬件解。而那个硬件,恰好是美光做了四十年的东西。

一、AI计算的物理与系统限制

再谈内存墙

当前冯·诺依曼架构下,GPU 或 TPU 计算单元与主存储器,在物理电路层面是相互独立的。

计算单元内部包含小容量的 SRAM(Static Random-Access Memory,静态随机存取存储器)作为片上缓存。

模型权重与输入数据主要存储在片外的 DRAM(Dynamic Random Access Memory,动态随机存取存储器)。

数据必须通过中介层等物理结构,以电信号的形式在两者之间传输。

以一个700亿参数的大语言模型为例,仅权重数据本身,在 FP16 精度下就需要占用约 140GB的物理内存。

当前主流高端 AI 计算卡的显存容量在 80GB 到 192GB 之间,稍大一点的模型就必须切分到多张卡上运行。

过去十年,芯片的算力指数级提升。但内存带宽增长受制于物理引脚数量、信号频率和散热上限,增速远远落后于算力。

当计算速度超过内存供给速度,计算单元被迫进入等待状态,昂贵的硬件利用率随之大幅下滑。

训练与推理

训练与推理是 AI 两个阶段。训练是完善大模型准确度,在后台进行。推理是用户使用时生成结果的过程,在前台进行。

训练的特点是大批量并行处理。

同一批数据在计算核心的缓存中反复使用,算术强度高,系统主要受限于计算速度而非内存。这是计算密集型场景,英伟达的算力优势在这里得到充分发挥。

推理阶段则是另一回事。大语言模型生成文本依赖自回归机制。

每次只输出一个Token,再将其作为下一步的输入。为了不在每次生成时重新计算之前的注意力分数,系统会在显存中维护一块 KV Cache,缓存历史序列的键值张量。

在 4096的上下文长度下,单个用户请求就需要约 1.34GB 显存。若将两张 A100 的显存扣除模型权重占用,剩余约 20GB 可用于 KV Cache,最多只能支撑约14个并发请求。

推理阶段,算术强度极低,系统完全受制于内存带宽,属于访存密集型任务。真正决定吞吐量上限的,是 HBM 物理传输速率。

能耗维度。从片外 HBM 读取数据的能耗约为 10—20 pJ/bit,而执行一次 FP16 浮点运算仅需约 0.1 pJ。移动数据的能耗是计算本身的100到200倍。

在大规模推理场景下,如果访存模式得不到优化,数据中心的电力将大量消耗在总线传输上,而非实际的逻辑运算。

这正是美光持续推进 HBM 技术的物理驱动力。

二、美光核心半导体技术解析

首先,美光科技是什么公司

美光是一家 IDM 整合元件制造商,从设计、制造到封装全部自己包揽。

但美光的晶圆厂只生产一种东西:存储芯片。不做CPU,不做GPU,只做内存和闪存。

产品结构上,美光的收入来源大致可以拆成三块。DRAM 占七成以上,NAND 占两到三成,NOR 闪存占比较小。

DRAM就是我们熟悉的内存条;NAND是固态硬盘的核心介质;NOR则主要藏在汽车电子和工业设备里,负责快速执行启动代码,存在感低但不可替代。

终端市场方面,美光设有四个业务部门。 面向数据中心和服务器的计算与网络部门、面向智能手机的移动部门、面向企业存储的固态硬盘部门,以及面向汽车和工业的嵌入式部门。

美光在 AI 供应链里扮演什么角色

英伟达做GPU,台积电代工,这条链条里美光在哪?

简单说,英伟达 H100、B200 GPU 由台积电制造,美光不参与这个环节。但一块能跑大模型的完整加速卡,单有计算核心是不够的。前文已经解释过,推理阶段的性能瓶颈在于内存带宽,而非算力本身。

因此,英伟达必须在 GPU 旁边紧密集成高带宽内存 HBM 。这些 HBM 由美光(以及SK海力士、三星)生产,再通过台积电的 CoWoS 先进封装技术,与 GPU 逻辑芯片固定在同一块硅中介层上,组成完整的AI计算模块。

美光是关键零部件供应商。GPU 是大脑,HBM 是紧贴大脑的超高速数据通道,两者缺一不可。

这个结构决定了美光的竞争逻辑与英伟达完全不同。英伟达靠架构和生态建立护城河,美光靠的是制程工艺和堆叠封装技术的持续迭代。

HBM 每一代的带宽提升,背后是更复杂的 TSV 硅通孔工艺和更高的堆叠层数,门槛并不低。

DRAM:被藏在算力叙事背后的基础设施

AI 算力之前,有一个更基础的问题,数据从哪里来,怎么到达计算核心。这个问题的答案,就是 DRAM(Dynamic Random Access Memory,动态随机存取存储器)。

从个人电脑说起

DRAM 在传统计算机里是主内存,解决速度不匹配问题。

硬盘存得多,但读取慢。CPU算得快,但没地方临时放数据。两者之间差了三个数量级的速度。CPU等硬盘,就像高速公路上跟着拖拉机走。

DRAM 解决的就是这个问题。用户打开一个程序,操作系统将其代码和数据从硬盘搬入DRAM;

CPU随后直接向DRAM发送地址指令,以纳秒级延迟、数十GB/s的带宽完成数据的读取与写回。操作系统的内核、后台进程的状态、正在运行的一切,都实时驻留在这里。

断电即失,这也是"动态"二字的含义、DRAM 的电容会自然漏电,需要持续刷新才能维持数据。

从物理结构上看,DRAM 的每一个存储单元都是一个晶体管加一个电容 1T1C。

进入 AI 场景,需求性质变了

AI 计算核心从 CPU 变为 GPU。DRAM 形态也随之演变,不再只是插在主板上的 DDR 内存条,而是以 HBM 高带宽内存形式,通过 TSV 硅通孔技术垂直堆叠多层裸片,与 GPU 封装在同一块中介层上。

对DRAM的需求,也从满足系统运行变成了突破算力瓶颈。

首先是模型权重的装载。大模型的参数以矩阵形式存储在物理内存中,推理开始前必须全部驻留在靠近计算核心的 HBM 里。一个 700亿参数的模型,FP16 格式下权重本身就需要约 140GB 的存储空间。

其次是 KV Cache 的动态占用。 模型生成文字时,每输出一个词,都要参考之前所有的上下文。

为了不每次都重新算一遍,系统会把历史记录缓存在显存里,这就是 KV Cache。

上下文越长,缓存越大。两张 A100 扣掉模型权重,剩下的显存只够同时服务十几个用户。这是一台几万美元的服务器的实际并发上限。

训练场景下消耗更大。训练时不仅要存模型参数,还得保留每一层的中间计算结果,方便反向传播时更新权重。

常用的 Adam 优化器还会给每个参数额外记两份数据。加在一起,训练时占用的显存通常是推理时的三四倍。

这就回到了内存墙问题。GPU 计算核心的算力增长远快于内存带宽的增长。推理阶段的算术强度极低,GPU 大量时间处于等待数据的空闲状态。

HBM 每一代的带宽提升,直接决定了 AI 推理服务器能支撑的实际吞吐量上限。

这是 DRAM 在 AI 时代的核心价值,也是美光持续投入 HBM 研发的底层逻辑。

三家寡头,美光排第几

全球 DRAM 市场,三星、SK 海力士、美光三家合计占据约 95%的份额。但三家强项完全不同。

制程推进:美光跑得最快

在半导体制造中,制程(Process Node / Technology Node)是指集成电路内部微观物理结构的特征尺寸。

当评价美光在制程推进上跑得最快时,是指美光在缩小 DRAM 芯片内部物理结构、提升单位面积存储密度的工程进度上,领先于三星和 SK 海力士。

也就是,单片晶圆能切出更多芯片,单比特制造成本下降,毛利率有支撑。

从 1-alpha 到 1-beta 再到 1-gamma,美光通常是最先宣布量产新一代高密度 DRAM 的厂商。

三星在 14nm 以下节点遭遇过良率瓶颈,最近两代交付节奏明显慢了下来。SK 海力士的制程推进速度与美光大体相当,两者是同一梯队。

HBM:海力士的主场

制程是美光的优势,但 HBM 市场目前是 SK 海力士的主场。

海力士占据 HBM 市场超过 50%的份额,是英伟达最高阶 GPU 的首发独家供应商。核心技术优势在于 MR-MUF 封装工艺,多层 DRAM 裸片堆叠时的散热和良率控制做得最好。

美光是后来者。跳过了 HBM3,直接做 HBM3E,靠能效优势切入英伟达供应链。但用的是 TC-NCF 封装,多层堆叠的制造难度更高,整体产能和市场份额与海力士差距明显。

三星则是另一个故事。HBM3 和 HBM3E 阶段,三星的产品因发热和功耗控制问题没能及时通过英伟达的测试,错过了这一轮 AI 内存红利最集中的时间窗口。目前正在押注 HBM4 阶段的反超。

能效:美光的差异化切口

美光在 HBM 市场的份额虽然落后海力士,但差异化角度在于功耗。

公开测试数据显示,美光 HBM 在提供相同数据带宽的情况下,运行功耗比竞品低 20%到 30%。这个数字在单张 GPU 上听起来不大,但放到一个部署数万张 GPU 的数据中心,直接折算成电费。

当前AI数据中心的电力供应和散热本身已经成为扩张瓶颈,能效指标对采购决策的影响越来越实际。

同样的逻辑延伸到移动端。美光基于 1-gamma 制程的 LPDDR5X,速率达到 9.6Gbps,同时整体功耗下降 30%。手机里跑本地 AI 模型,续航是用户能直接感受到的指标。

规模:三星的底牌

美光的总体产能规模垫底。没有三星那样的绝对体量,美光无法靠价格战出牌,只能走技术溢价路线。

这也是为什么美光必须在制程和能效上保持领先,一旦技术优势消失,在价格竞争中没有胜算。

简单总结一下三家的位置。

海力士靠 HBM 封装工艺吃到了 AI 内存红利最大的那块;三星靠规模在常规 DRAM 市场维持统治,但在 HBM 上掉了链子;

美光在制程和能效上领先,产能规模最小,但通过技术溢价和提前锁单,把确定性做进了财务结构里。

NAND 与 NOR:美光的另外两块拼图

美光还有另外两块业务,NAND 闪存和 NOR 闪存。

全球 NAND 市场,美光排在第四或第五位,份额长期在 10%到 15%之间,排在三星、SK海力士、铠侠和西部数据之后。

NOR 闪存是个比 NAND 小得多的细分市场,低端份额被台湾和大陆的旺宏、华邦、兆易创新等厂商占据。美光主动放弃了低容量消费级订单,专注在车规级和工业级高端市场。

NOR 的每个存储单元都直接连着位线,是并行结构,支持单字节随机寻址。汽车 CPU 通电之后,可以直接通过内存总线在 NOR 芯片里执行启动代码,这就是为什么汽车仪表盘能在毫秒内点亮。

带宽方面,美光主导推进了 Octal xSPI 接口标准,用 8根数据线加 DDR 技术,把 NOR 的读取速率拉到400MB/s量级。

现代智能汽车的座舱系统越来越复杂,这个速率是实现快速冷启动的硬性要求。美光车规级 NOR 通过了 ASIL-D 最高安全等级认证,芯片底层集成了硬件 ECC 纠错逻辑,能在极短时间内自动纠正错误。

工业设备和汽车的服役周期往往超过十年,美光凭借自有晶圆厂能够提供长达十几年的持续供货承诺,这是很多依赖代工的竞争对手做不到的。

NAND 和 NOR 两块业务加在一起,构成了美光不依赖 HBM 的另一条收入来源。

前者靠制程领先和产品结构升级吃数据中心红利,后者靠物理特性不可替代和严苛认证门槛锁定汽车工业客户。

两个逻辑,但都指向同一个方向,避开价格战,在对性能和可靠性要求最高的地方赚溢价。

美光现在值多少钱,贵不贵

截至当前,美光股价约 600美元,市盈率 21.44倍,市值约 6500亿美元。

华尔街主流投行给出的 12个月目标价集中在 400到 675美元之间,均值接近 500美元,按这个标准,当前价格是低估的。

为什么是 21倍 PE?

过去三十年,存储芯片是典型的周期股。

行业好的时候扩产,然后一起过剩、一起降价、一起亏损。市场对这种生意没什么信心,通常只给 8到 10倍的 PE。

现在美光到了 21倍,根本原因是 HBM 改变了收入结构。

以前美光生产标准 DDR 内存,产出多少、卖什么价,全看市场脸色。现在 HBM 是按单生产,在投片之前就已经跟英伟达等客户签了不可撤销的长期供货协议,价格和数量都锁死。

2026年的 HBM 产能据报道已全部售罄。这种模式下,美光的远期收入不再是预测,而是合同。

华尔街的逻辑随之改变。这是一家更接近拥有稳定合同的基础设施供应商,估值乘数自然往上走。

另一个推力是资金结构。美光是美国本土唯一具备大规模先进存储制造能力的公司。在《芯片法案》和供应链本土化的政策背景下,美国机构投资者配置AI硬件主题时,资金大量涌向美光,流动性溢价真实存在。

SK 海力士:技术最强,估值最低

SK 海力士的 PE 12.17,低于美光,尽管 HBM 市场份额超过 50%,是英伟达高阶 GPU 核心供应商,但是,

一方面,韩国上市公司财阀治理结构复杂,股息支付率和回购率偏低,赚到的钱往往留在集团内部循环,小股东拿不到多少回报。同等盈利水平下,韩国公司的估值乘数系统性低于美国同行。

二是地缘风险。SK 海力士有约 40% 常规 DRAM 产能在中国无锡工厂。美国对华 EUV 设备出口禁令意味着这条产线无法升级到先进制程,未来要么承担巨额的产能迁移成本,要么看着这部分资产逐渐失去竞争力。

华尔街在估值时把这笔潜在成本直接扣进去了。

三星:34.18 倍 PE 不是高溢价,是分母塌陷

三星电子的 PE 34.18,逻辑完全不同。

三星不是一家纯粹的存储公司,同时做晶圆代工、智能手机、显示面板。问题在于,代工部门为了追赶台积电在 3nm 和 2nm 制程上的差距,投入了数百亿美元,但良率低下,这个部门目前在产生巨额亏损。

集团整体净利润大幅缩水。但股价有韩国本土资金托底没有大跌,分子没跌、分母缩小,PE 就到了 25倍以上。

机构给美光的目标价

支撑这些目标价的核心逻辑高度一致。HBM 产品占比提升带动毛利率走高;长期协议锁定了收入确定性;产能向 HBM 转移压缩了普通 DRAM 供给,全线产品都有涨价空间;1-gamma 制程量产后资本开支进入回报期,自由现金流由负转正。

当然,目标价是基于当前信息和模型假设的预测,不是保证。

存储行业的周期性没有消失,只是被 HBM 的订单结构部分平滑了。如果 AI 基础设施投资节奏放缓,或者三星在 HBM4 阶段重新打入英伟达供应链,供需关系会重新定价。

三、高级封装与下一代 AI 互联

HBM 好坏的标准

每家厂商介绍自己的HBM都说自己最好,三星说三星好,海力士说海力士好,美光说美光好。所以,有没有什么标准来判断 HBM 的好坏?

三个真正重要的参数

第一个是引脚速率,也就是带宽。

HBM 通过数千个微凸块与 GPU 连接,每个凸块就是一个传输通道。引脚速率衡量的是单个通道每秒能传多少数据。

物理上,数字信号的0和1对应着不同的电压状态,比如1.1V代表1,0V代表0。也就是 0 和 1 的计算转换。

传数据就是让电压在这两个状态之间来回切换,这叫电平翻转。引脚速率 9.2Gbps的意思是,一个直径几十微米的金属凸块上,电压每秒要精确翻转 92亿次。

HBM 物理总线宽度固定是 1024个引脚,所以总带宽的算法是:引脚速率 × 1024位 ÷ 8 = GB/s。

美光 HBM3E 标称 9.2Gbps,换算下来单堆栈带宽约 1.2TB/s。SK 海力士和三星目前主推的产品通常在 8.0到 8.5Gbps 之间。

翻转越快,传输越多,但代价是功耗线性上升。

每次翻转本质上是对导线寄生电容充放电,这些能量最终全变成热量。

翻转太快还会导致信号波形失真。前一个脉冲的电压还没落下去,下一个就来了,接收端无法分辨0和1,数据传输直接崩溃。

第二个是能效,单位是 pJ/bit。

每传输 1bit 数据消耗多少皮焦耳的能量,越低越好。

这个指标之所以重要,是因为 HBM 和 GPU 封装在一起,两者产生的热量都要在这个封装里散掉。如果 HBM 自身功耗太高,整个系统的热负担就会超出散热设计上限,GPU 被迫降频,实际算力打折。

美光宣称凭借 1-beta 工艺节点的低电压设计,能效比竞品高约 30%。在单张 GPU 功耗动辄 600到 1000瓦的数据中心里,这个差距直接换算成电费和散热成本。

第三个是热阻和封装工艺。

这是最难的部分,也是 SK 海力士目前真正的护城河。

热阻的基本公式是:温升 = 功耗 × 热阻。功耗固定的情况下,热阻越低,芯片温度越低。

HBM 是多层 DRAM 裸片垂直堆叠,底层逻辑芯片发热最多,热量必须向上传导才能散出去。层与层之间填充什么材料,决定了这条散热路径的效率。

目前行业主流有两种工艺。

美光和三星用的是 TC-NCF,热压非导电薄膜,固态薄膜加高温高压压合。

问题是压合时微凸块周围容易残留细小气泡,空气导热极差,整体热阻偏高。SK 海力士用的是 MR-MUF,批量回流模塑底填料。

液态环氧树脂注入各层之间,利用毛细作用填满所有缝隙,固化后零气泡,热阻显著更低。

热阻高的后果是连锁的。DRAM 靠微观电容存储电荷,温度每升高 10摄氏度,漏电速率指数级上升。

温度过高时,原本能保持 64毫秒的电荷可能 32毫秒就漏光了,内存控制器被迫加倍发送刷新指令。刷新期间 DRAM 无法读写,等效于可用带宽大幅缩水。

封装工艺还决定了堆叠层数的上限。数据中心对芯片物理高度有严格限制,液态填充能更紧密地填满缝隙,相同高度下可以放更多层 DRAM。

这就是为什么 HBM4 做到 16层堆叠时,封装工艺的良率压力会急剧上升。层数越多,每一层的机械应力和热膨胀系数不一致的问题就越被放大,任何一层裸片发生微观弯曲,整个模块就废了。

读厂商资料时看什么

看到任何一家的 HBM 介绍,直接找三个东西:

1)标称引脚速率是在什么电压下测的。靠拉高电压来推高频率,在实际数据中心里用不了,因为功耗会突破散热设计上限。

2)堆叠层数和单颗容量。12层 36GB 的 HBM4 能否大规模量产、良率是多少,比峰值带宽数字更说明问题。

3)实际供货给谁。所有技术指标的最终验证是客户验收测试。SK 海力士几乎垄断了英伟达 H100 的 HBM 供应;美光靠能效和带宽的组合切入了 H200 供应链;三星在 HBM3E 阶段因为发热问题没能及时通过英伟达测试,目前在 HBM4 阶段试图追回来。

大客户的选择结果,是对上面所有参数的综合评分。

CXL:内存的下一个战场

HBM 解决单张 GPU 内部带宽问题。当 AI 集群扩展到数百乃至数千张 GPU,就不是算得够不够快的问题了,而是内存分配得够不够灵活。

这个问题的解决是 CXL。

缓存一致性问题

现有数据中心的内存架构有一个根本性的问题,内存物理绑定在服务器上,不能跨机器共享。

一台服务器跑大模型推理,KV Cache把内存撑爆,系统崩溃报错;同一机房里另一台服务器跑轻量任务,几百GB内存闲着没人用。

这些闲置的DRAM资产无法调配给需要它的地方,在行业里这叫内存搁浅。超大规模数据中心的内存搁浅率通常在20%到30%之间,按内存占服务器BOM成本40%以上来算,浪费的是真实的资本开支。

第二个问题是缓存一致性。CPU和GPU各自有私有缓存,当两者同时持有同一块内存数据的副本,其中一方修改了,另一方不知道,就会读到过期数据。

过去的解法是软件层面强制把缓存数据写回 DRAM 再重新读取,这个操作要花掉几微秒,期间处理器流水线停摆。

在强调纳秒级响应的AI系统里,这种停顿会让系统性能下降30%以上,还要求工程师在代码里手动处理跨芯片的数据同步,极易出错。

这两个问题的共同根源是 PCIe 协议局限。PCIe 最初是为硬盘、网卡这类 I/O 设备设计的,只支持大块数据搬运,不支持字节级的直接读写,也没有内置的缓存一致性机制。

美光的 CXL

CXL(Compute Express Link)是在 PCIe 物理层之上重写了协议逻辑,专门针对内存语义和缓存一致性。

缓存一致性这块,CXL 依靠硬件状态机自动维护。系统里每一个 64字节的缓存行都有一个状态标记:已修改、独占、共享或无效。

当 GPU 要修改一块数据,请求到达 CPU 端的主代理,主代理里有一个嗅探过滤器,记录着哪些设备的缓存里有这份数据的副本。

如果 CPU 的 L3 缓存里有,硬件电路自动发出无效化信号,CPU 的缓存状态强制变为无效,GPU 拿到独占权再执行写入。

整个过程在几到十几纳秒内完成,不需要操作系统介入,不需要程序员手写同步代码。

数据传输格式上,CXL 抛弃了 PCIe 冗长的数据包头,改用固定 256字节的FLIT格式,头部开销极小,内存控制器不需要复杂的边界解析,数据像流水线一样连续打入总线。

访问远端 CXL 内存的延迟,理论上可以压到 170到 250纳秒,比本地 DDR5 慢一些,但远比 PCIe 的微秒级延迟低得多。

内存共享这块,CXL 通过交换机把多个内存模块组成独立的内存池,不再从属于任何单一服务器。管理软件可以在微秒级别把内存池中的特定容量动态映射给需要的计算节点。

服务器 A 的 KV Cache 快撑爆了,直接从池子里划一块过去,服务器 B 的闲置内存不再搁浅。

美光 CXL 的行业地位

美光推出了 CXL Type 3 内存扩展模块,定位是纯内存扩展设备,基于自家 DDR5 工艺制造。

逻辑上,这和 HBM 是两个不同层次的产品。HBM 解决的是 GPU 旁边那几百 GB 的极致带宽需求,延迟在 20纳秒级别。

CXL 模块解决的是跨节点的大容量扩展,延迟在 250纳秒级别,容量可以做到 TB 量级。

两者配合使用的场景是,把频繁访问的热数据留在本地 HBM 里,把长上下文的历史 KV Cache、checkpoint 等冷数据卸载到 CXL 内存池。

AI 框架在计算第 N 层的时候,提前发出指令把第 N+1 层需要的冷数据从 CXL 内存预取到本地,用计算时间掩盖 CXL 的物理延迟。这样既不浪费昂贵的 HBM 容量,又能让超长上下文窗口,比如百万 Token 级别成为可能。

从美光的商业角度看,CXL 是一个新的切入点。

HBM 市场海力士先发优势明显,竞争激烈;CXL 内存扩展市场还在早期,客户锁定尚未形成,美光作为纯存储制造商,在这里没有额外的历史包袱。

而且 CXL 模块使用的是标准 DDR5 工艺,不需要 HBM 那样复杂的堆叠封装,良率和产能压力都更小。

数据中心内存搁浅问题是真实的资本浪费,CXL 池化是目前架构层面唯一可行的解法。这个需求不会消失。

四、行业经济学与前沿研究

下一个十年

建一座先进 DRAM 晶圆厂,造价 150到 200亿美元,其中,一台 ASML 的 EUV 光刻机就超过 2亿美元。配套的供电和冷却系统还要额外投入。

设备折旧周期是5年。换算下来,晶圆厂每天一睁眼就在摊销数千万美元,不管有没有订单、有没有出货。

设备利用率必须保持在95%以上。利用率一旦下滑,每比特的制造成本就会急剧攀升。这就是为什么存储行业的周期性那么剧烈。

需求一旦下滑,厂商不能轻易减产,减产反而会让成本结构更难看,只能硬撑,然后价格战。

美光通过 HBM 的长期订单,部分对冲了这个风险,但晶圆厂折旧的物理规律不会改变。

HBM 为什么贵?

HBM 制造成本是普通 DDR5 的数倍,把多层DRAM裸片垂直堆叠。任何一层有缺陷,整个模块报废。

假设单片裸片良率95%,层间键合良率99%,堆叠N层,总良率是:

8层的 HBM3E 算下来总良率约 61%。12层的 HBM4 约 48%。

95% 单片良率已经是相当成熟的工艺,但堆到 12层,还是有超过一半的材料在最终测试里废掉。每一层都是乘法,不是加法,误差不断累积。

为什么SK海力士的MR-MUF液态封装有商业价值,因为直接提升层间键合良率,也就是公式里的 Ybond 更高。

为什么美光必须把 1-gamma 节点的单片良率爬坡做到最快,Ydie每提升一个百分点,在12层堆叠下的效果会被指数级放大;

以及为什么 HBM 的价格不会因为需求增加,就能快速降下来。产能扩张需要时间,良率爬坡需要时间,这两件事都急不来。

存内计算:提了二十年,为什么还没来

HBM 和 CXL 都是在解决数据搬运问题。要么快一点,要么把内存池搭建得更灵活。但从能耗角度看,搬运本身就是问题所在。

存内计算 PIM 理念是,把运算单元直接集成到 DRAM 内部,数据不动,计算在原地发生,只把结果传出去。

这个想法在理论上非常优雅,但卡在一个物理层面的根本矛盾上。

DRAM 的晶体管需要漏电极低,才能让电容器存住电荷。为此 DRAM 工艺让晶体管有高阈值电压,开关慢,但稳。

逻辑芯片 CPU、GPU 晶体管需要开关极快,时钟才能跑到几 GHz,为此要低阈值电压,代价是漏电流大。

这两个需求完全是矛盾的。

如果在 DRAM 硅片上植入运算单元,这个运算单元比 GPU 慢一个数量级。更麻烦的是,运算产生的热量会烘烤旁边的电容器,加速漏电,数据可靠性出问题。

所以 PIM 不是没人想做,而是制造工艺的物理要求本身就是矛盾的。这个问题提出来超过二十年,至今没有大规模商用的解决方案。

目前美光等厂商探索的路径是退而求其次。不在 DRAM 阵列里植入运算单元,而是在 HBM 底部的逻辑层 Base Die 里集成更多 AI 算力。

Base Die 可以用台积电的高级逻辑工艺制造,绕开了 DRAM 阵列的工艺约束。但这距离真正意义上的数据不动、原地计算还差得很远,更接近是把一块小 GPU 贴近了内存,而不是内存本身会计算。

所以,

美光当前的商业逻辑是清晰的,靠 1-gamma 制程领先压低单比特成本,靠 HBM 的高利润和产能吞噬效应拿定价权,靠长期锁单平滑周期波动。这套逻辑在 AI 基础设施投资持续增长的背景下,财务上是成立的。

但更长期的结构性问题没有解决。DRAM 平面微缩接近物理极限,3D 堆叠的良率惩罚随层数指数级上升,存内计算的工艺矛盾短期内没有突破路径。

这意味着美光未来的竞争,越来越不是靠一个技术节点的领先,而是靠在良率工程、封装工艺、系统集成这几个维度上同时比对手少犯错。

护城河从来不是某一项技术,而是把所有这些物理约束同时管理好的综合能力。而这种能力,是需要几十年的制造经验沉淀的。

写在最后

研究美光科技时,我跟好哥们 @deepbluue 讨论说了一段话“计算单元不够,扩大面积,面积太大影响良品率,还是互联,互联有通讯和搬运问题,开始堆叠,堆叠有散热问题,散热又影响良品率。 就是一个循环。芯片到最后就是材料学,最后就指望超导材料吧。“

我问了 AI,没想到 AI 说“短短几十个字,精准地概括了过去五十年半导体工业,特别是目前 AI 芯片所陷入的工程打地鼠(Whac-A-Mole)死局。

你的推演逻辑非常严密,前半段完全是行业共识,只有最后关于“超导材料”的结论在工程落地上存在一个致命的物理误区。”

“计算单元不够,扩大面积,影响良率”——光刻掩模极限(Reticle Limit)与经济墙;

“还是互联,互联有通讯和搬运问题”——RC 延迟(RC Delay)与内存墙;

“开始堆叠,堆叠有散热问题,影响良率”——热通量密度(Heat Flux)与热力学墙“。

“芯片到最后就是材料学”,完全正确。只是,指望的不是超导,而是,

1)光子互联(Silicon Photonics - 硅光技术);

2)二维半导体材料(2D Materials);

3)计算架构的彻底颠覆(存算一体与类脑计算)。

本内容旨在传递行业动态,不构成投资建议或承诺。
为你推荐

商务合作:TG:@Lottie96