每个年龄层的人都有自己的时代记忆!
NVIDIA/英伟达,对于已经晋升为孩子他爹的电脑玩家们来说是顶级显卡。
但是问一下00后科技发烧友,得到的回答大概率是:人工智能、自动驾驶、深度学习,甚至是……挖矿!
没错,曾经的显卡品牌NVIDIA,已经晋升为与高通齐名的高科技半导体公司!
然而,谁能想到这个轰轰烈烈的大公司,也曾因为一时疏忽就被一款小小的电子辅材——“底部填充胶”虐的死去活来呢?
2008年夏天,不少电脑用户发现自己装备了NVIDIA G84/G86 GPU显卡的笔记本在高温下会出现花屏、死机甚至黑屏问题。
更莫名其妙的情况是:如果按照显卡脱焊维修,电脑立刻就能恢复正常工作。但是要不了多久同样的问题又会出现,反复维修但花屏依然。
“显卡门”中招的电脑(bing.com)
没过多久,问题正式大规模爆发!
APPLE、HP、DELL、康柏、SONY等几乎所有笔记本大厂同时接到了大量用户投诉,事情很快发展成了“显卡门”!
当时多家主机厂商和众多的电脑用户对NVIDIA提出诉讼要求赔偿或更换产品。结果事情延宕了整整6年,到了2014年才画下句点。
最终,NVIDIA损失了将近5亿美元!
02
—
断裂的BGA焊点
其实一开始,NVIDIA是拒绝相信会有这种问题存在的!
他们倒不是推卸责任,只是单纯的觉得出现这种状况实在太不make sense——
毕竟半导体代工产业链比较封闭,NVIDIA、AMD和Intel的芯片封装基本都是交给矽品、日月光等有限的几个台湾代工厂来做。
用NVIDIA发言人的话说就是:
“那个世界上最大的半导体厂商(intel)用的材料和我们差不多是完全一样的!他们可是已经卖了上亿的芯片啊,也没见他们有什么问题啊!”
“The material set that is being used is similar to the material set that has been shipped in 100’s of millions of chipsets by the world’s largest semiconductor company (Intel)!”
但遗憾的是,事情的发展往往都不会考虑人们的美好愿望。
当NVIDIA不情不愿的拆开投诉的产品才赫然发现,所有失效的GPU都存在BGA焊球与基板的焊接点断裂的问题!
说到这里需要简单介绍一下所谓的“BGA焊球”。
我们知道早期的芯片是通过引线键合的方式把晶圆上的电路与基板连接起来的。这种封装方式容易产生阻抗效应,同时芯片尺寸比较大。
因此,当手机等移动终端设备爆发后,一种更先进的封装方式FCBGA(Flip Chip Ball Grid Array/倒装芯片球栅格阵列)就大面积普及开了。
FCBGA的特点是用直径百微米级的BGA焊球替代金线,以晶片倒扣在基板的方式实现了晶圆电路与基板电路的连接。
BGA焊球电镜照片(bing.com)
从横截面的角度看过去,结构就是:晶片=>BGA焊球=>基板。
而这次NVIDIA的失效定位,就发生在BGA焊球与基板焊点的开裂部位!
FCBGA芯片横截面
如果镜头再拉高一些,我们就能发现,在晶片与基板之间其实还存在一层底部填充胶。他们除了能将这个缝隙填满,同时还负责包裹住BGA焊球。
而这个底部填充胶将会是我们接下来讨论的重点。
其实,今天的我们站在上帝视角,可以非常清楚的看到问题所在:
材料技术的局限
降低成本的压力
以及对可靠性风险管控的忽视
是这三个因素共同作用才导致了那次严重的品质问题。
但是当时NVIDIA真的非常困惑!因为正如前面所说的,既然大家封装的代工厂一样,使用的材料基本也都一样,为什么唯独NVIDIA爆出了这么严重的质量问题呢?
经过仔细的对比排查,NVIDIA终于发现两处与intel AMD不同的用料:
1)BGA材质:NVIDIA使用的是高铅BGA,高铅焊料的熔点较高,铅含量高会导致焊料较硬较脆,当热胀冷缩发生时容易发生应力开裂;
而AMD使用的是低熔点的共晶BGA,熔点低、焊接温度低。相较高铅BGA,发生焊接不良的概率较低,具有更好的焊接效果。
2)钝化层材料:AMD和Intel的钝化层用的是聚酰亚胺材料,具有很好的应力保护功能;
而NVIDIA采用的是坚硬的SiN涂层,这也意味着当温度升高芯片内各种材料以各自的CTE膨胀的时候,NVIDIA的BGA焊球和AMD比起来少了一个帮助吸收应力的保护层。
(Researchgate@Yusuf Celik)
差别仅此而已,就足以造成了如此大规模的不良问题吗?
这两点显然会增加焊点断裂的几率,但是如果对问题原因的探究到此为止,就类似于简单的把新冠疫情的传播完全归结于人与人之间的握手一样让人不安了!
很快,调查范围扩大,做为与BGA焊球直接接触的底部填充胶被纳入视野。而此时,NVIDIA对于真相的探究才算找到了正确的方向!
底部填充胶是一种环氧树脂材料,被填充在芯片底部将BGA焊球包覆,起到密封防护的作用。
同时它还有另一个更重要的功能,那就是为结构提供机械支撑!
(henkel-adhesives.com/automotive-electronics)
对于精密电子产品来说,材料的热失配一直都是个大问题!
由于微型集成电路的尺寸已经以微米计,因此即便是一个数量级的膨胀或收缩都会导致内部构造的破坏。
尤其是当硅晶的热膨胀系数CTE是2~5ppm,而基板的CTE则高达15~30ppm!
两者相差10倍的情况下,做为二者电流通道的BGA焊球位置将面临着非常大的剪切应力。即便BGA焊球使用了共晶材料,出现应力破坏也只是时间的问题。
而作为底部填充材料来说,被创造出来的最主要目的就是吸收一部分热膨胀导致的应力,进而延长芯片的使用寿命。
这种情况就类似于骨折处打上石膏,依靠外力将脆弱的创面固定,消除相对位移。
当NVIDIA重新审视这款材料的时候,玻璃化温度Tg的参数引起了工程师们极大的关注。
玻璃化转变温度Tg,是指材料的链段开始发生运动的温度,宏观上表现为从高弹态转化为玻璃态的温度。此时材料的机械强度大幅降低,基本就失去了为元器件提供支撑和保护的能力。
当时NVIDIA使用的底部填充胶是日系大厂N公司出品的U****1。从TDS的数据看来这款材料的Tg只有70度!
按照NVIDIA工程师的评估,GPU工作时的平均温度范围是40~65度。如果结合BIOS的优化是足以保证温度不高于Tg点的。
可是NVIDIA没有考虑到的是,虽然机箱内部的温度传感器显示的温度足够安全,但这并不代表芯片内部数百个BGA焊球温度全都不超过70度。
如果看一下GPU芯片热成像就会很明显的看到局部存在发热点,其温度甚至比其他部位高出40度!
更何况,当GPU全力运行大型3D游戏时,表面温度更是高达100摄氏度!
也就是说,这款底部填充材料必定在某些情况下已经失去了机械强度!在某些时候,BGA焊球需要独自面对热膨胀引起的巨大应力!那么几个回合下来,BGA焊球的焊点出现断裂肯定就是大概率事件了。
而这也很好地解释了为什么出问题的显卡,当作“脱焊”来加焊就可以让电脑暂时恢复正常了——
因为加焊属于高温作业,温度足以让芯片内部破裂的BGA焊球熔化并再次接触到基板,如此一来信号就恢复了通路。
但是毕竟材料之间的CTE差异一直存在,底部填充胶遇到高温仍然会再度失效,所以要不了多久同样的问题就再度浮现了!
当发现这一问题后NVIDIA迅速找到了另一家日本化工巨头H公司出品的高Tg产品3**0。
从TDS可以看到,3**0的Tg温度高达132度,几乎比U****1高出了一倍。这也意味着底部填充真正实现了对BGA焊球的全天候保护。
H公司3**0底部填充胶TDS
现在终于有彻底的解决方案了!NVIDIA立刻向OEM和ODM厂商推荐采用高Tg温度底部填充胶3**0的无缺陷版本芯片“NB8E-SET”。
同时NVIDIA也将高铅BGA焊球更换成了共晶BGA焊球。
但是由于聚酰亚胺钝化层没有办法在后段添加,为了把库存消化掉,NVIDIA在这里向自己妥协了。
当然,在之后的一段时间里,NVIDIA又经历了3**0底部填充胶较高的模量撑坏芯片的事故,最终在2010年又重新换回了低Tg但模量比较安全的U****1……
05
—
思考
其实,NVIDIA当初之所以选择低Tg的U****1也是有他的苦衷。因为在那个时期很少厂商具备生产高Tg底部填充材料的技术。
由于Tg温度和模量呈现正相关关系,Tg温度一旦提升势必导致硬度的上升,如此一来底部填充胶自身的应力就会对BGA焊球产生很大的撕扯,反而没有办法更好的保护机械结构。
如果我们拿目前最先进的底部填充胶汉高乐泰 ECCOBOND UF 1173做一下比较就会发现,十几年前那些左右互搏看似无解的物性,现在都实现了和谐与统一!
材料技术的飞速发展已经大大降低了制造业的学习成本与失败风险!
不同时间上市底部填充产品的比较
从这个意义上来说,NVIDIA的“显卡门”也可以说是材料技术实现突破前的必然了吧!
其实用聚酰亚胺做为钝化层是行业通行的做法,这可以大大提高晶片的应力保护效果。
但是聚酰亚胺很昂贵,它会使每片晶圆成本增加约50美元,并且导致良率降低。
对于30美元售价的显卡,晶片的成本不能超过几个美元!因此哪怕在每个芯片上增加零点几美元都要非常慎重,因为这可能意味着利润率由正转负。
所以最终,为了节约这部分聚酰亚胺成本,NVIDIA付出了多得多的成本。
其实NVIDIA一开始选择N公司的8****1是出于谨慎考虑的。因为这款材料已经在这个领域应用多年,NVIDIA此前也一直在使用,可以说是存在于原物料资源池的安心之选。
也正因如此,也许是考虑到冷热循环之类的测试太过耗时,NVIDIA没有再进行系统性的可靠性验证。
但是精密电子的敏感性就决定了产品整体性非常之高,看似微小的改变实则会有牵一发动全身的巨大影响!
在此贴出专业可靠性方案机构赛宝实验室的底部填充材料评价方案,可靠性验证的复杂程度与重要程度可见一斑了吧!
本文选自“胶我选”数据库