电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果

缘起

2020年末,为了学习PyTorch,决定以最小成本买一台带GPU的台式机。经过一个多星期的调研,最后决定以3000元,买一台带GTX1070 8G显存的二手机器。当时,二手GTX1070显卡的价格在2000-2500元之间。因此机器买得很便宜。

2021年初,我把机器配置好后,没有时间学习PyTorch的书。就把机器给学生跑实验了,结果用了半年后,机器出问题了。固态硬盘频繁报错。机器就闲置了半年。2021年末,寒假,我把机器重新用起来,跑PyTorch书中的例子。1070的8G内存,轻松搞定书里的代码。后来,我发现1070的计算性能其实比我自己的预期要好很多。用它来跑调试代码用的小模型,和寻找最优训练参数的中等规模模型,一点问题都没有。当找好参数后,再在更好的机器上,跑发表论文需要的实验。这时,我就打算好好地打理打理1070,把它真正用起来。

由于固态硬盘报错,我就换了一块1T的高质量固态硬盘。以为,这台1070可以一直用下去了。结果,用了没几个星期,固态硬盘又坏了。此时,我用nvidia-smi查看GPU状态时发现,GPU温度有90多度。不正常。此时,我才真正发现这台二手机器固态硬盘频繁报错的真正原因:GPU散热有问题。

在网上查阅了很多资料后,我尝试了当时我觉得已经很复杂,现在看来很简单的解决方案:更换GPU硅脂。在bilibili查看了很多换硅脂的视频后,我自己第一次拆开我的1070,并更换了硅脂。GPU温度降到85度。在运行实验代码1小时后,固态硬盘又坏了。我以为是硅脂没有涂对,又拆开1070两次,分别尝试把硅脂涂得更薄和更厚一些。温度还是下不来。我明白问题不是硅脂,是散热器老化了。

此时,我决定换散热器。花了两三天在京东和淘宝上,看遍了所有1070的散热器,联系了所有能联系的卖家。最后,找不到一款一模一样或者能用的散热器。此时,我在bilibili上,看到一个英国人跟他的GPU装上了一个超高、超大的CPU散热器。散热器是如此之大,以至于他无法把GPU放入他的机箱中。后来,在另一个视频中,他说他自己做了一个机箱。我机械学得不好,在这方面,也没有什么动手能力。因此,我不可能学他那样换我的1070散热器。但是,这个视频给了我一个思路:买不到GPU散热器,就换CPU散热器。

后来,我又在bilibili上找,找到一个人跟他的GPU换了CPU水冷的视频。他买了一个GPU水冷架,一百多元,一个CPU水冷,两百多元,更换后,GPU温度降到40多度。成本三百多,四百以内。我如获至宝,赶快找那个GPU水冷架,结果这个水冷架只支持公版1070。我的1070是非公版的,尺寸不对,用不了。

后来,我又在淘宝上找。找来找去后,我发现有人卖一个扣具,可以把CPU水冷头扣在GPU芯片上。如下图:

电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果

我如获至宝,立刻买了当时我能买到的最便宜的CPU一体式水冷,花了两百多元,接近三百元。量了水冷头尺寸后,下单扣具。以为只要把水冷头扣在GPU计算芯片上,就完工。

后来,经过三四周的折腾和反反复复,我才真正把GPU改水冷搞通。下面是我的经验总结:

一. 你需要下定决心,是否要改水冷,因为本方案会破坏你原有的散热器,是不可逆的。走上这条路,就没有回头路。如果你下定决心了,再动手。

二. 拆开你的显卡,确定需要散热的元器件。

需要散热的芯片,不仅仅是显卡核心计算芯片,在我的1070上,还包括了显存和供电元器件。确定的方法很简单:拆开显卡,散热器上会有散热贴,观察与散热贴对应的元器件。这些元器件就是需要散热的器件。

电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是我拆开后的1070显卡。左边散热器上的绿色的那些东西,就是导热贴。右边就是我的显卡。显卡中央,涂有硅脂的,就是GPU核心计算芯片,它是最需要散热的。核心计算芯片,左边是两块显存,右边是两块显存,下边是四块显存。每块1G,总共8G。它们也是需要散热的。
电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
上图中红线圈起来的地方,是显卡的供电元件。它们也是需要散热的。我对我的改动结果,最不满意的地方就是:最终方案中,温度最高的地方,就是这几个芯片。它们花费了我很多时间和精力,但是温度还是挺高,高负载长时间上电后,可能还是有六七十度。

三. 如果你确认所有需要散热的芯片,你都有散热方案了。再开始实施改散热方案。

四. 实施核心计算芯片和显存的散热方案。

实施这一步,你需要买CPU水冷和散热套餐。散热套餐的淘宝链接是:

https://item.taobao.com/item.htm?spm=a1z09.2.0.0.34572e8d62gF9u&id=627379940096&_u=a3dsm5p0c199

在选用套餐前,可以跟店主先联系一下,确定你的情况要买哪个套餐。我的是标准版二号套餐。费用:CPU水冷 300元 和 散热套餐 250元, 共550元。

该散热方案的原理是:用纯铜均热板把8块显存连接到一起;保证均热板与GPU计算芯片表面平齐;用水冷头同时为GPU计算芯片和均热板散热。具体操作过程请参考:没差定制N卡51毫米孔距改水冷方案英伟达RTX1660/2060/2070/super显卡改装水冷散热器通用51*51孔距教程显存与核心均热板通用扣具降温降噪_哔哩哔哩_bilibili

电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是我开始贴导热贴的图片。
电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是贴完导热贴,开始撕开导热贴薄膜时的图片。

做完这一步,下一步就是贴纯铜均热板。贴完纯铜均热板后,就是为GPU计算芯片和均热板上硅脂。我上的硅脂是我自己在京东上买的,2克50元。所以到这一步,我的成本已经到了600元。套餐里也提供硅脂,但是那个硅脂干干的,不容易操作。我尝试了多次,都没有掌握操作要领。所以我放弃了,用自己的硅脂。上完硅脂,就可以安装水冷头。然后在均热板的空白处,贴散热片。这一步大家请注意,正方形的散热片效果要比条形的要好。所以在重要位置,优先贴正方形的。

电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是这一步完成的效果图。

五. 实施供电的散热方案(慎重,不可逆!!!)。

供电,我没有使用淘宝套餐的方案。原因是:1. 我的卡在机箱中是散热器这一面朝下的。我怕用导热贴粘住的散热铜片粘不牢,时间久了,会掉下来。那将是一场灾难。2.淘宝套餐中的散热片贴上后,其散热面积很小,我怕散热效果不好。因此,在联系店主后,我采取了一个很大胆的方案。把原装散热器锯开,使用原装散热。我能实施这个方案的前提是:这部分散热片有两个螺丝,可以把散热片固定在GPU板子上。如果没有这两个螺丝,固定将成为一个很麻烦的事情。

电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是锯前的散热器。
电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是锯后,并完成安装的散热器。

这一步有个小插曲。我最初,使用原装散热器的导热贴来连接芯片和锯开后的散热器。结果上电测试后发现,供电的背板很烫。手指只敢轻轻一碰,就要缩回来,否则可能会被烫伤。而我摸锯开后的散热器,发现散热器是凉凉的。联系店主后,店主强烈要求我使用他提供的导热贴。我在网上查阅了很多导热贴的资料,并对比店主导热贴的描述。最后,我没有使用店主的导热贴,而是购买了这一款导热贴(【ThermalrightVALOR ODIN THERMAL PAD 95*50*2.0MM】利民( Thermalright ) 散热硅胶垫 (笔记本电脑显存南北桥导热硅胶片/15W/95*50*2.0MM)散热配件【行情 报价 价格 评测】-京东)。成本80元。此时,我的总成本上升到680元。

更换导热贴后,再次上电测试。此时,背板的温度降低了。温度最低的地方,就是温热。温度最高的地方,手指可以一直按在那个地方,感受温度。温度是烫的,但是可以忍受,不会发生烫伤。再摸锯开的散热器,此时散热器是温热的。说明我安装的导热贴是有效果的。我仔细观察温度的分布后发现:温度低的地方,对应显卡伴侣风扇的外延;温度高的地方,对应显卡伴侣风扇的中心。因此,我猜测,风扇中心缺乏有效的气流,因此散热效果不好。风扇外延,有很强的气流,因此散热很好。目前,我没有改进方案。大家要是有好主意,欢迎留言。

六. 上电测试。

电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是我上电测试时的图片。

经过多轮上电测试后,我的风扇是这样接的。您的方案需要您自己摸索。

1. 水冷供电,用水冷的转接头,直接接机箱电源,此时其转速最高。

2. 水冷散热器的两个风扇,从主板引出来的一接多头。

3. 显卡伴侣吹供电的风扇,接GPU的风扇口。

4. 显卡伴侣的另外一个风扇,接从主板引出来的一接多头。

5. 一接多头上,有一个标CPU的口,接这个口的风扇的转速,可以在机器中查到。我试过多种方案后,决定接水冷散热器的两个风扇中的一个。

接好后,在bios中调整CPU风扇转速。我调了一个对我来说,比较适合的转速。转速太高,GPU温度是很低,只有三十四五度,但是风扇太响,噪声太大,那个屋子里没法专心干任何事情。另外,风扇还会有轻微的震动,这肯定不好。转速太低,GPU温度会比较高,不过也不会超过五十度。我通过多次上电测试,找到了一个转速。温度控制在四十度左右,风扇声音也不大,而且还没有震动。

我显卡伴侣吹供电的风扇,没有接一接多头,而是接GPU是因为:1.我发现GPU的转速很稳定。2. GPU的转速比一接多头的转速要高,所以散热效果要好。而且,不知道为什么,那个风扇噪音不大,而且无震动,很平稳。

电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是我跑程序前GPU的温度,23度。
电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是程序刚刚开始跑起来时GPU的温度,32度。升了9度。
电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是程序运行120分钟后的GPU温度,41度。在跑程序的两个小时中,我多次检查GPU温度,从没有高过41度。有时,还能降到39度,此时GPU的负载有瞬时的降低。所以这个方案温度在40度左右。
电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是停止程序后,GPU的温度,34度。这个温度是几秒内从41度快速下降至此的。我猜想这是水冷的水的温度。此后,温度要好几十秒才能降一度。
电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果
这是停止程序6分钟后的GPU温度,26度。从34度又下降了8度。所以下降速度是一分钟一度多一点。

好的。这就是我改水冷的经历。谢谢大家的关注。

七. 改水冷的一点建议。

1. 大家下定决心后,操作的过程一定要仔细。因为操作步骤多,要求又高。因此,仔细是必须的。

2. 遇到新情况,多跟淘宝店主沟通,不要盲干、硬干。

3. 工欲善其事必先利其器。对于钱不多,又想从事深度学习科研的同学。你花在深度了解你使用的这块GPU卡上的时间,一定是非常值得的。就像我,花了总计680元和一个月的时间,把这个散热方案搞清楚,其回报远远大于有了一块能做计算的卡。未来,我买新卡和好卡时,该注意什么,配置方案如何权衡,甚至自己动手组机器都是可以的。那时,你为你自己和团队省下的钱,可能是几万、几十万。

4. 祝大家在有限的条件下,走出自己的一条深度学习之路。深度学习不是只有能买几十块A100或V100的大团队的垄断游戏。这样买机器的钱以百万和千万人民币计。我们只有几千块的人,一样可以有自己的深度学习生存之道。

免责声明:文章内容来自互联网,本站仅作为分享,不对其真实性负责,如有侵权等情况,请与本站联系删除。
转载请注明出处:电脑GPU占用不高但是温度很高?-电脑gpu过高会有什么后果 https://www.zentong.com/zt/8176.html

(0)
上一篇 2024年7月4日 23:36:58
中考“体考神器”氮泵热卖!有学生服用后送医洗胃,记者调查→
下一篇 2024年7月4日 23:37:19

联系我们

在线咨询: QQ交谈

邮件:362039258#qq.com(把#换成@)

工作时间:周一至周五,10:30-16:30,节假日休息