当前位置：首页 > 杂谈 > 正文内容

工业机器学习的真相：别被PPT骗了，这行水深着呢

2026-06-25 16:28:31东方不败杂谈1

上个月去了趟宁波的冲压件厂，看见他们质检线上坐着六个小姑娘，人手一把游标卡尺。一天摸二万片零件。我问主任为啥不上自动检测，他苦笑：去年试过一套机器学习方案，光打光就折腾了俩月，最后发现良品率波动是因为隔壁车间的空调开了。

这就是现实。

都2024年了，工业里的机器学习项目，大概有三成死在数据采集阶段。信不信由你——传感器装歪了的，数据传丢了的，标注人员把缺陷标成优品的……什么幺蛾子都见过。我今天不聊算法本身，聊聊算法怎么才能活过第一个月。

预测性维护？先搞清你的数据能不能用

很多人一谈工业机器学习就是预测性维护，好像给设备安几个振动传感器，模型就能算出轴承啥时候坏。天真了。我亲眼见过一个案例：某变速箱厂商，天天采集振动信号，存了半年多，跑模型时发现所有样本的标签全是“正常”——因为故障样本太少，根本没法训练。总不能故意把设备搞坏吧？最后他们用迁移学习，从别的型号上借来数据才勉强上线。但说实话，效果也就那样。

这里头有个很反直觉的点：工业场景里，非平衡数据才是常态。一万个小时的运行数据，可能只有五分钟的故障瞬间。你要是按传统的分类准确率去评估模型，永远会掉坑里——模型只要把所有情况都判为正常，准确率就99.99%，有啥用？

工厂设备振动传感器安装位置示意预测性维护

所以我现在每到一个项目现场，先问三个问题：
一，你们故障样本到底有多少？
二，不同工况下的数据分开了没？别把空载和满载混一块。
三，标签谁标的？是维修工手工记的，还是系统自动抓的？

第三个问题尤其要命。人工记录的时间戳经常不准——设备报警到真正停机可能差好几天，维修工凭记忆补单子，日期能写错。这种数据喂给模型，你觉得能学出什么？我跟团队吵过好多次，最后干脆上了边缘计算模块，直接在PLC侧把振动、温度、电流信号对齐，标签自动生成。折腾是折腾，但总算没白费劲。

质量检测：摄像头和算法谁更靠谱？

相比预测性维护，机器视觉在工业里落地快得多——毕竟图像数据相对好获取，深度学习那一套也成熟。但这行有这行的魔幻。

去年帮一家注塑厂做外观缺陷检测，手机壳上的缩水痕。传统方法用模板匹配，死活扛不住来料批次间的颜色差异。换成卷积神经网络（CNN），确实灵敏了，但又把很多水口纹当成缺陷，搞得质检员天天追着调试小哥骂。后来怎么解决的？我们故意在训练集里加了一批人工造出来的“假缺陷”——用3D打印做了几十个不良品，涂上不同油墨再拍照。模型才终于学会区分。

注塑件外观缺陷机器视觉检测产线高清图

你看到没？工业场景的脏活，全在数据上。调参反而简单。有个做PCB板检测的哥们告诉我，他们光收集不同光照条件下的焊点图像就花了三个月。因为车间早晨和傍晚的阳光角度不一样，再加上冬夏气温对元器件颜色的影响……

听到这儿我直接打断：你们没装遮光罩？
他叹气：装了，老板嫌贵。

我：……

问答：实战中的血泪

问：中小企业上机器学习，最大的坑是什么？

答：数据基础设施。大企业可能有数据湖、MES系统、完整的数据链路，但很多小厂连像样的传感器都没有。最典型的是那种老式冲压机，PLC都还是继电器逻辑的，你让它怎么取信号？硬加传感器吧，成本比算法还高。有一个折中方案：直接在电控柜加装电流互感器，通过电机电流波动间接判断模具状态，我们实测下来准确率能到85%左右。虽然不高，但总比没有强。另外提醒，千万别被卖算法平台的忽悠了，什么“免代码”、“拖拽式建模”，你数据基础不牢，再傻瓜的工具也白搭。❗

问：模型跑得好好的，一到实际产线就拉胯，怎么办？

答：这种现象太普遍了，原因多半是数据漂移。比如去年夏天训练的数据，冬天用就崩了，因为润滑油的粘度随温度变了，导致设备振动特征完全偏移。解决办法：一是做在线学习或定期重训练，二是建立工况基准——比如每周自动采集一次空载振动值作为参照，把特征标准化。极端情况下，还得上领域自适应算法。我们给一家轴承厂做的项目，甚至把车间空调的温度和湿度都作为特征输入模型，这才稳定住。总之，工业模型不能是静态的。