为啥我训练的模型像没上过学的小孩？聊聊欠拟合那些事儿

大家在玩机器学习的时候，有没有遇到过这种崩溃瞬间：明明给模型喂了一堆数据，结果它做预测的时候，比你家宠物狗认路还不靠谱？比如想让它区分猫和狗，它却把兔子也归成猫类；想让它预测明天的气温，结果预测值跟实际值差了好几度，简直比天气预报还离谱。别着急骂模型 “笨”，这很可能是遇到了 “欠拟合” 这个捣蛋鬼。接下来咱们就用一问一答的方式，把欠拟合的老底给它掀个底朝天，保证让你看完笑出声，还能轻松搞懂这玩意儿。

欠拟合说直白点，就是模型没把数据里的规律学明白，就像一个学生上课走神，老师讲了半天重点，他连笔记都没记全，考试的时候自然啥也不会。比如你想让模型根据房屋面积、卧室数量来预测房价，结果模型只记住了 “面积大的房子可能贵” 这一个粗浅的点，完全忽略了地段、装修这些关键因素，最后预测出来的房价，跟实际情况差得能让你怀疑人生。

为啥我训练的模型像没上过学的小孩？聊聊欠拟合那些事儿

问：欠拟合这货到底是啥？能不能用大白话给整明白点？

答：这么说吧，欠拟合就像你让一个刚学会数数的小孩去做微积分题，他根本没那个能力搞懂里面的门道，最后只能瞎蒙。具体到模型上，就是模型太 “笨” 或者太 “简单” 了，数据里藏着的那些弯弯绕绕的规律，它一个都没抓住，所以做预测的时候，那结果能离谱到让你想把电脑砸了。比如你用一个简单的直线模型去预测股票价格，股票价格忽高忽低的，直线哪能跟得上啊，最后预测的结果跟实际价格比，差得能绕地球三圈。

问：那欠拟合和过拟合有啥不一样啊？别到时候搞混了，闹笑话。

答：这俩差别可大了去了！欠拟合是模型 “没学会”，过拟合是模型 “学魔怔了”。欠拟合就像学生没学好课本知识，考试的时候啥题都不会；过拟合呢，就是学生把课本上的例题、甚至练习题的标点符号都背下来了，结果考试换了个题型，他就傻眼了，因为他只会死记硬背，没理解真正的知识点。比如识别手写数字，欠拟合的模型可能连 “0” 和 “6” 都分不清，而过拟合的模型能把训练数据里某个写得歪歪扭扭的 “8” 认出来，却把正常的 “8” 当成了别的数字。

问：一般啥时候容易遇到欠拟合啊？我好提前防备着点。

答：那可太多时候了！比如你手头的数据少得可怜，就像你想教一个人做饭，却只给他看了一眼西红柿炒鸡蛋的图片，他能学会才怪呢，模型也一样，数据不够，它根本没办法总结出规律；还有就是模型选得太简单了，比如你想用一个只能处理线性关系的模型，去预测那些受多个复杂因素影响的事情，像预测一个人的工资，既要考虑学历、工作年限，还要考虑行业、职位，简单模型根本 hold 不住；另外，训练时间太短也会导致欠拟合，就像学生还没把知识点看完，老师就宣布考试了，模型还没学明白呢，就被逼着去做预测，结果能好才怪。

问：欠拟合的时候，模型在训练过程中有啥明显的表现不？我也好早点发现它。

答：那表现可太明显了，简直就是在 “摆烂” 给你看！首先，训练集上的误差特别大，比如你让模型预测 100 个样本，结果错了 80 个，那误差大得能冲破天；而且更气人的是，不管你怎么增加训练次数，这个误差就是降不下来，就像你督促一个不想学习的小孩写作业，你催得越紧，他越不想写，误差就是纹丝不动；还有就是在测试集上的表现也差得要命，因为模型在训练集上都没学好，到了新的测试数据上，自然更是两眼一抹黑，预测结果错得一塌糊涂。

问：我要是用了特别简单的模型，是不是肯定会欠拟合啊？

答：那也不是绝对的，得看情况。要是你要解决的问题本身就特别简单，比如根据一个人的身高来大致判断他是不是成年人（一般来说，身高超过 1.5 米大概率是成年人），那用个简单的线性模型就够用了，根本不会欠拟合；但要是问题复杂点，比如根据身高、体重、体脂率、血压这些数据来判断一个人是否健康，你还在用简单模型，那十有八九会欠拟合，因为简单模型处理不了这么多复杂的关系，就像你用一把水果刀去砍大树，根本砍不动。

问：数据多了是不是就能避免欠拟合了？我多找点头疼的数据喂给模型行不行？

答：理论上来说，数据多了确实能帮模型更好地学习规律，就像学生看的例题多了，解题能力也会提高一样。但这也不是万能的！要是你给的数据质量不行，比如里面全是错误的数据，像预测房价的时候，把 “100 平米” 写成了 “1000 平米”，把 “100 万” 写成了 “10 万”，那数据再多也没用，模型只会越学越歪；而且要是模型本身太简单，就算你给它再多数据，它也没办法理解里面的复杂规律，就像你给一个刚学会加减的小孩再多的乘除题，他还是不会做，所以光靠堆数据还不够，还得选对模型。

问：训练模型的时候，要是训练次数太少，会导致欠拟合，那我多训练几次，是不是就能解决欠拟合问题了？

答：你这想法有点太天真了！要是模型本身就不行，比如太简单，或者数据质量太差，就算你把训练次数增加到天荒地老，也解决不了欠拟合问题。就像一个学生根本没理解数学公式，你让他做一万道题，他还是只会瞎蒙，正确率根本提不上来。而且有时候训练次数太多，还可能会导致过拟合，本来模型还没太 “笨”，结果你硬逼着它学，它就学魔怔了，反而在新数据上表现更差。所以训练次数得适中，不能盲目地多练。

问：那遇到欠拟合了，我该咋整啊？有没有啥靠谱的办法能解决它？

答：办法还是有的，就看你能不能用对了。首先，你可以换个复杂点的模型，比如之前用的是线性回归模型，现在换成决策树、随机森林这些模型，复杂的模型能处理更多复杂的关系，就像给学生换了本更详细的辅导书，能帮他更好地理解知识点；然后，你可以多找些高质量的数据，补充到训练集中，数据多了，模型能学到的规律也更多，就像学生看的资料多了，解题思路也会更开阔；另外，你还可以对数据进行特征工程，比如从现有的数据中提取更多有用的特征，像预测房价的时候，从 “地址” 这个特征里提取出 “距离市中心的距离”“周边学校数量” 这些更有用的特征，让模型能更容易地抓住关键信息，从而减少欠拟合的情况。

问：换复杂模型的时候，会不会不小心搞出过拟合啊？我可不想刚解决一个问题，又来一个新问题。

答：你这担心太对了，换复杂模型的时候，确实很容易搞出过拟合！就像你给学生一本内容特别多、特别难的辅导书，他可能把里面的内容死记硬背下来了，却没理解，结果考试换个题型就不会了。不过也不用太害怕，有办法应对。比如你可以用正则化的方法，给模型 “减减肥”，限制它的复杂度，不让它学那些没用的 “死知识”；还可以把数据分成训练集、验证集和测试集，用验证集来监控模型的训练情况，一旦发现模型在验证集上的误差开始变大，就说明可能要过拟合了，赶紧停止训练；另外，交叉验证也是个好办法，能更全面地评估模型的性能，减少过拟合的风险。

问：特征工程是啥啊？听着挺高大上的，我这种新手能搞定不？

答：其实特征工程没你想的那么高大上，说白了就是 “给数据化妆”，让它变得更 “好看”，更能被模型理解。比如你有一个 “出生日期” 的特征，直接给模型用，它也看不懂，你可以把它转换成 “年龄”“出生年份” 这些更有用的特征；还有就是处理那些缺失的数据，比如有的样本里 “工资” 这一项是空的，你可以用平均值、中位数或者其他合理的方法把它填上，不然模型看到缺失数据可能会 “犯迷糊”。新手也不用怕，刚开始可以从简单的特征处理做起，比如处理缺失值、转换数据类型，慢慢积累经验，时间长了就能熟练掌握了，就像你刚开始学做饭，先从煮面条开始，慢慢就能做出大餐了。

问：要是我既不想换模型，又找不到更多数据，还有啥办法能解决欠拟合不？

答：办法还是有的，就是稍微麻烦点。你可以试试调整模型的参数，比如有些模型有 “复杂度参数”，你把这个参数调大一点，模型的复杂度就会增加，就能学到更多的规律了，就像给收音机调台，稍微调一下，就能收到更清晰的信号；另外，你还可以对现有的数据进行 “数据增强”，不过这一般在图像、文本这些数据类型上用得比较多，比如处理图像数据的时候，你可以把图片旋转一下、缩放一下，或者增加点噪声，这样就能 “造” 出更多的数据，让模型有更多的东西可学；还有就是可以尝试融合多个简单模型，把几个欠拟合的简单模型组合在一起，说不定能得到一个表现更好的模型，就像几个小学生一起做作业，虽然每个人都会错一些题，但凑在一起就能把大部分题做对了。

问：数据增强靠谱不？会不会把数据改得乱七八糟，让模型更懵圈啊？

答：数据增强要是用得好，那可是个好东西，要是用得不好，还真能把模型搞懵圈。比如处理手写数字图片，你把图片轻微旋转一下、稍微缩放一点，或者在图片上加点小小的噪声，这些变化不会改变数字本身的特征，模型还能学到更多不同形态的数字，对提高模型的泛化能力很有帮助；但要是你把图片旋转 180 度，或者缩放得太夸张，把数字都改得认不出来了，那模型学了这些 “乱七八糟” 的数据，肯定会更懵圈，预测的时候错得更离谱。所以做数据增强的时候，得把握好度，不能瞎改，要保证修改后的数据还能保留原来的关键特征。

问：我怎么知道我解决欠拟合的办法有没有用啊？有没有啥判断标准？

答：判断标准其实很简单，就是看模型在训练集和测试集上的表现。要是你用了某个办法之后，训练集上的误差降下来了，而且测试集上的误差也跟着降下来了，那就说明这个办法管用，欠拟合的问题得到了缓解；但要是训练集上的误差降下来了，测试集上的误差却升高了，那说明可能出现了过拟合，这个办法不太合适；还有就是要是训练集和测试集上的误差都没怎么变，那要么是这个办法不管用，要么是你没用到点子上，得再琢磨琢磨。另外，你还可以对比一下用办法前后模型的预测结果，比如之前模型预测房价差得特别多，现在预测的房价跟实际房价越来越接近了，那也能说明办法是有用的。

问：有没有啥简单的小技巧，能让我在训练模型之前，就尽量避免欠拟合啊？

答：当然有啦！首先，在选模型的时候，别一上来就选特别简单的模型，你可以先了解一下你要解决的问题的复杂程度，然后选一个跟问题复杂度匹配的模型，要是不确定，你可以先试试几个不同复杂度的模型，看看哪个模型的初始表现更好；然后，在准备数据的时候，尽量保证数据的质量和数量，数据质量不行的话，先花点时间清理一下，比如去掉错误的数据、填补缺失的数据，数据数量不够的话，看看能不能找到更多相关的数据；另外，在训练模型之前，你可以先对数据做一些简单的探索性分析，了解一下数据的特征和规律，这样在后续的特征工程和模型选择上，就能更有针对性，也能减少欠拟合的可能性。就像你出门旅游之前，先查好攻略，了解目的地的情况，这样就能避免很多麻烦。

问：欠拟合是不是只有新手才会遇到啊？老手是不是就不会犯这个错了？

答：那可不一定！就算是老手，要是不小心也会遇到欠拟合的情况。比如老手有时候会因为太自信，觉得某个简单模型就能搞定复杂问题，结果就栽了跟头；还有就是在处理一些不熟悉的领域的数据时，因为对数据的规律了解不够，选的模型或者做的特征工程不合适，也会导致欠拟合。不过老手遇到欠拟合的时候，能更快地找到问题所在，也知道该用什么办法去解决，而新手可能得摸索半天。所以不管是新手还是老手，在训练模型的时候，都得保持谨慎，多观察模型的表现，一旦发现欠拟合的迹象，就赶紧想办法解决，别让问题越积越大。

免责声明：文章内容来自互联网，本站仅提供信息存储空间服务，真实性请自行鉴别，本站不承担任何责任，如有侵权等情况，请与本站联系删除。