文章/答案/技术大牛

发布

机器学习的一些经验总结

文章来源：企鹅号 - 菜鸟学Python

人工智能，机器学习是目前最火的岗位，这次非常荣幸请到了高大师入驻我们的工作圈,他目前在国内某著名安全产品公司工作，从事机器学习方向的开发研究，能力非常强，可以说是全能选手，而且对机器学习在安全产品领域的研究非常深入！下面来听听大牛对机器学习的一些实战干货总结！

1.训练数据

直觉:训练数据越多，模型越好

事实:

一些情况下，太多的训练数据可能会在某一类别中引入矛盾的样本

机器学习算法很难从中总结出知识

案例：

某反垃圾邮件引擎，用了300多万的样本，耗时3天多得到的模型并不好，当减少到样本5万的时候，却得到了更好的模型

2.样本标注

直觉:样本标注大部分是正确的就可以了

事实:

错误标注是决定一个机器学习项目成功与否的关键

我们需要纠正错误的样本标注

案例：

200多个万的样本中仅有8个标注错误。因为这8个非常小的标注错误，导致模型的准确率是60%左右，纠正了这极其小的8个标注错误，模型准确率达到了80%左右

3.特征值越多越好

直觉：选的特征值越多，模型效果一定会越好

事实：很多情况下，少数相对独立的特征值效果反而更好

4.特征排序

直觉：特征排序和筛选不必要，Xgboost能搞定一切

事实：

Xgboost实际效果受到相互矛盾的特征，低质量的特征和过多的特征的影响

基本的特征排序和选择方法对改善模型同样有用

案例：

模型一：

Feature amount: 233

Precision:99.29%

Recall:94.14%

FPR:0.02%

模型一：

Feature amount: 41

Precision:99.54%

Recall:96.23%

FPR:0.01%

5.一切数据驱动

直觉：使用专家知识选取特征已经过时，一切数据驱动

事实：

很多情况下机器学习能够知道那些特征是否重要，但领域知识能告诉我们属性或者特征对达标是否有用，是不是噪声！机器学习本身是很难去除它们的。

很少属性不适合做为特征让机器去学

6.测试集好就好

直觉：测试集表现越好，模型越好

事实：测试集和真实世界有gap,很多时候测试集训练出来的好的模型，上了真实数据并不一定效果很好，需要优化特征工程。不要太相信测试集的效果。

限于篇幅，内容没有完全展开，机器学习未来还是一个非常火的方向，在一线城市很多AI的岗位30-50w年薪是非常正常的价格。所以多听听大牛说，认识一些大牛很重要。找工作内推也好，搭建人脉也好对自己的发展很重要。

近100个公司的200名Python小伙伴

都在Python工作圈

发表于: 2018-12-142018-12-14 11:00:45
原文链接：https://kuaibao.qq.com/s/20181214B0GKOZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

机器学习的一些经验总结

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐