首页
学习
活动
专区
工具
TVP
发布

机器学习的一些经验总结

人工智能,机器学习是目前最火的岗位,这次非常荣幸请到了高大师入驻我们的工作圈,他目前在国内某著名安全产品公司工作,从事机器学习方向的开发研究,能力非常强,可以说是全能选手,而且对机器学习在安全产品领域的研究非常深入!下面来听听大牛对机器学习的一些实战干货总结!

1.训练数据

直觉:训练数据越多,模型越好

事实:

一些情况下,太多的训练数据可能会在某一类别中引入矛盾的样本

机器学习算法很难从中总结出知识

案例:

某反垃圾邮件引擎,用了300多万的样本,耗时3天多得到的模型并不好,当减少到样本5万的时候,却得到了更好的模型

2.样本标注

直觉:样本标注大部分是正确的就可以了

事实:

错误标注是决定一个机器学习项目成功与否的关键

我们需要纠正错误的样本标注

案例:

200多个万的样本中仅有8个标注错误。因为这8个非常小的标注错误,导致模型的准确率是60%左右,纠正了这极其小的8个标注错误,模型准确率达到了80%左右

3.特征值越多越好

直觉:选的特征值越多,模型效果一定会越好

事实:很多情况下,少数相对独立的特征值效果反而更好

4.特征排序

直觉:特征排序和筛选不必要,Xgboost能搞定一切

事实:

Xgboost实际效果受到相互矛盾的特征,低质量的特征和过多的特征的影响

基本的特征排序和选择方法对改善模型同样有用

案例:

模型一:

Feature amount: 233

Precision:99.29%

Recall:94.14%

FPR:0.02%

模型一:

Feature amount: 41

Precision:99.54%

Recall:96.23%

FPR:0.01%

5.一切数据驱动

直觉:使用专家知识选取特征已经过时,一切数据驱动

事实:

很多情况下机器学习能够知道那些特征是否重要,但领域知识能告诉我们属性或者特征对达标是否有用,是不是噪声!机器学习本身是很难去除它们的。

很少属性不适合做为特征让机器去学

6.测试集好就好

直觉:测试集表现越好,模型越好

事实:测试集和真实世界有gap,很多时候测试集训练出来的好的模型,上了真实数据并不一定效果很好,需要优化特征工程。不要太相信测试集的效果。

限于篇幅,内容没有完全展开,机器学习未来还是一个非常火的方向,在一线城市很多AI的岗位30-50w年薪是非常正常的价格。所以多听听大牛说,认识一些大牛很重要。找工作内推也好,搭建人脉也好对自己的发展很重要。

近100个公司的200名Python小伙伴

都在Python工作圈

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181214B0GKOZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券