业界 | 数据科学家要先学逻辑回归?图样图森破!

大数据文摘编译作品

编译:王梦泽、笪洁琼 、夏雅薇

逻辑回归的结果很难解读,在真实的商业环境中考虑到你要跟你的老板或同事解释模型的时候,有可能自己都无法解释清楚,所以慎用纯粹的逻辑回归,尤其是对于初学者来说,这是作者对逻辑回归的建议。

近期,数据科学圈出现了不少“数据科学家应最先学习逻辑回归”的声音。作为一名与市场营销人员、销售人员、工程师一起工作的“孤立的”统计学家,我深深反对这一说法!

有许多工作尤其是生物统计领域都要求从业人员能够掌握并运用逻辑回归的知识。如果你在大学曾学过一些逻辑回归,这会对你很有帮助,但对于初学者来说,它并不是入门课程。

在我的职业生涯中,我可以灵活地选择使用哪些方法和工具,如今许多从业者都处于类似的环境中。

因此有一定的几率,初学者在对逻辑回归的原理了解很少的情况下,使用像黑盒工具一样的逻辑回归,然后把自己拉入深坑。

下面列出了5条逻辑回归应放在最后学习的理由:

  • 存在着上百种不同类型的逻辑回归,一些适用于分类变量,一些适用于特定的分布(例如泊松分布)。专家在使用时也常常感到困惑,初学者和你的老板更会如此。
  • 转换因变量后(通常是比例或二值型因变量,例如本文观点正确/错误),问题就变成了线性回归。虽然纯粹主义者声称实际的逻辑回归模型更精确,然而相较于模型的精确度,数据的质量才是至关重要的。如果数据有20%的噪声,或者理论模型是对实际情况的粗略估计,那么模型精确度高出1%并没有实际用处。
  • 除非能够妥善处理(例如使用ridge或Lasso回归),否则在噪声、缺失值和脏数据的影响下会导致模型过度拟合及缺乏稳健性(使用例如梯度优化等技术的迭代算法)。
  • 逻辑回归的系数不容易解释。当你对决策者或者其他部门解释模型时,很少有人能够理解。
  • 最好的模型通常会将多种方法混合到一起,以便能尽可能多的获得/解释差异。在我作为数据科学家长达30年的职业生涯中,从未使用过纯逻辑回归,但我开发出了一项更加稳健且便于使用及编程的混合技术,结果也容易解读。它将“不纯的”逻辑回归和“不纯的”决策树混合在一起,效果十分显著,尤其是对于你的“不纯”数据评分时。详情请戳。

相关报道:

https://www.datasciencecentral.com/profiles/blogs/why-logistic-regression-should-be-the-last-thing-you-learn-when-b

【今日机器学习概念】

Have a Great Definition

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-05-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

深度学习如何影响运筹学?

本文为知乎答主,运筹学博士郝井华在「深度学习如何影响运筹学?」问题下的答案,AI 研习社获其授权转载。 这个问题比较前沿一些,原来看起来相关性不那么强的技术领域...

2814
来自专栏AI科技评论

只训练一次数据就能识别出物体,谷歌全新 AI 算法“单次学习”

近日,谷歌 DeepMind 团队发现了一种新的方式对深度学习算法进行调整,新算法可以只通过一个例子就能识别出图像中的物体,该算法被称为“单次学习”。 ? 一套...

3625
来自专栏腾讯技术工程官方号的专栏

艺术滤镜视频来了!腾讯人工智能首创深度网络学习视频

腾讯18周年庆当天,腾讯人工智能实验室(AI Lab)首次发布深度网络学习视频案例——《青春无畏,冲动不止》庆生视频的艺术滤镜版本 今年风靡业界的Prisma以...

2037
来自专栏深度学习与数据挖掘实战

干货|专访ImageNet冠军颜水成团队,如何将比赛成果在企业中落地?

2017 年 7 月 26 日,计算机视觉顶会 CVPR 2017 同期举行的 “超越 ILSVRC” Workshop 上,宣布计算机视觉乃至整个人工智能发展...

1462
来自专栏机器学习算法与Python学习

值得收藏的27个机器学习的小抄

1344
来自专栏专知

【深度】可解释性与deep learning的发展

来源:知乎 -Qs.Zhang https://zhuanlan.zhihu.com/p/30074544 【导读】大家好,我叫张拳石,UCLA博士后。目前在朱...

4296
来自专栏人工智能头条

专家观点碰撞:深度学习能否取代其他机器学习算法

1474
来自专栏机器之心

Yoshua Bengio首次中国演讲:深度学习通往人类水平AI的挑战

11 月 7 日,Yoshua Bengio 受邀来到北京参加第二十届「二十一世纪的计算」国际学术研讨会。会上以及随后受邀前往清华时,他给出了题为「深度学习通往...

582
来自专栏量子位

Kaggle冠军冲顶经验分享:怎样11步搞定机器学习竞赛?

最近,一名来自湖南长沙的小哥仅用15个月时间,就冲上了Kaggle用户排行榜的首位,他的ID是Bestfitting。

1203
来自专栏CSDN技术头条

2017年深度学习十大趋势预测

本文作者曾经多次预测了技术发展的趋势,最近的一次预测是“2011年软件发展的趋势与预测”。10项预言中,准确地命中了6项,比如JavaScript VM、NoS...

1948

扫码关注云+社区