本文是作者在赤兔APP“数据挖掘”小组内在线分享的记录的第【1】部分。
分享主题:Data Science学习分享会
分享时间:2016年4月18日晚8:00-10:00
分享地点:赤兔“数据挖掘”小组,线上
分享嘉宾:黄逸洲,来自美国华盛顿大学信息管理专业的研究生,专攻数据科学。
我当初选择这个领域一部分原因是因为在一亩三分地论坛上看到的几篇介绍数据科学前景文章,另一部分原因就是觉得这个领域是未来的方向。
当我开始学习的时候,就对它需要的知识广度印象深刻,抱着自己选择的路,跪着也要走完的心态,在这条不归路上一直走到现在,觉得热爱大于辛苦,学到了很多东西,借此机会分享给大家。
首先我想问大家一个问题,你们眼中的数据科学是什么?在此,我给了一个我老师上课时给出的定义:
数据科学实际上是基于大数据来回答问题和为决策提供支持的一系列方法:首先是发现问题,然后是获取数据,设计分析方法,实现分析,以及交流结。
下图中,陈丹奕老师给出了详细的流程图:
数据科学最有名的例子,就是target和沃尔玛的例子:target的数据分析团队成功预测女孩怀孕,并且将孕妇所需商品的广告单寄到女孩家,而女孩的父亲却不知道自己的女儿怀孕。
还有沃尔玛的啤酒与尿布的例子,通过数据分析得出,将尿布与啤酒摆在一个货架上,啤酒的销量会得到很快的提升。
最有趣的就是这张图,它来自纽约时报的实时数据分析,表示的是美国共和党几大候选人在各州的得票情况:
相信大家都对川普很感兴趣,他在这次的选举活动中遥遥领先。现在美国人谈论最多的就是难道川普要领导美国,图中也很清楚的显示了川普的领先优势。纽约时报的数据分析和数据成像一直是非常优秀的,也是我一直非常喜欢的。
更多数据科学的例子见下图:
个性化的推荐想必大家每天都会看到,不管是电影推荐还是商品推荐,其背后的理论基础都是大数据分析和机器学习。
我们生活中的这些便利,都是数据科学的贡献。