【04期】我的数据心经:人工智能、机器学习和深度学习的关系
更新时间20161129
三者是包含的关系;
人工智能(Artificial Intelligence)为机器赋予人的智能;
机器学习是一种实现人工智能的方法,其最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测;
深度学习是一种实现机器学习的技术,如神经网络算法等。
个人体会:人工智能在上世纪50年代就提出,为何近期才火爆?个人觉得关键是“计算能力”。摩尔定律揭示,当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。随着芯片计算能力的增强,分布式大数据计算架构发展,挖掘算法的完善,通过对海量数据的挖掘,使机器具备“智慧”成为可能。另一个重要原因是在互联网推动下,人类信息化程度得到长足提升,数据纬度和数量剧增,语音和图像识别技术也逐渐成熟。未来,机器将拥护很高的智慧,这是必然趋势。
【03期】我的数据心经:欺诈发现的三种思路
更新时间20161121
个人体会:对业务的深度理解,是发现欺诈行为的非常重要前提。此前在中国移动从事短信精准营销时,发现参与活动的“活跃”用户,其实是套利的用户(渠道分销商屯放电话卡,通过参与活动获得话费、优惠券和套取手机等方式获利,通称卡商)。针对他们的行为分析,发现他们的被动接电话次数和通话时长很低。后来在营销活动上,要求目标用户要锁定用户群(非全量,避免新号码套利),对号码有效性设置一定的门槛(比如被叫次数和被叫通话时长等指标要达到一定要求),从而规避套利风险,实现效果非常好。
在基于业务理解情况下,通过异常值分析、分类模型预测等,可以拟补通过业务经验无法发现的套利行为。
来源:张文彤、钟云飞在人大论坛的SPSS数据挖掘培训视频
标签:欺诈识别、数据挖掘
摘录时间:2016年9月1日
【02期】我的数据心经:模型验证
更新时间20161116
个人体会:模型效果验证除了以上指标外(常用的是准确率、覆盖率和增益图),在落地实施时一般要进行效果评估,通常是分三组(模型组、随机组和经验组)实施。经验组是业务和产品人员根据工作经验筛选出的目标用户。三组比较效果时,要考虑抽取比例一样(比如都抽取1%)或规模一致(比如都是100万)。
来源:张文彤、钟云飞在人大论坛的SPSS数据挖掘培训视频
标签:模型验证、流失预测、数据挖掘
摘录时间:2016年9月1日
【01期】我的数据心经:数据十戒
更新时间20161115
数据十戒
1、一切从定义问题开始,问题问好了,答案就在那里。
2、在万物皆数据的年代,要以“假设数据都能获取”为前提去思考问题。
3、数据助力企业的“四部曲”:描述现状、深入诊断、预测趋势、指挥行动。
4、“快+准”的数据,让我们可以从已知规律中寻找价值。
5、“广+乱”的数据,给予我们从发现中获取颠覆过去规律的能力。
6、大数据不是独奏,而是连接无处不在的数据。
7、数据技术就是加速和积累(数据、分析、服务)的能力。
8、大数据生态的链接需要建立标准与规范。
9、大数据是诸多小数据的组合。
10、数据是一种信仰。
个人体会:数据分析是个累活,数据分析师在企业中的价值远未被开发和使用,累但未体现价值,是大部分数据分析师的感受。在大数据趋势下,数据分析师会发挥更大的作用,数据化运营与运营数据,促使其自身价值被得到认可。但这个过程是漫长的,无信仰,不数据,需要坚持。
来源:书《决战大数据(升级版)》 、作者:车品觉 、P6
标签:大数据、分析心得
摘录时间:2016年7月1日