2017年,我的大数据的得与失!

2017年,就要过去了,这一年想了很多事,也实践了一些,取得了一些进展,但也留下更多遗憾,需要在2018年去解决,特此分享于你。

1、关于大数据变现

我们成立了对外拓客的模型团队,用精准去赢得客户,这是以前从来没有过的,走在正确的道路上很重要。

一般企业的短信营销点击率(里面有链接)能做到多少呢?我们希望能达到50%,这也许是个不可能完成的任务,但精准的驱动力还是太强了,在很多场景上,我们从1%开始做,迈到了5%,10%,直到34%,虽然没法达成终极目标,但对于精准的探索过程让每个人受益,每次客户的复购对于团队都是莫大的鼓励。

大家开始用越来越多的数据,而不拘泥于原有的那几个,开始借助机器学习的力量,让经验值变得更为科学,开始采用集体决策的方式,而不囿于个人的思维,开始更多的关注前端,与销售一起去见客户,开始从关注数据到关注场景,从用语到渠道到实时,开始越来越多的用数据说话,比如对于给商铺多大范围的人群投放能达到最高的性价比有了科学的数据支持。

2018年,如何规模化、快速、高效及低成本的进行精准拓客是模型团队的挑战,现在靠人工的方式还是慢了。

2、关于大数据建模

正如笔者在以前文章中提到过的,运营商需要围绕位置、内容、推荐、社交及时空建模让数据产生真正的价值,这是运营商规模化变现的未来。

在位置模型上,开始用MR数据来提升位置定位的精准度,从几百米提升到100米以内,取得了不错的开始,无论是在网格化、客流还是其他产品上,已经出现了MR精准定位的身影,但数据质量、定位精度及时效性上还是问题很多,10*10是下一步的目标。

在内容解析上,发布了神灯.行业知识图谱,从商品、视频、阅读、金融再到餐饮积累了4600万条知识,行业知识图谱让运营商的通话、短信及上网数据焕发出新的生命力,成为对外变现强有力的武器,这是需要坚持的道路,2018年会突破亿。

在智能推荐上,围绕视频业务探索了业界主流的算法,从关联规则到协同过滤再到矩阵分解,互联网成熟的东西一定要掌握在自己手中,研发的混合算法终于成为了咪咕爱看的智能化引擎,这对团队的在线推荐能力的提升至关重要,虽然这期间走了很多的弯路,还没有达到预期的效果,但也积累了一定的经验,2018年将在视频、阅读、彩铃等更多方面发力。

在时间序列上,虽然做了很多尝试,比如研发了天盾,但基于单类维度的时间序列的信息还是太少了,基础多维日志数据的模型整合任重而道远,同时大规模频繁项的挖掘对于平台和建模师的挑战很大,我们还缺乏足够的积累,这是下一步需要突破的方向。

在社交网络上,无论是朋友、亲戚等标签的打造、双网的挖潜以及企业成员的拓展,都有了些进展,但大规模社交网络的应用还缺乏好的场景。

今年还探索了TensorFlow,基于CNN跑通了地铁用户的识别,准确率在80%, 2018年需要再来,重点解决适合运营商的场景问题和训练成本问题。

3、关于大数据管理

2017年依托于千人计划,将DACP(数据管理平台)终于推广到一线了,让更多的人以较低的门槛可以访问到所有的数据并能自主的进行开发,这个事情的现实意义不亚于建设一个大数据平台,现在各省的大数据平台差不多,在平台建设喧嚣之后,未来见真功夫的将是大数据平台的运营。

DACP优化做了几个事情,一是贯通了DACP与标签库,实现了标签的一点快速发布,也就是你刚开发完一个模型,就可以按照规则快速转化成标签,所见即所得,以前人工配置标签的代价太大了,二是DACP与yarn等贯通了,可以高效的核查问题了,这个功能折腾了很久,数据管理平台建设的难点就在于要跟各类大数据技术组件结合,成为一个一站式平台,三是针对数据字典不可用的情况,打造了更为贴近用户使用习惯的业务字典,从微信群经常看到有人贴出字典的截图问问题,说明字典真的有人用了,看着是一小步,但实际是数据管理的一大步,四是DACP的运营起来了,通过常态化搜集一线需求,使得平台的优化有了持续的驱动力。

2018年要干几件事,一是机器学习的平民化,打造集成R、Python、SPSS、Spark等各类组件的敏捷挖掘平台,机器学习需要解决面向不同角色的高低搭配的问题、数据挖掘中台问题、快速数据输入输出问题及训练和发布隔离问题,二是模型的快速推广问题,希望能做到“一点发布,全网推广”,让PPT的最佳实践推广能通过平台化手段来解决,这个对于开发的规范性、平台支撑能力提出新的挑战,三是要让DACP的管理能力延伸到源系统,真正解决二级互动的问题,现在虽然在做了,但还远远不够。

4、关于大数据运营

今年启动了千人计划,组织了大数据建模和应用大赛,带动了一定的大数据应用氛围,其实没什么经验,唯一的经验就是努力去尝试,在实践中不停调整策略,敢提千人计划是通过调研得出的结论,让更多的部门参与是多方协调的结果,培训体系的建立首先是团队全员努力的结果。

今年从无到有建立了大数据运营团队,大数据头条电子期刊做了60多期,成为了一个很好的信息发布渠道,智慧运营分析月会对于解决一线的问题起到了作用,全省做数据的微信群的建立也非常不易,当时的一个困惑是不知道全公司哪些同事是跟数据相关的,如何去触达他们,现在也基本解决了。

2018年将从“千人计划”升级到“星火计划”,将在赛事创新、降低门槛、技能提升及快速复制上进一步提升,重点从“人员培养”逐步过渡到“培养+创新”的阶段,依托不断优化的数据中台,为公式的智慧运营赋能吧。

5、关于大数据运维

今年初步实现了大数据运维(调度、告警,故障等)的分层分级管理,以前做经分运维的一个问题是面对庞大的存量,很难有勇气把几万的作业再梳理一遍,虽然大多时候能满足外部要求,但出问题了基本也是救火方式,做数据的,自己的运维却不是用数据来量化管理,想来也是非常汗颜的。

现在运维不能说有多好,但起码在每天运维人员的日报中都有清晰的数字告诉真实状况,包括延迟了多少作业,为什么延迟,这让我们看到了问题,也有了继续改进的机会。

开始尝试在运维团队中引入开发人员,虽然效益还不明显,但觉得运维必须自己做开发才是解决日常问题的关键,比如当前的交换工具还不支持异构hadoop集群的交换,运维人员自己搞了几台机器写了一些脚本来临时解决问题,效率还是很高的。

随着大数据平台规模扩大和引入的组件越来越多,当前数据运维最大的挑战是技术储备不足,导致解决问题的效率不高,这是大数据平台技术百花齐放后带来的必然结果,也是未来相当长时间内需要重点解决的问题。

6、关于团队的进步

2017年有不少的新人加入,让我们的团队越加年轻,充满活力,应该来讲,新一代做数据的人赶上了好时候,他们有更多的机会去学习新的东西,并且学以致用,大数据变现为数据建模师成长提供了绝佳的环境。

笔者记得自己进公司后做的第一个逻辑回归是工作了3-4年后的事情,而现在的新人几个月内就开始用这些算法去解决现实的问题。

随着培训体系的完善和数据中台的建立,新人的培训成本显著降低,这跟以前还是有所不同。

还有一个变化是关于核心能力掌控的,以前运营商BI人员掌握最多的技能是SQL,更多时候却是承担需求管理员的角色,虽然短期来讲可以熟悉业务,但长期却会造成眼高手低的现象。

现在,团队的数据建模师回到了该有的技术路径上来,这算是对于历史最大的纠正,实践也证明这样做是对的,虽然也有合作伙伴的协作,但不再是我说你做,而是一起说分头做,在建模创新上成为了绝对的核心,团队通过了8个集团专利,获得了全国QC的大满贯,在通信建模赛和IT大赛程序题上都得了不错的分数,这在以前是没有过的。

Google团队协作的做法的确是蛮科学的,最近看了李开复的书也坚定了笔者的信心,大家一起办公的目的不是简单的接受任务,而是要通过有效的沟通碰撞出火花,这对于一只创新型团队至关重要,成员做事有时的问题不是不够努力,而是一开始的起点过低,浪费了大量精力和时间,这个道理看似简单,但做到不容易,搞大数据要求大家的心态是开放的。

2018年需要为创新打造更好的协作环境,大数据没有创新就没有未来。

7、关于自己的学习

看书,写作和交流是我能想到的除了实践外,最有效的学习方法,今天书虽然买了不少,读了不少,偶偶还写写笔记,但自己的学习还是不得法的,离大师们差很远,比如李敖买书总是买两本,一本会把精华部分撕下来进行消化,自己就没有这个耐心,不是说形式有多重要,也不是说要读多少,而是要将书的东西转成自身的一部分必然要下更多的苦功夫,不是翻翻书就可以了,这个境界也不是短期能达到的。

今年跑了很多地方,从保险到电力,从大学到论坛,结识了很多朋友,无论是培训和交流,其实都是对自己的一次考验,每次回来都会作一次总结,发现很多不足,以前看人演讲很轻松,但实际全然不是这样,没有深厚的底蕴,是说不出什么东西来的。

2018年,希望能更进一步,与大家共勉!

历史部分文章

《七幅图读懂企业的数据字典》

本文来自企鹅号 - 与数据同行媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏鹅厂优文

游戏人工智能 读书笔记 (三) 游戏和人工智能的相互影响

Chapter 1.3 Why Games for Artificial Intelligence

27470
来自专栏极限编程

Scrum需要一个双刃团队

1993年,Jeff和Ken开创了Scrum,至今已经有25年之久。如今敏捷开发也不是什么流行词儿,不少IT组织已经走在敏捷转型的路上,还有一部分组织则刚痛下决...

14340
来自专栏华章科技

揭秘微信用户行为习惯,用户究竟爱看什么?

只有深度了解用户的习惯和行为,才能做出最火的内容;用户为何选择分享某些信息,又为何对某些信息视而不见,了解这些有助于在注意力的竞争中占尽先机。

50010
来自专栏大数据文摘

跨界,圈外人该如何闯入数据科学家的世界?

21460
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(3)-CRM

那我们就废话少说,先从CRM开始。 CRM软件最早是Oracle(美国的一家软件巨头)公司的几个工程师出来创办的Siebel公司开发的软件产品,据说当年Orac...

33240
来自专栏悦思悦读

如何成为人工智能(AI)产品经理

首先,我们需要从一个大的历史背景和趋势上来思考:为什么会有AI产品经理这样一个岗位。

42740
来自专栏机器人网

什么是机器人?看看这些创业者怎么回答

“机器人(Robot)是自动执行工作的机器装置。它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动。它的任务是协助或取代...

31770
来自专栏腾讯研究院的专栏

从互联网到社交媒体

周烜    中国人民大学数据工程与知识工程教育部重点实验室副教授 互联网自上世纪90年代出现,经过20多年的发展,已经逐渐成为人类生产和生活不可或缺的组成...

35560
来自专栏大数据挖掘DT机器学习

研究生:数据分析/挖掘工作的疑惑?

数据分析/挖掘工作的疑惑 本人在读硕士一名,研二,理工科,所作工作于这两方面无关。但是,最近对这个方向特别感兴趣,真的很想从事这方面的工作。目前,正在自学中,以...

50850
来自专栏新智元

MIT教授称人类大脑并不比AI复杂,30年内机器智能将可复制爱与同情

【新智元导读】不久前,由IBM研发的AI辩论系统Project Dabater与人类辩论冠军进行了一场辩论,AI的表现令人印象深刻。从Project Debat...

10660

扫码关注云+社区

领取腾讯云代金券