前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【总结】梦想与前行-一名数据人的自白

【总结】梦想与前行-一名数据人的自白

作者头像
机器学习AI算法工程
发布2018-03-09 16:27:36
6260
发布2018-03-09 16:27:36
举报

前段时间看微博话题讨论有些迷茫,有些已经被同行确认无疑的观点竟被反复强调,比如”数据挖掘/分析要懂业务”、”产品是数据价值变现的一条有效渠道”,观点没错,但听多了的感觉就好比一些健康养生专家在阐述吃饭对于健康的重要性,有些会质疑自己的认识,难道别人一直都不是在吃饭?还是说难道自己一直是个另类?任何观点与认识都是来自个体的经历,经历是前因,观点是后果,后果不重要,了解前因才是关键,只有知道前因,才能更好的对观点进行学习、转化与吸收。因此就有了这篇文章的动因,分享一下个人的数据从业历程,有些主观,但不失真实,抛砖引玉,期待交流。

一、不懂商业,技术就仅仅只是技术

正如微博名“@数据挖掘_PHP”所示,在没进入数据行业之前,我是一名标准的PHPer,在一家公关公司从事营销传播的技术支持工作。有一次项目是网站建设,在进行类目规划时,发现竟然还有数据监测和咨询公司,不明觉厉,数据监测?咨询?西服领带?空中飞人?哇~高端大气上档次!从那以后开始对数据公司的关注,一个月后进入到一家舆情咨询公司A,开始了数据之旅。需要提及的是,在公关公司我的认识是,不懂商业,技术就仅仅只是技术。商业是什么?商业是别人有某种愿意付费交换的需求,如果只停留在后端,你永远聆听不到这种需求,再大的金矿此刻也只是一朵浮云。 有一个深刻的经历,当时为了丰富网站,需要采集百度内容,不停的拼接模拟关键词结果url,无意发现可以更改搜索框的下拉联想,然后就没有然后了,仅是知道这么个事而已,后来在与客户闲聊的过程中得知,他们一直在付费寻找这种操作方式,通过改变下拉联想来增大品牌曝光(变相广告)或者减小品牌曝光(危机处理)。从这个例子来看,技术的高深与价值的大小不是正比关系,需求是技术转变为价值的催化剂,试想下如果没有听到这个需求,这个信息可能就驻留在我的脑海,直至遗忘,当然,在技术人眼里,这件事确实没啥可傲娇的技术难度。作为一名程序员,为了所谓的性能、封装、代码洁癖,在技术海洋里深钻,或许可以成为一代大牛,同时也会被大公司绑架,毕竟不是所有IT公司都有大流量并发的,这种带有上吊性色彩的自我感动使得码农一边在拼命各种学习,然后一边在呐喊”难道我的未来就是coding么”,不,我不要这样!

二、不懂包装,数据就仅仅只是数据

在A公司主要负责舆情数据的采集工作,通过关键词的定制汇集各大网站的信息进行汇总、统计,进而提供给分析师撰写报告。说的直白点,通过网络上的公开信息,进行搜集、整理、二次包装出新的内容阅读物并进行售卖,一套商业流程结束。也就是说,在舆情产品的生产体系里,原材料是免费的,产品是付费的,如何提高筹码就是中间的搜集、整理环节, 于是便学会了商业包装、学会了产品设计、知道了方法论。

  • 商业包装:从源数据到售卖产品,中间还有很多步骤,如何让报告更充实,显得对得起它的标价,商务流程、外观美化、话语话术起码得专业;
  • 产品设计:数据是公开的,用户是感性的。不同的用户群有不同的认知与使用习惯,得像市场小贩一样,看人给菜,原料就那么点数,需要变出不同的组合维度,以供飨享;
  • 方法论:不是随随便便在搜索引擎上搜到几篇企业的负面信息就得提醒企业去做危机预警的,预警的多了就不叫预警,一定得有方法、有科学依据,同时还得给出具体的危机公关建议;

就这样,按照码农的自我画像,一天不coding,蛋蛋碎到疼,时间长了,就有些不安,同时自认为对舆情的商业了解比较深刻,1、舆情监测只能告诉你有病,无法做到我有药2、如果体检能挣1份钱,治疗能挣6份钱,国人更喜欢有病求医,常态体检是达官贵人(上市公司)的宠物,体检与治疗不能一起抓,否则公正性受质疑3、舆情监测不是技术派的玩物,商业环节是主要瓶颈。随后去了一家第三方互联网数据服务公司B,负责网站分析产品的开发和设计。

三、不懂执行,策略就仅仅只是策略

网站数据不同于舆情数据,在原材料获取上有一定的竞争优势,通过在各大媒体网站上的js布码,收集到用户的网站浏览数据,从而进行网站分析产品、营销策略、流量认证、网站优化、广告效果等业务产品输出,在这里,编码能力得到进一步提高,以前是用php进行web开发,这里是用php+shell+awk进行日志文件的统计计算,数据更大了,对性能要求也更高了,更重要的是我的知识体系里又多了一个分支-------网站数据,由于性格上的某些缘故,同时还被安排了产品经理和售前的工作任务,直接对接客户了解需求、设计指标、规划产品。其中,个人最有成就感的是负责某网站的音视频评估项目,指标不多,有效播放次数(播放时间超过3分钟的为一次有效播放)、播放时长、独立IP数、独立用户数和来源,时间维度分为刻、时、日、周、月,考核对象为节目、栏目和分发渠道,网站下分多个栏目,每个栏目有自制内容节目,这些内容节目在网站上有直播、点播和视频播放三种分发渠道,在手机APP上也有分发渠道,该项目就是通过收集这些节目在分发渠道上的用户行为反馈数据,来给网站考核栏目组、各栏目组考核节目组使用。这里有几个难点:

  1. 播放时间超过3分钟的为一次有效播放,因此需要改写收码js,在播放状态时每一分钟回传一次心跳数据,用来判断播放时间是否超过3分钟;
  2. 数据可以累加,大范围=小范围之和,某栏目的某月有效播放次数等于该月该栏目下的所有节目在各分发渠道的有效播放次数之和;
  3. 临界值处理,如果某个有效播放跨时间临界值了,9:58-10:02,播放时长4分钟,算做一次有效播放,但在时报里,9点时段的播放时长为两分钟,10点时段的播放时长也为两分钟,各自都不计为有效播放次数;
  4. 移动终端的回传码定制;

毕竟考核涉及到利益,因此在指标计算以及数据的公平性上要求更加严格,数据上的多1少1,影响的是客户对数据公正上的存疑,容不得半点马虎,每月最头疼的事就是检查各种维度的交叉对比,看看是否一致,是这个项目教会了我对数据的敬畏。

类似的项目做多了,困扰也来了,按理说数据产品是要跟客户做价值交换的,客户购买炒股软件是想要挣钱的、购买网站分析产品是想提高(购买)转化的,但是逻辑不通,如果真能达到目的那数据公司还卖产品做什么?直接做电商就是喽,包括最近一些线下交流,不少同行也同样为此困惑,自己辛勤付出的分析报告到底能为公司/客户带来多少的价值收益?内心自我认可,可现实无法评估,只能继续重复。我的感受:数据分析是指将隐没在数据中的信息,进行集中、清洗、提炼并发现策略的过程,产出是策略,策略是否有效,需要检验,在给出策略的同时给出执行建议过程,并协商好按照这样的执行过程最后达到什么状态则意为策略有效,有了这样的生产和检验流程,数据究竟是不是马后炮也就显而易见了,不懂执行,策略就仅仅只是策略。这里需要提及的是,也许有人会问,如果分析人员比执行人员更懂执行了还需要分析人员干嘛?我这里有个比较扫兴的看法:数据分析本非难事,实质是思维逻辑方法,理想的情况下是应当被融入到产品、运营、开发、财务、老总等一系列职业角色之内,只是因为数据收集、整理比较费时费力,那就招一个人负责数据收集和整理吧,边缘与博弈,于是就发展到现在这样一个尴尬的局面。

四、不懂人文,机器就仅仅只是机器

现在,我在一家微博数据创业公司,拿网站数据、舆情数据和微博数据做下对比,如果说舆情数据侧重信息,网站数据侧重用户(行为),微博数据则是信息与用户的统一体,更重要的是,这里的分析维度偏重社科人文,举个例子,网站数据是以用户的浏览行为来定义cookie的兴趣,微博数据则是以用户的关注对象、微博内容、互动行为来定义兴趣,微博用户关注了什么人,看到了什么内容,因此发了一条怎样的感慨,被他的小伙伴们进行互动影响又变成了怎样的认识,他关注的人为何发布这样的信息?是否也经历了这样的影响过程?。。。。。这,绝不是简单的线性思考方式,更多了一些复杂人性的味道,不懂人文,机器就仅仅只是机器,社交网络还有很多答案没有解决,包括分析维度和产品模式,也这是因为此,凭添了许多探索与乐趣。

五、总结

回顾一下,我的数据从业历程是从舆情咨询公司切入,那里有稍微学术点的指标体系和方法论;然后在数据服务公司提升,那里有落地的技术实现方法;最后在微博数据创业公司回炉,将之前的知识体系进行应用和整合。一直靠近商业交易环节,所以更能深刻体会业务和产品对于数据变现的重要性。大数据变化的只是数据的存储和技术处理环节,对于商业,最终比拼的还是产品创新和商务运营能力,如何让数据实打实的产生价值,简单粗暴回馈商业,愿与各位一同探索,迎接数据行业真正的春天。

就在快收尾的时候,看到Q群有人分享了这样 一句话,“人生是一场艰难的考试,很多人没考好是因为他们一直在抄别人的答案,却没注意到每个人的卷子都不一样...”,本文的目的就是展开我的考卷,也期待您的考卷!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档