前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据科学家】LInkedin数据科学家如何工作

【数据科学家】LInkedin数据科学家如何工作

作者头像
陆勤_数据人网
发布2018-02-27 11:07:01
5930
发布2018-02-27 11:07:01
举报

在互联网企业中,LinkedIn是一家出了名的“慢公司”,但LinkedIn也是最成功的社交网络,用户品质、广告价值都是行业翘楚,秘密在于LinkedIn有一个高效的数据科学家团队。

作为社交网络, LinkedIn并不是最大的,也不是生长最快的。 成立于2003年的LinkedIn, 花了500天, 才达到了100万用户。 然而, 作为全球最大的职业社交网络,LinkedIn的后劲十足。今天, LinkedIn每6天就新增100万用户。 平均每秒有两个新增用户。 每年, LinkedIn的用户搜索量达到了42亿。 LinkedIn的数据分析团队每天要分析200TB的数据来更好地了解用户。

为什么人们现在如此的关心统计和数据,为什么数据科学家成了最性感的工作, 最近,在TiE的峰会上, LinkedIn的首席数据科学家Manu Sharma 接受了采访, 揭秘了LinkedIn的数据分析的工作。

问: 能介绍一下LinkedIn的数据科学吗?

答: LinkedIn就是用户的职业社交网络, 在这个网络上, 如果人们想找你却找不到那么你就可能失去一个机会。 因此, 对用户来说,保持状态和资料的时时更新非常重要。 LinkedIn的业务, 就是建立在对这些数据进行分析的基础上的。 为了达到对数据实时快速处理的目的,我们开发了自己独特的算法, 叫Metropolis。它可以每天实时处理10亿条数据。 具备开源的解决方案 Voldemort,Kafka,和Zoie 那样的功能。

数据科学家需要具备好奇心和直觉。 他们需要想的问题是:我能用这些数据来做什么呢? 我需要问什么样的问题?这些数据能告诉我什么? 他们还需要足够的直觉来了解他们所采用方法的局限性。 数据科学家的工作包括, 采集数据, 整理数据, 建立正确的模型, 测试模型, 还要有一定的编程能力。 一个数据科学家需要具备这些技能, 而这些技能也是一个初创企业在建立它的数据科学家团队所需要的技能。

问: LinkedIn数据应用的重点是那几个方面?

答:LinkedIn的数据应用主要在三个方面:

1. 开发创新的数据产品

2. 从内部数据发现趋势和机会

3. 推动业务成长

比如”推理算法”被用来根据用户的数据进行一些信息的推测。 这一点对于将来的产品设计尤其重要。比如说, LinkedIn就采用了“推理算法”推出了“你可能知道的人”这个功能。 这对增加用户粘性和提高用户口碑传播有极大的帮助。 LinkedIn是最早推出这一功能的。 现在, 这个功能已经成为了社交网络的必备功能了。

此外, 通过用户在资料里关于技能的描述文本,我们通过文本提取和文本分析, 建立起一套技能的关键子字典。 通过聚类算法, 可以产生很多很有意思的发现来帮助我们提高服务或者推出产品。

此外, 通过对各个行业的用户数据分析,还可以对行业或者整个经济进行一些预测。(编者: 比如说某个行业进行了裁员, 或者某些行业的招聘计划增加等等) 这样做的一个优点是, 这些数据不是来自与问卷调查,这些是用户实实在在的行为数据。 所以,在美国总统经济政策报告里, 这些数据也会被采用。 这些数据同样的对企业的发展也很重要。

问:数据分析最佳实践的原则是什么?

答:

1. 数据量越大越好

2. 原始数据比加工数据好

3. 数据标准和数据质量非常重要

4. 简单模型比复杂模型要好

5. 建模就是要不断进行试错。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-11-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯问卷
腾讯问卷是专业的在线问卷调查平台,支撑了腾讯核心业务的⽤户、市场、产品研究工作。平台提供基于数据收集的专业调查研究解决方案,覆盖问卷调查、信息上报、在线测评、在线考试、360度评估、投票打卡等工作场景,致力于为客户提供高效的洞察决策工具。同时平台还拥有超百万级的真实样本用户,可以提供高效、精准的问卷有偿投放服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档