TalkingData张夏天:不要专职算法工程师,要数据科学家

张夏天,曾在IBM中国研究院,腾讯数据平台部,华为诺亚方舟实验室任职。对大数据环境下的机器学习,数据挖掘有深入的研究和实践经验。现任TalkingData首席数据科学家,主要工作有三块:一是大规模机器学习能力的建设,二是基础数据的深度挖掘和整理,三是支持不同业务的数据挖掘和业务建模的工作。前两个工作都是为了支持第三个工作的高效进行。

CSDN:您对算法是怎样的理解?以及相比于产品决策团队、数据工程师,算法工程师在一个公司里如何安排好自己的位置?

张夏天:算法是机器学习的核心,所有的研究都是为了最后设计出更好的算法。机器学习的进步也是被一种又一种新的算法的出现而推着前进。当然,任何一种算法都有自己的局限性,在实际工作中我们不能指望算法帮我们解决所有问题,不要过度的崇拜算法。实践中,对问题的理解,对数据的理解,对数据的清洗,处理和加工带来的影响可能比算法更大。我们团队还比较小,没有专职的算法工程师,目前公司的各种数据应用尝试又比较多,所以我的团队要求大家向数据科学家的方向发展,而不仅仅是实现算法、使用算法。

数据科学家是个很炫酷的职位。我个人理解数据科学家需要具备理解业务的能力,洞察数据的敏锐性,懂机器学习理论和算法,又具有一定的编程开发能力,能够独立运用各种技术解决数据驱动的业务问题。

CSDN:目前TalkingData的算法团队情况是怎样的?又是如何支持公司各个产品线和服务线的?

张夏天:目前我们的团队还在发展中,目前一共是5个人,除了我以外都还比较年轻,现在也在努力引进一些资深的人才。因为我们是数据公司,在很多产品和服务中就少不了数据挖掘能力的支持。对工具类产品,我们团队主要提供算法库的支持,同时也会跟产品经理一起梳理算法在产品中如何应用。而对于数据类的产品,我们会参与产品核心算法的研究。我们目前有很多的数据应用服务的项目和探索,在这块我们团队会根据需求,在项目不同的阶段参与进来提供支持。

CSDN:能够简单介绍下TalkingData大规模机器学习的应用情况?

张夏天:我们目前的大规模机器学习是基于Spark平台的,目前主要用于Lookalike(相似人群)挖掘。我们累积的数设备数已经超过23亿,在这么大的池子中做Lookalike是一个规模很大的问题。为了支持这个应用,目前可以做到10亿级别的样本,数百万的维度下将LR算法10分钟训练完。不过为了支持这个能力的产品化,我们还在想办法能够将算法效率进一步提高,个人的目标是10秒以内。

CSDN:在这个信息完全碎片化的时代里,大数据的出现让整个广告行业日新月异。广告主从漫无目的量化式投放成功过渡到精准到个人的精细化投放。这种小成本大收益的模式得益于大数据背后精准的数据支撑,而算法在这类的实际应用中有着怎样或多大的作用?

张夏天:算法当然是起到了非常关键的作,精准投放比盲投提高一倍的ROI不是什么难事。算法的精度、效率直接决定了最决定了广告的效果和收益。精度非常好理解,效率也很重要呢? 因为广告市场的变化是很快的,每时每刻都有新的广告进来,老的广告退出,用户兴趣也在发生变化。一个再精准的算法模型,如果训练时间太长,训练出来的模型就已经落后于实际情况了。所以趋势是模型的更新速度越来越快,现在已经向Online Learning的方式在发展了。精准投放是一个系统工程,算法仅仅只是其中一环,更基础的还是数据。算法是屠龙刀,但是还得有龙屠,我们公司最主要的还是在养龙。

CSDN:如果想从事算法方面的工作,能够推荐一些有效的学习方法?以及结合多年工作,可否推荐一些工具或学习库。

张夏天:我对我们团队的要求是不要先一下就去看算法,先把概率与统计好好复习一遍,再来看机器学习方面的书。我认为机器学习实际是统计学的衍生,主要是为了解决多维问题。如果不理解本质而只追求方法,就很难有很大的提高。以前做实验我用weka比较多,后来都是处理大规模的问题,基本都只能靠自己写,这方面也难给出什么推荐。

CSDN:可否推荐一份机器学习和数据挖掘的书单?

张夏天:我看过的觉得比较好的有《统计学习理论》、《统计学习方法》、《数据挖掘:概念与技术》、《Machine Learning: A Probabilistic Perspective》、《模式分类》。

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【机器学习】“机器深度学习”的未来:读懂人类的情感

“机器学习”的概念自上世纪50年代出来以来就备受科技界的关注,而近年来“深度学习”逐渐成为机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神...

2736
来自专栏新智元

【解读2015】自然语言处理:持续探索,稳中前行

2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展...

3395
来自专栏人工智能头条

语音识别真的比肩人类了?听听阿里 iDST 初敏怎么说

1452
来自专栏灯塔大数据

荐读|电信大数据关键技术挑战

电信大数据来源于运营商通信网络平台的BSS和OSS,沉淀了海量用户7个维度的信息:1维用户真实ID、1维行为数据、1维社交数据、1维时间数据和3维空间数据。运营...

3567
来自专栏AI研习社

一篇文章告诉你如何成为数据科学家

通常来说,年轻人都很容易立志成为什么,例如成为一名科学家,然后又很快放弃。这一方面是因为摆在他们面前的诱惑太多,同时也因为成为一名科学家真的很不容易。 这一点放...

3439
来自专栏镁客网

谷歌新开放了一个数据库,要让机器自动识别视频中的动作行为 | 技术

1650
来自专栏大数据文摘

业界 | Kaggle问卷主成分分析,16000万数据从业者面临这5类挑战

1496
来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙回顾|线性回归&逻辑回归

线性回归&逻辑回归 活动时间:2017年12月27日QQ群视频分享 活动介绍:TMQ在线沙龙第三十七期分享 ? 本次分享的主题:线性回归&逻辑回归。 共有73位...

2158
来自专栏AI科技评论

免费中文版!谷歌机器学习速成课程今日上线!

AI 科技评论按:谷歌的人工智能学习平台横空出世,还有谷歌的免费中文机器学习速成课程! ? 今天,谷歌在以往介绍自己的 AI 产品、开源代码和研究成果的 ai...

3618
来自专栏量子位

机器学习产品宝典:这是谷歌内部总结的七大要点

李林 若朴 编译整理 量子位 报道 | 公众号 QbitAI 产品经理新入机器学习坑,应该注意什么? Google的用户体验设计团队总结了7点,量子位编译如下:...

3444

扫码关注云+社区