专栏首页人工智能头条TalkingData张夏天:不要专职算法工程师,要数据科学家

TalkingData张夏天:不要专职算法工程师,要数据科学家

张夏天,曾在IBM中国研究院,腾讯数据平台部,华为诺亚方舟实验室任职。对大数据环境下的机器学习,数据挖掘有深入的研究和实践经验。现任TalkingData首席数据科学家,主要工作有三块:一是大规模机器学习能力的建设,二是基础数据的深度挖掘和整理,三是支持不同业务的数据挖掘和业务建模的工作。前两个工作都是为了支持第三个工作的高效进行。

CSDN:您对算法是怎样的理解?以及相比于产品决策团队、数据工程师,算法工程师在一个公司里如何安排好自己的位置?

张夏天:算法是机器学习的核心,所有的研究都是为了最后设计出更好的算法。机器学习的进步也是被一种又一种新的算法的出现而推着前进。当然,任何一种算法都有自己的局限性,在实际工作中我们不能指望算法帮我们解决所有问题,不要过度的崇拜算法。实践中,对问题的理解,对数据的理解,对数据的清洗,处理和加工带来的影响可能比算法更大。我们团队还比较小,没有专职的算法工程师,目前公司的各种数据应用尝试又比较多,所以我的团队要求大家向数据科学家的方向发展,而不仅仅是实现算法、使用算法。

数据科学家是个很炫酷的职位。我个人理解数据科学家需要具备理解业务的能力,洞察数据的敏锐性,懂机器学习理论和算法,又具有一定的编程开发能力,能够独立运用各种技术解决数据驱动的业务问题。

CSDN:目前TalkingData的算法团队情况是怎样的?又是如何支持公司各个产品线和服务线的?

张夏天:目前我们的团队还在发展中,目前一共是5个人,除了我以外都还比较年轻,现在也在努力引进一些资深的人才。因为我们是数据公司,在很多产品和服务中就少不了数据挖掘能力的支持。对工具类产品,我们团队主要提供算法库的支持,同时也会跟产品经理一起梳理算法在产品中如何应用。而对于数据类的产品,我们会参与产品核心算法的研究。我们目前有很多的数据应用服务的项目和探索,在这块我们团队会根据需求,在项目不同的阶段参与进来提供支持。

CSDN:能够简单介绍下TalkingData大规模机器学习的应用情况?

张夏天:我们目前的大规模机器学习是基于Spark平台的,目前主要用于Lookalike(相似人群)挖掘。我们累积的数设备数已经超过23亿,在这么大的池子中做Lookalike是一个规模很大的问题。为了支持这个应用,目前可以做到10亿级别的样本,数百万的维度下将LR算法10分钟训练完。不过为了支持这个能力的产品化,我们还在想办法能够将算法效率进一步提高,个人的目标是10秒以内。

CSDN:在这个信息完全碎片化的时代里,大数据的出现让整个广告行业日新月异。广告主从漫无目的量化式投放成功过渡到精准到个人的精细化投放。这种小成本大收益的模式得益于大数据背后精准的数据支撑,而算法在这类的实际应用中有着怎样或多大的作用?

张夏天:算法当然是起到了非常关键的作,精准投放比盲投提高一倍的ROI不是什么难事。算法的精度、效率直接决定了最决定了广告的效果和收益。精度非常好理解,效率也很重要呢? 因为广告市场的变化是很快的,每时每刻都有新的广告进来,老的广告退出,用户兴趣也在发生变化。一个再精准的算法模型,如果训练时间太长,训练出来的模型就已经落后于实际情况了。所以趋势是模型的更新速度越来越快,现在已经向Online Learning的方式在发展了。精准投放是一个系统工程,算法仅仅只是其中一环,更基础的还是数据。算法是屠龙刀,但是还得有龙屠,我们公司最主要的还是在养龙。

CSDN:如果想从事算法方面的工作,能够推荐一些有效的学习方法?以及结合多年工作,可否推荐一些工具或学习库。

张夏天:我对我们团队的要求是不要先一下就去看算法,先把概率与统计好好复习一遍,再来看机器学习方面的书。我认为机器学习实际是统计学的衍生,主要是为了解决多维问题。如果不理解本质而只追求方法,就很难有很大的提高。以前做实验我用weka比较多,后来都是处理大规模的问题,基本都只能靠自己写,这方面也难给出什么推荐。

CSDN:可否推荐一份机器学习和数据挖掘的书单?

张夏天:我看过的觉得比较好的有《统计学习理论》、《统计学习方法》、《数据挖掘:概念与技术》、《Machine Learning: A Probabilistic Perspective》、《模式分类》。

本文分享自微信公众号 - 人工智能头条(AI_Thinker),作者:钱曙光

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 常见机器学习算法汇总:人工神经网络、深度学习及其它

    用户1737318
  • 同样是罪犯,36岁比19岁危害小,这是算法的逻辑?

    我们可以看到它们在世间发挥作用,我们知道它们正塑造我们周遭的各种事物,但我们大多数人并不知道算法是什么——或者算法如何影响我们。

    用户1737318
  • AlphaGo背后的秘密——深度增强学习(DRL)前沿算法解析

    用户1737318
  • 数据挖掘10大算法详细介绍

    在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下。

    用户3003813
  • 一文看懂自动驾驶中应用的机器学习算法

    安妮 唐旭 编译自 KDnuggets 量子位出品 | 公众号 QbitAI 机器学习算法已经被广泛应用于自动驾驶各种解决方案,电控单元中的传感器数据处理大大提...

    量子位
  • 干货 | 17个机器学习的常用算法!

    根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习...

    用户2769421
  • GBDT算法(详细版)

    一、前言 通过之前的文章GBDT算法(简明版)对GBDT的过程做了大概的讲解,我们可以了解到GBDT是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起...

    智能算法
  • 这四类机器学习算法,在自动驾驶中常用

    机器学习算法已经被广泛应用于自动驾驶各种解决方案,电控单元中的传感器数据处理大大提高了机器学习的利用率,也有一些潜在的应用,比如利用不同外部和内部的传感器的数据...

    商业新知
  • 自动驾驶中常用的四类机器学习算法

    机器学习算法已经被广泛应用于自动驾驶各种解决方案,电控单元中的传感器数据处理大大提高了机器学习的利用率,也有一些潜在的应用,比如利用不同外部和内部的传感器的数据...

    刘盼
  • 一文看懂自动驾驶中应用的机器学习算法

    机器学习算法已经被广泛应用于自动驾驶各种解决方案,电控单元中的传感器数据处理大大提高了机器学习的利用率,也有一些潜在的应用,比如利用不同外部和内部的传感器的数据...

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券