张智林,美国加州大学圣迭戈分校电子与计算机工程系博士,曾在三星北美研究院担任高级工程师,现为AT&T首席数据科学家。凭借在算法上的创新,他用三年实现了个人财务自由,如今带领着AT&T(美国电话电报公司)数据科学团队,向被谷歌、脸书等巨头霸占的广告市场,发起了挑战。
近日,中美两国贸易摩擦愈演愈烈。虽然身在美国,张智林一直都很关注着国内的各项动态。从芯片之争到股市行情,在这位数据科学家看来,一波又一波的中美大小事,让他更加意识到“创新”的重要性。
“中国在很多基础领域的创新还非常薄弱,这使得我们在贸易战中被美国掐着脖子,这在我看来是一件很‘屈辱’的事。”张智林说道。
对于张智林自己来说,“创新”始终都是他生命中的关键词,贯穿了他职业生涯的每一个阶段。
▍喜欢“唱反调”的博士
张智林认为,所谓创新,就是去找到别人没有做过的方法,想出别人没有想过的东西。
在张智林身上,这种创新精神,有时候是以“唱反调”的方式表现出来的。在美国读博时,他主要研究压缩感知领域的课题。在这一领域,当大部分人都在想办法利用信号的稀疏性去解决问题时,喜欢“唱反调”的张智林却反其道而行之,将发力点放在解决非稀疏信号的压缩感知问题。在连导师都质疑情况下,他成功解决了难题。因为这个观点而发表的两篇期刊论文在一年后均得到了该期刊的最高引用率奖。
敢于挑战、乐于创新,一直都是张智林的特质。
在中学时代,他就创办了当时全省最大的青少年天文协会,发表了多篇天文科普文章,举办过市里的天文照片展览;他还喜欢收藏古代钱币,举办过个人古代钱币展览。“天文、地理、生物、历史、物理、化学、任何一样活动都在玩儿。”用张智林自己的话说,他的涉猎十分广泛,交叉学科的知识促进他形成了自己的创新思维。
张智林认为,创新就像“上山采果子”:如果跟着大部队走,是采不到很多果子的,只有走很少人走的路,才能采到又大又好的果子。喜欢“唱反调”也成为他对创新精神的注脚之一。
博士毕业后,张智林进入业界工作,逐渐将自己的研究中心转向了数据科学的算法领域,从算法创新的角度切入产业问题,寻找创造性的解决方法。
▍用创新算法实现财富自由
离开校园后,张智林开始在三星北美研究院工作。工作的内容主要是信号处理和机器学习,比如智能手表的心跳信号检测、智能家居中电器耗电检测和故障检测。
为了将工作积蓄进行投资理财,2014年开始,张智林利用业余时间编写人工智能交易系统来进行股票交易。他用自己掌握的信号处理和机器学习技术从零开始编写量化交易的算法,完全靠算法实现自动化的股票交易。
(图片说明:一种常见的基于AI的股票模型预测算法逻辑。人工智能算法如今已经被广泛运用到金融市场中。图片来源:IKonwFirst)
“看到股价起起伏伏,我非常自然地就想到用信号处理和机器学习技术来做一个人工智能的交易系统。”说到这里,张智林对数据科学的热忱溢于言表:“股票市场中的数据很复杂,非常有挑战性,这激发了我的兴趣。一直以来我都是一个非常喜欢挑战的人,别人越做不出来的东西我越感兴趣。”
虽然大多数人认为股票市场很难预测,但在张智林看来,股价可以看做是受到宏观经济形势、产业发展前景、公司经营状况等多种因素干扰的信号,可以用自己掌握的信号处理技术来分析。喜欢“唱反调”的张智林迎难而上,利用业余时间研究出许多创新的算法。
非金融专业的出身,帮助他规避了很多先入为主的思想,因此张智林能够完全从复杂的数据集的角度去分析股票市场,利用机器学习、信号处理的知识去解决问题。
他用累计上千小时的业余时间,最终造就了一个基于人工智能的股票交易系统。这套系统从2015年开始,达到超过100%的年回报率。张智林用自己的积蓄作为本金在股市投资,三年后实现了财富自由。2017年初他从三星北美研究院辞职,成立了做量化基金的公司 Data Legend Capital Management。
▍“弯道超车”的关键
2017年4月,张智林接受了AT&T公司的邀请,加入了这家全美最大的移动运营和互联网服务商,帮助其发掘数据的巨大价值。
在AT&T,他主要负责电影、电视的广告方面业务。在今年六月AT&T收购了时代华纳后,每当时代华纳推出新片后,张智林的团队根据数据库建立机器学习的模型,来预测哪些用户最有可能观看这些电影,再将电影上映的消息推送给他们用户。
以电影《正义联盟》为例。作为一部超级英雄类电影,这一题材在过去20年的美国市场上非常流行,积累了大量人气。在做电影推广前,张智林会在AT&T的用户数据库中,用机器学习算法寻找喜欢超级英雄题材的用户,结合他们观看电视和其他电子设备(例如手机)的习惯,决定推送电影广告的时间和方式。最后还可以根据其他数据来判断目标用户有没有去电影院观看电影,以此来评估广告效果,继而优化推广效果,不断提升推荐算法的效果。
(图片说明:《正义联盟》海报,这部由时代华纳推出的超级英雄电影就利用了AI推荐算法进行前期推广宣传;图片来源:IMDb)
在美国,电影的推广费用占据总成本的比例很大。基于人工智能的推荐算法能让广告实现更精准的投放,把电影广告推送给感兴趣的用户,从而大大提高广告效果,降低广告成本。
得益于这类技术,AT&T可以降低很多资讯内容的价格,给用户带来了更多利益。谈到AT&T未来的发展目标,张智林信心满满地说,希望借助数据科学让AT&T能在广告市场的占有率提升到很大的份额,能够与脸书、谷歌、亚马逊等公司抗衡。长期以来,美国线上广告业务60%以上的市场份额被脸书、谷歌、亚马逊等巨头占有,而AT&T的排名目前靠后。
为了实现“弯道超车”,张智林希望在如何挖掘用户的行为和喜好上做更多的算法创新。相比于其他广告巨头,AT&T也有自己的优势——数据源丰富。因为AT&T提供了众多服务,比如电信网络,电视,智能家居等,因而具有多种多样的用户数据。这些数据的多样化和独特性,为算法创新提供了巨大的空间。
做广告要了解用户,通过其历史数据分析出消费习惯、行为模式。谷歌的搜索数据需要结合用户登录Gmail的信息才能作为用户的历史数据,而大多数用户并不会登录邮箱再搜索,数据没办法跟特定用户联系起来,历史数据只能靠用户电脑中的cookie,但现在政府限制了对cookie数据的使用。至于脸书,虽然拥有用户的文本、图片、视频信息,可以通过挖掘这些数据来分析用户喜好倾向和行为模式,但是仍旧有局限性。
相比前两者,AT&T的数据来源则非常多,比如来自手机,网络,和电视的使用数据等。这三类数据基本覆盖了用户一天24小时的生活。在法律允许的范围内,可以通过这些数据更好地分析出用户的一些行为习惯,消费习惯等信息,从而投放更精准的资讯内容、广告。
通过从零开始编写算法,而不是单纯采用现有的算法和工具包,张智林的团队找到了很多巧妙的研究用户行为的方法。他认为,人工智能算法上的创新,要抓住数据的特殊性去开发针对性的算法,才能得到最好的效果。而从算法层面的创新,是AT&T实现弯道超车的关键。
▍基础的算法创新,势在必行
在人工智能和数据科学的热潮下,市场上出现的“数据科学家”越来越多。而且,在机器学习等领域已经开发出了很多商用的、免费的工具包,比如谷歌的Tensorflow、Python的各种库等,“调包”越来越容易。这让成为“数据科学家”的门槛仿佛也在降低。
但张智林不这么看。他觉得:如果没有亲自推导过这些算法,只是知道怎么用,是非常危险的。“以前数据量小的时候很多结果可以验证,现在很多大数据得出的结论很难去验证。如果做不到对算法的深刻理解,根本意识不到结论出的问题,甚至意识不到用了错误的算法。”
张智林认为,要成为真正优秀的数据科学家,首先要对算法有非常深刻的理解,能够推导出它的数学公式,并能够亲自动手编写主流的、重要的算法代码,结合真实数据做做实验,了解算法的性能。
在他看来,现阶段的人工智能,也有被过分鼓吹的迹象,比如深度学习技术。
(图片说明:Gartner公布的2017年全球新兴技术成熟度曲线,其中机器学习、深度学习等正处于泡沫的膨胀期;图片来源:Gartner)
“其实深度学习技术有很多局限性。深度学习技术在‘噪声’非常小的时候发挥得很好,因而在许多图像、视频、语音的处理中很有优势。但深度学习在‘噪声’非常大的时候效果就不好了。并且,如果在实际问题中出现样本训练时没有出现过的噪声类型和干扰,就会出现很多问题。而在很多报道中都把这些局限性或多或少地忽视了,因此我认为深度学习在未来会遭遇瓶颈,大家对它的热度会适当降下来,过段时期又会再继续发展起来。”
现在的AI,有点像2000年左右的互联网。张智林表示,未来中国的数据科学家需要多设计出一些更加基础的且有影响力的算法,在人工智能这个庞大的新兴产业,只有做出更多根本上的创新,才能让中国的发展不受制于别国。
“在人工智能领域,我们太喜欢去做应用层面的创新,但是在算法上的创新非常少。人工智能领域里很多关键性的、可以开辟一个分支的算法几乎没有是华人做出来的。”张智林有些惋惜地说道。算法创新不仅是他自己的追求方向,也是他对中国人工智能未来的期许。
在他的博客中,有一句话恰如其分地映衬着他不断创新的勇气:Man cannot discover new oceans unless he has the courage to lose sight of the shore,意思是“勇士敢于离开海岸,才能发现新大陆”。
作者 | 陈静:chenjing@dtcj.com
编辑 | 程一祥
题图 | 站酷海洛
▍数据侠门派
张智林,美国加州大学圣迭戈分校电子与计算机工程系博士,曾在三星北美研究院担任高级工程师,现为AT&T首席数据科学家。2013年至2015年在三星北美研究院工作期间,多次获得三星成就奖和论文奖,具有在信号处理、机器学习、数据科学、计量金融等领域有十年多的研究和从业经验。在 IEEE 会刊和顶级学术会议等发表机器学习、信号处理、数据分析相关高质量论文50余篇,论文引用突破2400多次,其中四篇论文获得IEEE期刊最高引用率奖。