2019年数据科学的热门趋势

用户7623498

发布于 2020-08-04 11:37:22

3000

发布于 2020-08-04 11:37:22

文章被收录于专栏：决策智能与机器学习

翻译 | Ethon

今年有望成为人工智能技术爆发的一年。不信的话，可以看看有多少以AI为名义的创业公司；再看AI引起了多少科技巨头的关注或者那些顶级会议的核心议题。

AI现在无处不在—甚至现在AI本身都已经是个流行词了。但AI究竟该如何定义呢？现在还是个非常困难且有争议的话题。

最近几年的流行词

但显而易见的是，数据科学正在解决着实际问题。现在数据无处不在，处理及应用数据的方法也越来越多，并对社会产生着愈加深刻的影响。那么相对于其他“流行词”，数据科学又有着怎样的趋势？

显然数据科学，也持续受到人们的关注！

2018年数据科学在自主化、可解释性和商业化方面得到了长足发展，那么2019年的主要技术趋势会是那些呢？

在作者看来，数据科学的核心必然围绕以下问题，并不断促使技术成熟化：

如何缩短数据清洗和特征工程所耗费的时间？
在机器学习环境下，如何定义“信任”？
如何说一个机器模型是“公正的（fair）”，那么该如何定义其特征？

根据什么准则，我们就可以说能够信任机器人了？

除了以上的那么基本问题，更难回答的是，那些是有前景的方向和技术？

强化学习自从出现以来经历了许多次起起落落，现在看来，它又将迎来一个“春天”了。一个重要标志是其在Dota2中的表现。尽管强化学习还有很多问题要解决，但该它是现有技术中最接近人类学习行为的，我们很期待看待它在社会中的应用。

我们或许能够见证强化学习从概念成为实际的应用产品。如果你有兴趣的化，可以关注下它并尝试应用OpenAI gym来进行开发。

通用数据保护条例（General Data Protection Regulation，GDPR）从2018年5月28日起在欧盟生效，并直接影响了数据科学。但问题是：企业还在学习和理解这个新条例的规定。最主要的两个关注点是：

数据隐私：那些对个人数据进行非法处理的公司，将面临巨额罚款。这是否意味着研究人员接触数据将变得越来越困难？这是否会带来数据合成技术的兴起？最后，我们能实现真正的“数据隐身”吗？

可解释性：完全的自主决策必须是可解释的。但是“可解释”该如何定义呢？对于机器学习算法的解释，将采用什么统一的标准呢？这些欧盟的条例中并没有给出合理的答案。

GDPR’s Recital 71: The data subject should have “the right… to obtain an explanation of the decision reached… and to challenge the decision.”

Trustworthy AI has two components: (1) it should respect fundamental rights, applicable regulation and core principles and values, ensuring an “ethical purpose” and (2) it should be technically robust and reliable since, even with good intentions, a lack of technological mastery can cause unintentional harm [EU AI Ethics]

当AI技术对社会产生更深刻的影响是，我们必须努力消除不公平性，确保AI技术是对大众有利的，而不仅仅是某些人牟利的工具。幸运的是，广大企业和机构正在为此努力着。欧盟AI道德规范（EU AI Ethices draft）和Google的AI准则就是很好的例子。