前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >对大数据和物联网环境中数据科学自动化的见解

对大数据和物联网环境中数据科学自动化的见解

作者头像
未来守护者
发布2018-05-02 11:23:11
7130
发布2018-05-02 11:23:11
举报
文章被收录于专栏:安全领域安全领域

数据科学在任何大数据研究实践或物联网(IoT)环境中位于核心地位。数据科学涉及广泛的技术,商业和机器学习算法。数据科学的目的不仅仅在于机器学习或统计分析,而在于从数据中挖掘出没有统计知识的用户也可以明白的深刻见解。在诸如大数据和物联网等快速节奏的环境中,数据类型可能随时间而变化,这使得每一次的维护和重建模型变得十分困难。

这一现状需要一种自动化的方式来管理这些环境中的数据科学算法。数据科学的兴起的过程就是从基于规则的系统转向为了自动化而自主学习规则的系统。机器学习使得数据科学本质上成为部分自动化的。同时仍有留待自动化并需要手动干预的另一半部分。然而那些领域需要数据科学家,商业专家,软件开发人员,数据集成者,以及每个致力于使数据科学项目运作的参与者的经验和智慧。这使得自动化数据科学的所有方面变得很困难。不过,我们可以将数据科学自动化视为一种双层架构,其中:

1级:自动化不同的数据科学学科/组件。

2级:所有自动化的独立组件相互关联,形成一个连贯的数据科学系统。

我们可以想象一个自动化的数据科学系统,只要我们向其中添加一个数据集,就足以阐明我们的问题。而且,它应该足够聪明,从而以我们能够理解的语言为我们提供所有可能的解决方案。我们可以将数据准备,机器学习,领域知识和结果解释视为成功执行数据科学项目所需的四项主要任务。所有这些任务都必须转换为自动模块来创建自动数据科学系统。

数据预处理自动化:数据预处理是每次创建模型时都必须完成的重复性任务。数据提取,数据清理和数据转换(如输入空值和针对特定算法的转换)都属于此类别中的一些任务。许多组织已经采用了使这些任务自动化的引擎,并将其宣传为数据科学自动化工具。但是,大多数这些工具使用基于规则的逻辑来自动执行数据预处理任务。这就引出一个问题:我们是否需要基于规则的系统实现数据科学自动化?答案是否定的。我们需要基于机器学习本身的数据预处理自动化。例如,如何选择适用于某一问题的的所有预处理函数应由机器自身通过学习获得。

特征工程是需要自动化的另一个数据预处理领域。特征工程是一种将原始数据转换为属性/预测变量的技术,它有助于提高机器学习项目的准确性。特征工程自动化仍处于起步阶段,也是一个活跃的研究领域。麻省理工学院的数据科学家在这一领域取得了令人难以置信的进展,他们开发了能够从原始数据生成特征的“深度特征综合”算法。

自动化机器学习/统计分析:这是统计流程和机器学习自动化的数据科学自动化领域。系统根据提供的数据集执行最佳算法。它隐藏了算法的复杂性和数学复杂性,用户也不必向受众提供这些算法。用户需要为自动统计系统提供数据。它能够理解数据,创建不同的数学模型,并根据最能解释数据的模型返回结果。自动统计系统是一门复杂的科学,因为它需要系统学习输入数据的模式,找到最佳拟合值并使用多种统计和机器学习算法自行优化其参数。这要求对各种算法进行一般化的能力和巨大的计算能力。

借助基于云服务器的高计算能力需求管理,自动化机器学习逐渐成熟。开发数据产品的组织逐渐引入了元学习等特性。元学习是一种基于数据集元数据自动选择合适机器学习算法的过程。此外,在自动化数据科学任务的研究主流中应用神经网络和深度学习已然成为突破。与H2O.ai类似的一些人工智能初创企业是创建内存优化的深度学习和机器学习算法,以及对模型创建过程进行一般化的先驱。他们通过引入许多内建的功能,提供诸如能够对算法进行更好控制的超参数调节等作为模型优化选项等实现这一目标。超参数调节是通过反复运行机器学习算法,寻找最适合这一数据集和模型的自动化试错流程。这在一定程度上能够实现数据科学自动化,将数据科学家从不断用不同参数测试模型的麻烦中解放出来。

解读生成自动化:

只有当业务用户或没有统计知识的受众能够理解它时,数据科学项目的结果才是有用的。数据科学活动的精髓就在于数据科学家以全面且透明的方式讲述结果这一部分。要想将这一任务自动化,就需要能够从对统计学家友好的结果生成对用户友好的文本。自然语言生成是当下协助将机器语言转化为自然语言的领跑构架。Nlgserv 和 simplenlg 是两个能够用于这一任务的框架。此外,我们可以使用马尔科夫链自动化生成句子和故事。

总而言之,我们可以认为在数据科学自动化领域的创新正逐渐成为现实,并将在未来几年逐步进化。我们正处于一个着手解决独立的数据科学模块自动化问题的阶段。从这里开始,我们需要迁移到一个更为通用的,集成了各种数据科学自动化模块的平台上。这就是改变发生的方式。就如同房间大小且带有辅助部件的计算机转变为了像树莓派一样信用卡大小的电脑。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档