突出大数据演变的十个事实

笨蛋说什么

发布于 2018-06-01 17:03:53

9540

发布于 2018-06-01 17:03:53

从各种规模和形式的数据中提取有用的价值以及存储和处理数据的公司日益增多。那些支持大量非结构化和结构化数据的系统将在短期内继续上升。市场要求平台使数据管理员在授权最终用户去检测数据时实施保护和管理大数据的措施变得更加容易。此外，这些系统将成熟到足以在企业规格的IT系统内良好运行。

变得平易近人，快速

您可以在Hadoop（分布式系统基础架构）上进行情绪分析并进行机器学习，但人们对此提出了一个重要的问题：交互式SQL的速度有多快？毕竟，SQL是那些希望将Hadoop数据用于制作更多可重复的，更快速的KPI智能仪表盘和探索性分析的商业用户的渠道。

人们对速度的需求增加了对技术更多的使用，从而实现了更快的查询，比如像Kudu这样的在Hadoop基础上的存储以及MemSQL和Exasol等更快的数据库。在使用OLAP-on-Hadoop技术（Kyvos Insights，Jethro Data和AtScale）和SQL-on-Hadoop引擎（Drill，Phoenix，Presto，Hive LLAP和Apache Impala）后，这些查询加速器正在进一步模糊大数据领域和传统仓库的界限。

不再局限于Hadoop

我们看到各种技术随着大数据浪潮而提升，以满足Hadoop分析的需求。但是，由各种各样复杂环境组成的企业不希望自身仅仅是一个获取独立BI（商业智能）的数据源接入点（读取Hadoop）。他们解决问题的答案被埋藏在云库存系统的各种资源中，而且来自非Hadoop和Hadoop源（甚至是关联数据库）的非结构化和结构化数据都转变成了大数据 - 真的。例如，SQL Server 2016最近就添加了JSON支持。

不久后，企业客户就会要求对所有数据进行分析。这样无论是包含源数据还是匿名数据的平台都将蓬勃发展，而那些有针对性地开发Hadoop却无法在各种用例中配置的平台将会退出历史舞台。这一趋势最早出现于大数据分析公司Platfora的落幕。

让机构从一开始就最大化使用数据湖

首先，你要创造一个大坝（即数据库），然后让它充满水（即数据）。当湖泊构建完之后你就可以开始使用水。水能被用于不同的目的，如重建，饮用和发电。倘若是数据，则可以应用于网络安全，机器学习和预测分析。

至今为止，数据湖本身的目的就是进行水（数据）的储存。这种转变是因为Hadoop的商用理由正在变得越来越重要。为了更快得到合适的结果，这些公司要求数据库能灵活且可重复地使用。在投入基础设施，资料和人力资源之前，他们将使用数据库仔细地分析业务成果。这将极大地促进IT与业务之间的关系。自助服务平台将成为使用大数据资源的工具从而获得良好的认可度。

万能框架不适用于成熟后的架构

Hadoop已经成为一个能够应用于特殊分析的多用途引擎。Hadoop甚至被用于业务报告每日工作量 - 数据仓库管理的类型。组织正在通过遵循特定用例的体系架构设计来响应当今的混合需求。他们会研究一系列因素，包括聚合水平，数据速度，访问频率，数量，问题和用户角色后再交付给数据战略。这些高级参考架构是由需求驱动的。他们以各种方式将最终用户分析平台的Hadoop内核和数据准备自助服务工具相结合，然后随着这些需求的进一步增长，可以进行不同配置。最终，这些架构的灵活性决定了技术的选择。

投资受多种因素驱动，但决不是速度或数量

正如Gartner最近定义的那样，多种类，高速度和大容量的信息资产是三个发展中的Vs，它将不断发展并为大数据带来最大的投资动力。随着这些组织寻求聚焦于大数据的long tail（长尾理论）并整合更多资源，这一趋势将继续演变。从免费的JSON模式到各种其他数据库（NoSQL和关系数据库）中的嵌套类型再到非平坦数据（XML，Parquet和Avro），连接器变得越来越重要，数据格式也越来越多。分析平台的评估取决于它们提供与这些不同数据来源的直接连接的能力。

机器学习和Spark（计算引擎）照亮大数据

在对BI分析师，IT经理和数据架构师的调查中，大约70％的受访者青睐Spark更胜于现有的MapReduce是因为MapReduce不适用于实时流处理或交互式应用程序，并且是面向批处理的。这一切都是因为大数据能力包含有计算密集型图形算法，AI和机器学习的特色升级平台。微软Azure特别引人注目 - 轻松整合了当前的微软平台和对初学者的友好性。对于大众来说，开放式机器学习正在创建更多的应用程序和模型生成P级别数据。随着系统不断进行机器学习变得更加智能后，所有人的目光都将集中在自助服务软件的提供者身上，以了解他们如何将这些数据传达给最终用户。

大数据，云计算和物联网的融合为自助服务分析创造了新的机遇

物联网正不停地生成大量的非结构化和结构化数据，并且很大一部分数据正部署在云服务上。从Hadoop集群开始直到NoSQL数据库，所有的数据驻留在众多非关联和关联系统中。由于托管和存储服务的创新增加了捕获过程的速度，理解和访问数据本身仍然是最大的最后一英里（注：由于光纤网的发展而产生的“last-mile”问题，此处用于类比）挑战。因此，随着这些分析工具不断结合并连接到各种云托管的数据源，分析工具的需求正在不断改变。这些工具使企业能够可视化和探索存储在任何地方的任何类型的数据，从而使他们能够在物联网投资中找到潜在的机会。

数据预处理成为主流

自助分析平台已经改进了这一过程。业务用户希望进一步降低数据的复杂性和减少数据的预处理时间从而便于分析，这非常重要，特别是在处理不同格式和数据类型时。

灵活的自助服务数据准备工具使得Hadoop数据可以在源代码中做好准备，并且还可以以快照的形式无障碍地访问数据，从而更容易、更快速地进行数据探索。在这个领域，我们见证了许多专注于Paxata，Trifacta和Alteryx等大数据的最终用户数据预处理组织的革新。这些工具为落伍者和Hadoop的晚采用者降低了准入门槛，并且获得无形的用户吸引力。

Hadoop增添了企业标准

今天，我们见证了围绕着企业系统的治理和安全组件的更多的投资。Apache Sentry提供了一个系统，用于对存储在Hadoop集群上的元数据和数据执行基于角色的细粒度权限（注：数据级别的权限管理）。作为数据管理计划的一部分，Apache Atlas允许公司能够在整个数据生态系统中对数据进行稳定分类。对于Hadoop，Apache Ranger提供了一个集中式的安全管理。

客户开始从他们的企业级RDBMS平台上预测这些能力。这些能力正在走向新兴大数据技术的前沿，从而攻克了企业采用的另一个难关。

元数据目录的兴起有助于寻找具有分析价值的大数据

元数据目录有助于用户使用自助服务工具发现和理解相关数据。像Waterline和Alation这样的公司正填补这一客户需求的空白。他们借用机器学习来自动完成在Hadoop中查找数据的工作。此外，他们通过可搜索的UIs（用户界面）提供查询建议，揭示数据资产之间的关系，并使用标记对文件进行编目。这对于数据管理员和数据使用者而言都有助于减少准确查询，查找和信任数据所需的时间。我们看到对自助服务发现的更多需求和意识，它将作为自助式分析的自然延伸而发展。

hadoop