首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2018年智慧企业大数据建设的五大关键技术

当前,中国企业面临着适应数字经济的重大挑战,如何实现从 IT(信息技术) 向 DT(数据技术)的转型,已经成为企业发展转型升级的首要课题。赛迪顾问认为,大数据应用(BDA)是集团型企业应用的新方向,涵盖了从数据采集、存储、处理、应用等多方面的技术,这对于企业能否实现数字化、智慧型转型至关重要。

关键技术一:大数据采集技术

大数据采集是大数据生命周期的第一个环节,它通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于可能有成千上万的用户同时进行并发访问和操作,因此,必须采用专门针对大数据的采集方法,主要包括系统日志采集方法、网络数据采集方法以及其他数据采集方法。

关键技术二:大数据预处理技术

现实世界中的数据大多不完整或不一致,无法直接进行数据挖掘或挖掘结果不理想。而数据预处理则是对采集的数据进行填补、平滑、合并、规格化、检查一致性等处理,并对数据的多种属性进行初步组织,从而提高数据挖掘质量,减少挖掘时间。与传统数据预处理流程相似,大数据预处理的三个基本步骤也是数据的提取、转换和加载(ETL),ETL负责将多个数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到目标数据库或相应文件存储系统中,作为数据挖掘的基础。

关键技术三:大数据存储及管理技术

大数据存储技术:大数据场景下,数据量呈爆发式增长,存储能力的增长远远赶不上数据的增长,几十或几百台大型服务器都难以满足一个企业的数据存储需求。为此,大数据的存储方案是采用成千上万台的廉价PC来存储数据以降低成本,同时提供高扩展性。考虑到系统由大量廉价易损的硬件组成,需要保证文件系统整体可靠性。为此,大数据的存储方案通常对同一份数据在不同节点上存储三份副本,以提高系统容错性。

大数据管理技术:对于图像、视频 、地理位置等类型多样的数据,难以用传统的结构化方式描述,因此需要使用由多维表组成的面向列存储的数据管理系统来组织和管理数据。也就是说,将数据按行排序,按列存储,将相同字段的数据作为一个列族来聚合存储。不同的列族对应数据的不同属性,这些属性可以根据需求动态增加,通过这样的分布式实时列式数据库对数据统一进行结构化存储和管理,避免了传统数据存储方式下的关联查询。

关键技术四:大数据分析及挖掘技术

大数据分析技术:要挖掘大数据的大价值必然要对大数据进行内容上的分析与计算,深度学习和知识计算是大数据分析的基础,而可视化既是数据分析的关键技术也是数据分析结果呈现的关键技术。

大数据挖掘技术:大数据场景下的数据挖掘可以采用MapReduce(一种编程模型)等并行处理方式,将海量数据进行分解并分布存储,由数据挖掘系统并行处理,并将多个局部处理结果合成最终的输出模式,以实现海量数据挖掘。大数据场景还要求能够对结构化、半结构化和非结构化数据一起分析;并且当数据量增加时,要求只增加分布式服务节点,无须修改分析/挖掘算法。因此传统的关系型、结构化的数据集和挖掘方法都不再适用。

关键技术五:大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。在大数据场景下,结果展现更加注重交互式和可视化。

用户交互技术:大数据所提供的用户交互方式主要有五种类型,分别是统计分析和数据挖掘、任意查询和分析、立方体分析、企业报表、报表分发和预警,它们在交互程度和用户群类型及规模上各有差异。

数据可视化技术:数据结果展现即实现了数据可视化,它从底层平台处理的数据挖掘结果中构造图片、映射关系或表格,以简单、好、易用的图形化、智能化的形式呈现给用户供其分析使用,可通过数据访问接口或商业智能门户实现。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180124A0LMWZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券