专栏首页用户8653471的专栏大数据通用技术概述
原创

大数据通用技术概述

大数据技术应用于大数据系统端到端的各个环节,包括数据接入、数据预处理、数据存储、数据处理、数据可视化、数据治理,以及安全和隐私保护等。

(1)数据接入。大数据系统需要从不同应用和数据源(如互联网、物联网等)进行离线或实时的数据采集、传输、分发。为了支持多种应用和数据类型,大数据系统的数据接入需要基于规范化的传输协议和数据格式,提供丰富的数据接口、读入各种类型的数据。

(2)数据预处理。预处理是大数据重点技术之一。由于采集到的数据在来源、格式、数据质量等方面可能存在较大的差异,需要对数据进行整理、清洗、转换等过程,以便支撑后续数据处理、查询、分析等进一步应用。

(3)数据存储。随着大数据系统数据规模的扩大、数据处理和分析维度的提升、以及大数据应用对数据处理性能要求的不断提高,数据存储技术得到持续的发展与优化。一方面,基于大规模并行数据库(MPPDB)集群实现了海量结构化数据的存储与高质量管理,并能有效支持 SQL 和联机交易处理(OLTP)查询。另一方面,基于 HDFS 分布式文件系统实现了对海量半结构化和非结构化数据的存储,进一步支撑内容检索、深度挖掘、综合分析等大数据分析应用。同时,数据规模的快速增长,也使得分布式存储成为主流的存储方式,通过充分利用分布式存储设备的资源,能够显著提升容量和读写性能,具备较高的扩展性。

(4)数据处理。不同大数据应用对数据处理需求各异,导致产生了如离线处理、实时处理、交互查询、实时检索等不同数据处理方法。离线处理通常是指对海量数据进行批量的处理和分析,对处理时间的实时性要求不高,但数据量巨大、占用计算及存储资源较多。实时处理指对实时数据源(比如流数据)进行快速分析,对分析处理的实时性要求高,单位时间处理的数据量大,对 CPU 和内存的要求很高。交互查询是指对数据进行交互式的分析和查询,对查询响应时间要求较高,对查询语言支持要求高。实时检索指对实时写入的数据进行动态的查询,对查询响应时间要求较高,并且通常需要支持高并发查询。近年来,为满足不同数据分析场景在性能、数据规模、并发性等方面的要求,流计算、内存计算、图计算等数据处理技术不断发展。同时,人工智能的快速发展使得机器学习算法更多的融入数据处理、分析过程,进一步提升了数据处理结果的精准度、智能化和分析效率。

(5)数据可视化。数据可视化是大数据技术在各行业应用中的关键环节。通过直观反映出数据各维度指标的变化趋势,用以支撑用户分析、监控和数据价值挖掘。数据可视化技术的发展使得用户借助图表、2D\3D 视图等多种方式,通过自定义配置可视化界面实现对各类数据源进行面向不同应用要求的分析。

(6)数据治理。数据治理涉及数据全生存周期端到端过程,不仅与技术紧密相关,还与政策、法规、标准、流程等密切关联(详见 5.1 节)。从技术角度,大数据治理涉及到元数据管理、数据标准管理、数据质量管理、数据安全管理等多方面技术。当前,数据资源分散、数据流通困难(模型不统一、接口难对接)、应用系统孤立等问题已经成为企业数字化转型最大挑战之一。大数据系统需要通过提供集成化的数据治理能力、实现统一数据资产管理及数据资源规划。

(7)安全与隐私保护。大数据系统的安全与系统的各个组件、及系统工作的各个环节相关,需要从数据安全(例如备份容灾、数据加密)、应用安全(例如身份鉴别和认证)、设备安全(例如网络安全、主机安全)等方面全面保障系统的运行安全。同时随着数据应用的不断深入,数据隐私保护(包括个人隐私保护,企业商业秘密保护、国家机密保护)也已成为大数据技术重点研究方向之一。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据应用导论 Chapter1 | 大数据技术与应用概述

    下面是一些机构的定义: 维基百科: 传统数据处理应用软件不足以处理的大型而复杂的数据集; 包含的数据大小超过了传统软件在可接受时间内处理的能力。 互联网...

    不温卜火
  • 海量数据处理常用技术概述

    在解决海量数据的问题的时候,我们需要什么样的策略和技术,是每一个人都会关心的问题。今天我们就梳理一下在解决大数据问题 的时候需要使用的技术,但是注意这里只是从技...

    MavenTalker
  • 大数据技术之_16_Scala学习_01_Scala 语言概述

    第一章 Scala 语言概述1.1 why is Scala 语言?1.2 Scala 语言诞生小故事1.3 Scala 和 Java 以及 jvm 的关系分析...

    黑泽君
  • 大数据技术之Hadoop(HDFS)第1章 HDFS概述

    Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File...

    用户7656790
  • 洞察|2016年大数据技术发展趋势概述

    对大规模数据集进行分析能够帮助我们掌握隐藏模式、客户偏好、未知关联性、市场趋势以及其它极具价值的业务信息。在此基础之上,企业能够实现成本削减、促进决策制定并提...

    灯塔大数据
  • 【简介】大数据技术综述

    首先,在学习大数据之前,需要了解什么是大数据?它是如何诞生的?它有哪些应用场景?只有了解了这些,才能窥视大数据的技术全貌。一个技术的诞生,是顺应时代的,是用于解...

    十里桃花舞丶
  • 大数据技术之_05_Hadoop学习_01_MapReduce_MapReduce概述+Hadoop序列化

      采用反编译工具【jd-gui.exe】反编译源码,发现WordCount案例有Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类...

    黑泽君
  • 大数据概述----《大数据系列》

    学习框架最简单快捷的方法是看官网:http://hadoop.apache.org/

    用户3467126
  • 大数据基本概念及技术

    关注我的人都成为了月薪5w以上的技术大牛 ? 大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,不管什么,都要带上“大数据”三个字才显...

    企鹅号小编
  • 大数据入门(一)-大数据概述

    JavaEdge
  • 一图简述大数据技术生态圈

    1、HBase   是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Face...

    钱塘数据
  • WMI技术介绍和应用——WMI概述

            今天,我要开始一系列关于微软WMI技术的介绍。通过之后若干节的介绍,我想WMI技术将为在windows平台上从事开发的朋友开启另外一扇窗。(转载...

    方亮
  • 大数据常用技术栈

    提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Ver...

    大数据学习与分享
  • 大数据常用技术栈

    提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Ver...

    大数据学习与分享
  • 从Hadoop到Spark,大数据技术发展概况

    大数据从概念走向落地,得益于大数据技术的成熟,尤其是以Hadoop为代表的第一代大数据系统框架,为大数据在企业当中的现实落地,提供了稳固的技术支持,而随着大数据...

    成都加米谷大数据
  • 大数据技术

    如果没有一个好的开始,不妨试试一个坏的开始吧。因为一个坏的开始,总比没有开始强。而完美的开始,则永远都不会来到。

    凹谷
  • 大数据技术与应用的定义 大数据技术与应用的作用

    随着互联网的发展,一些关于互联网的产业和学科也跟着发展起来。其中,比较热门的一个专业是大数据技术与应用。大数据作为一个新兴的产业,是非常值得学习的,看到网上有些...

    用户8739990
  • 【技术】大数据关键技术

    大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。 ...

    小莹莹
  • 大数据技术分享:十大开源的大数据技术

    大数据已然成为当今热门的技术之一,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点受欢迎的十大开源的大数据技术。

    加米谷大数据

扫码关注云+社区

领取腾讯云代金券