专栏首页首席架构师智库75个每个人都应该知道的大数据术语

75个每个人都应该知道的大数据术语

在第一篇文章中介绍了以下术语:算法,分析,描述性分析,规定分析,预测分析,批处理,Cassandra,云计算,集群计算,黑暗数据,数据湖,数据挖掘,数据科学家,分布式文件系统,ETL,Hadoop,内存计算,IOT,机器学习,Mapreduce,NoSQL,R,Spark,流处理,结构化。非结构化数据。

现在我们来看看还有50个更大的数据条款。

Apache软件基金会(ASF)提供了许多Big Data开源项目,目前有350多个项目。我可以花一整天的时间来解释这些项目,而不是选择几个热门词汇。

Apache Kafka:以着名的捷克作家命名的卡夫卡用于构建实时数据流水线和流媒体应用。为什么这么受欢迎?因为它能够以容错的方式存储,管理和处理数据流,并据称“快速”。鉴于社交网络环境处理数据流,卡夫卡目前非常受欢迎。

Apache Mahout:Mahout提供了一个用于机器学习和数据挖掘的预制算法库,也是创建更多算法的环境。换句话说,机器学习天堂的天堂环境。机器学习和数据挖掘在我之前提到的文章中有介绍。

Apache Oozie:在任何编程环境中,您需要一些工作流系统来以预定义的方式和定义的依赖关系来安排和运行作业。 Oozie提供了用于编写猪,MapReduce和Hive等语言的大数据工作。

Apache Drill,Apache Impala,Apache Spark SQL

所有这些都提供快速和交互式的SQL,如与Apache Hadoop数据的交互。如果您已经知道SQL并处理以大数据格式存储的数据(即HBase或HDFS),这些功能非常有用。对不起,在这里好奇怪

Apache Hive:知道SQL?那么你和Hive在很好的手中。 Huve有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。

Apache Pig:Pig是在大型分布式数据集上创建查询执行例程的平台。所使用的脚本语言叫做Pig Latin(不,我没有做,相信我)。据说猪很容易理解和学习。但是我的问题是有多少人可以学习?

Apache Sqoop:用于将数据从Hadoop移动到非Hadoop数据存储(如数据仓库和关系数据库)的工具。

Apache Storm:一个免费的开源实时分布式计算系统。它使得使用Hadoop进行批处理的瞬时处理可以更容易地处理非结构化数据。

人工智能(AI) - 为什么AI在这里?这不是一个单独的领域,你可能会问。所有这些趋势技术是如此相关,以便我们更好地保持安静,继续学习,好吗? AI关于开发智能机器和软件,使硬件和软件的这种组合能够感知环境,并在需要时采取必要的措施,并继续学习这些操作。听起来类似于机器学习?加入我的“困惑”俱乐部

行为分析:曾经想过谷歌如何为您看来需要的产品/服务提供广告?行为分析侧重于了解消费者和应用程序的作用以及它们以某种方式行事的方式和原因。这是关于我们的网络冲浪模式,社交媒体互动,我们的电子商务行动(购物车等)的理解,并连接这些无关的数据点,并尝试预测结果。在一个例子中,我在寻找一家酒店后放弃了一个购物车,接到一个度假村假期线路的电话。需要我说更多吗?

Brontobytes-1,其次是27个零,这是明天数字宇宙的大小。当我们在这里的时候,让我谈谈太字节,太字节,Exabyte,Zetabyte,Yottabyte和Brontobyte。您必须阅读本文以了解有关所有这些术语的更多信息。

商业智能(BI):我将重用Gartner对BI的定义,因为它做得很好。商业智能(BI)是一个总括术语,包括应用程序,基础设施和工具以及最佳实践,可以访问和分析信息,以改善和优化决策和绩效。

生物识别技术:这就是James Bondish技术与分析技术相结合,通过一种或多种身体特征来识别人,如面部识别,虹膜识别,指纹识别等。

点击流分析:用于分析用户在网络上浏览的在线点击。曾经想过,为什么某些Google广告还会继续关注您,即使是切换网站等?大哥知道你在点击什么

聚类分析是一个探索性分析,试图识别数据中的结构。聚类分析也称为分割分析或分类分析。更具体地说,它试图确定同一组案例,即观察,参与者,受访者。如果分组以前未知,则使用聚类分析来识别病例组。因为它是探索性的,它确实取决于和独立变量之间的区别。 SPSS提供的不同的聚类分析方法可以处理二进制,标称,序数和比例(间隔或比率)数据。

比较分析:在这篇文章中,我将分析更深入的分析,因为大数据的圣杯是分析数据。顾名思义,比较分析是使用诸如模式分析,过滤和决策树分析等统计技术来比较多个进程,数据集或其他对象。我知道它的技术变得越来越少,但我不能完全避免行话。比较分析可用于医疗保健,以比较大量的医疗记录,文件,图像等,以更有效和希望准确的医疗诊断。

连接分析:您必须已经看到这些蜘蛛网络像图表连接主题等,以识别某些主题的影响者。连接分析是帮助您发现网络中人员,产品和系统之间的这些相互关联的连接和影响,甚至组合来自多个网络的数据的分析。

数据分析师:数据分析师是一个非常重要和受欢迎的工作,除了准备报告之外,它还负责收集,操纵和分析数据。我会提出一个关于数据分析师的更详尽的文章。

数据清理:这有点自我解释,它涉及检测和纠正或从数据库中删除不准确的数据或记录。记住“脏数据”?那么,使用手动和自动化工具和算法的组合,数据分析师可以更正和丰富数据来提高其质量。记住,脏数据导致错误的分析和不良决策。

DaaS:您有SaaS,PaaS和现在的DaaS,代表数据即服务。通过向客户提供按需访问云托管数据,DaaS提供商可以帮助快速获得高质量的数据。

数据虚拟化 - 这是数据管理的一种方法,允许应用程序检索和操作数据,而不需要其存储位置及其格式等的技术细节。例如,这是社交网络将我们的照片存储在他们的网络。

脏数据:现在,大数据变得性感,人们只是开始向数据添加形容词来提出新的术语,如暗数据,脏数据,小数据和现在的智能数据。来吧,给我一个休息,脏的数据是不干净的数据,或换句话说,数据不准确,重复和不一致的数据。显然,你不想与脏数据相关联。

模糊逻辑:我们多么确定100%的权利?很稀少。我们的大脑将数据聚合成部分真理,再次被抽象为某种阈值,这将决定我们的反应。模糊逻辑是一种计算,旨在通过消除部分真理来模仿人类的大脑,而不是像“0”和“1”这样的绝对真理,就像布尔代数的其余部分一样。重用于自然语言处理,模糊逻辑也已进入其他数据相关学科。

游戏:在一个典型的游戏中,你有像点数,与他人竞争的元素,以及某些游戏规则等元素。大数据中的游戏化是使用这些概念来收集数据或分析数据或通常激励用户。

图形数据库:图形数据库使用诸如节点和边缘之类的概念代表人物/企业及其相互关系,从社交媒体挖掘数据。曾经想过,亚马逊如何告诉你在购买产品时还会买到什么其他产品? Yup,Graph数据库!

Hadoop用户体验(Hue):Hue是一个开源的界面,使Apache Hadoop变得更加容易。它是一个基于Web的应用程序,并且具有用于HDFS的文件浏览器,MapReduce的作业设计器,用于制作协调器和工作流程的Oozie应用程序,Shell,Impala和Hive UI以及一组Hadoop API。

HANA:高性能分析应用程序 - SAP的软件/硬件内存中平台,专为大量数据交易和分析而设计。

HBase:分布式,面向列的数据库。它使用HDFS作为其底层存储,并且使用MapReduce和事务交互来支持批量风格的计算

负载平衡:跨多台计算机或服务器分配工作负载,以实现系统的最佳结果和利用

元数据:“元数据是描述其他数据的数据。元数据汇总了有关数据的基本信息,可以使查找和处理特定数据实例更容易。例如,作者,创建日期和日期修改以及文件大小是非常基本的文档元数据。除文档文件外,元数据也用于图像,视频,电子表格和网页。“来源:TechTarget

MongoDB:MongoDB是一个跨平台的开源数据库,它使用面向文档的数据模型,而不是传统的基于表的关系数据库结构。这种类型的数据库结构旨在使结构化和非结构化数据在某些类型的应用程序中的集成更加容易和快速。

混搭:幸运的是,这个术语对我们在日常生活中了解混搭的定义类似。基本上,mashup是将不同数据集合并为单个应用程序的一种方法(示例:将房地产列表与人口统计数据或地理数据相结合)。这是非常酷的可视化。

多维数据库:针对数据在线分析处理(OLAP)应用程序和数据仓库进行了优化的数据库。如果您想知道数据仓库,它只不过是数据多个数据源的核心存储库。

MultiValue数据库:它们是一种直接了解3维数据的NoSQL和多维数据库。他们很好地直接操作HTML和XML字符串。

自然语言处理:软件算法旨在使计算机能够更准确地了解每天的人类语言,使我们能够更自然和更有效地与他们进行交互。

神经网络:根据http://neuralnetworksanddeeplearning.com/,神经网络是一个美丽的生物学启发的编程范例,使计算机能够从观测数据中学习。有人称之为编程范例“美丽”已经很久了。实质上,人造神经网络是由大脑的现实生物学启发的模型。与神经网络密切相关的是深度学习。深度学习,一套强大的神经网络学习技术。

模式识别:当算法在大数据集或不同的数据集中定位复现或规则时,就会发生模式识别。它紧密相连,甚至被认为是机器学习和数据挖掘的代名词。这种可见性可以帮助研究人员发现洞察力或达成否则将被模糊的结论。

RFID:射频识别;一种使用无线非接触式射频电磁场传输数据的传感器。随着物联网革命,RFID标签可以嵌入到每一个可能的“事物”中,以产生需要分析的巨大数据量。欢迎来到数据世界:-)

SaaS:软件即服务使供应商能够托管应用程序并通过互联网使其可用。 SaaS提供商通过云提供服务。

半结构化数据:半结构化数据是指以常规方式未被捕获或格式化的数据,例如与传统数据库字段或常用数据模型相关联的数据。它也不是原始的或完全非结构化的,并且可能包含一些数据表,标签或其他结构元素。图形和表格,XML文档和电子邮件是半结构化数据的示例,它在万维网上非常流行,通常在面向对象的数据库中。

情绪分析:情绪分析涉及捕捉和跟踪消费者在各种交互或文件(包括社交媒体,客户服务代表呼叫,调查等)中表达的意见,情绪或感受。文本分析和自然语言处理是情绪分析过程中的典型活动。目标是确定或评估对公司,产品,服务,人员或事件表达的情绪或态度。

空间分析是指分析空间数据,如地理数据或拓扑数据,以识别和理解分布在地理空间的数据内的模式和规律。

流处理旨在通过“连续”查询对实时和流数据进行操作。随着从社交网络不断流式传输的数据,对流处理和流分析有着明确的需求,可以在这些流中不间断地计算数学或统计分析,以实时处理大量的数据。

智能数据据称是经过算法完成的一些过滤后有用和可操作的数据。

太字节:数字数据相对较大的单位,一兆比特(TB)等于千兆字节。据估计,10太字节可以容纳美国国会图书馆的整个印刷品,而单个结核病可以容纳1,000份百科全书Brittanica。您必须阅读本文以了解有关所有这些术语的更多信息。

可视化 - 通过正确的可视化,原始数据可以投入使用。当然,可视化并不意味着普通的图形或饼图。它们是指可以包含许多数据变量的复杂图形,同时仍然可以理解和可读

大约1000字节,或者是250万亿的DVD。今天的整个数字宇宙是1兆塔,这将每18个月翻一番。您必须阅读本文以了解有关所有这些术语的更多信息。

千兆字节 - 大约1000字节或10亿兆字节。

本文分享自微信公众号 - 首席架构师智库(jiagoushipro),作者:henry han

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 三个无人讨论的大数据的发展趋势

    您在一年前讨论大数据将与今天的对话截然不同。 我们最近看到数据科学从外围功能显着转变为核心功能,更大的团队解决日益复杂的分析问题。我们已经看到数据科学平台的快速...

    首席架构师智库
  • 「数据战略」结果驱动的企业数据策略:持续的数据维护

    企业数据战略系列的一部分,探讨了领导力和责任感在指导与业务成果相关的总体数据战略方面的重要性。

    首席架构师智库
  • 「数据战略」数据战略的范围和复杂性

    Wayne Eckerson最近的报告“数据战略指南:每个高管人员需要了解的内容”回答了许多关于数据战略的内容,原因和时间的问题。但是,与所有战略工作一样,数据...

    首席架构师智库
  • 生命科学中的大数据

    大数据文摘
  • 大数据行业第一份应用状况调查报告

    导读:中国软件网和海比研究一起做了个大数据应用状况的调研,并形成了国内第一本专门针对大数据产品技术的落地使用状况的研究报告——《中国大数据应用状况研究报告》。今...

    钱塘数据
  • 被神话的大数据——从大数据(big data)到深度数据(deep data)思维转变

    自从阿法狗战胜人类顶级棋手之后,深度学习、人工智能变得再一次火热起来。有些人认为,深度学习的再一次兴起是源于硬件的提升、数据量的增多以及高效...

    用户3578099
  • 如何填报大数据相关专业? | Alfred数据室

    高考出分了,又是一年一度各位考生和家长手忙脚乱开始填报志愿的时候了。很多考生和家长纷纷咨询Alfred:大数据现在不是很火吗?大数据专业怎么样呀?应该填选择哪个...

    Alfred数据室
  • 360大数据中心副总经理傅志华:企业如何有效的实施大数据战略(内附PPT)

    数据猿导读 在人工智能和大数据技术在实施过程中你可能会陷入三个误区:业务部门没有清晰的大数据需求和规划;企业内部数据孤岛非常严重;组织架构未能有效支撑大数据实施...

    数据猿
  • 大数据时代下的十大变革你知道吗?

    传统科学思维中,决策制定往往是“目标”或“模型”驱动的——根据目标(或模型)进行决策。大数据时代下,数据成为决策制定的主要“触发条件”和“重要依据”。

    刀刀老高
  • AI时代就业指南:大数据工程师到底应该会什么?

    大数据领域包含哪些职位? 在大数据行业中有很多领域。通常来说它们可以被分为两类: 大数据工程 大数据分析 这两个领域互相独立又互相关联。 数据工程涉及平台和数据...

    小莹莹

扫码关注云+社区

领取腾讯云代金券