首页
学习
活动
专区
工具
TVP
发布

about云

专栏作者
216
文章
314883
阅读量
58
订阅数
Spark 2.0技术预览:更容易、更快速、更智能
  在过去的几个月时间里,我们一直忙于我们所爱的大数据开源软件的下一个主要版本开发工作:Apache Spark2.0。Spark 1.0已经出现了2年时间,在此期间,我们听到了赞美以及投诉。Spark 2.0的开发基于我们过去两年学到的:用户所喜爱的我们加倍投入;用户抱怨的我们努力提高。本文将总结Spark 2.0的三大主题:更容易、更快速、更智能。更深入的介绍将会在后面博客进行介绍。
用户1410343
2023-03-21
3350
湖仓一体详解
问题导读 1.什么是数据仓库、数据集市和数据湖? 2.湖仓一体化为什么诞生? 3.湖仓一体化是什么? 4.湖仓一体化的好处是什么? 0.沃尔玛纸尿裤和啤酒 在了解湖仓一体化之前,我们先来看一则有关数据仓库的有趣故事吧~ 沃尔玛拥有世界上最大的数据仓库系统,它利用数据挖掘方法对交易数据进行分析后发现"跟尿布一起购买最多的商品竟是啤酒!后来经过大量实际调查和分析,发现在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒,这是因为美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。可见大数据其实很早之前就已经伴随在我们的日常生活之中了。 那么接下来我们就来了解一下湖仓一体化的基本概念吧。 1.什么是数据仓库、数据集市和数据湖? 1.1 数据仓库 早期系统采用数据库来存放管理数据,但是随着大数据技术的兴起,大家想要通过大数据技术来找到数据之间可能存在的关系,所以大家设计了一套新的数据存储管理系统,把所有的数据全部存储到数据仓库,然后统一对数据处理,这个系统叫做数据仓库。而数据库缺少灵活和强大的处理能力。 在计算机领域,数据仓库(英语:data warehouse,也称为企业数据仓库)是用于报告和数据分析的系统,被认为是商业智能的核心组件。数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起,以利各种分析方法如在线分析处理(OLAP)、数据挖掘(Data Mining),帮助决策者能快速从大量数据中,分析出有价值的信息,帮助建构商业智能(BI)。 尽管仓库非常适合结构化数据,但是许多现代企业必须处理非结构化数据,半结构化数据以及具有高多样性、高速度和高容量的数据。数据仓库不适用于许多此类场景,并且成本效益并非最佳。
用户1410343
2022-03-31
3.7K1
彻底打通实时数据仓库该如何实现及多种技术架构解析
问题导读 1.实时数据仓库有哪些特点? 2.公司构建实时数据仓库有哪些好处? 3.如何构建实时数据仓库? 4.实时数据仓库本文解析了哪些架构? 越来越多的实时数据需求,需要更多的实时数据来做业务决策,例如需要依据销售情况做一个资源位的调整;同时有些活动也需要实时数据来增强与用户的互动。如果数据有实时和离线两种方案,优先考虑实时的,如果实时实现不了再考虑离线的方式。 实时数据仓库,已经被很多公司所接受,而且接触很多About云社区会员,都在筹备搭建实时数据仓库。 1.那么实时数据仓库有哪些特点:
用户1410343
2021-01-05
1.3K0
Flink1.8新版发布:都有哪些改变
问题导读 1.Flink1.8引入对什么状态的连续清理? 2.保存点兼容性方面,不在兼容哪个版本? 3.Maven依赖在Hadoop方便发生了什么变化? 4.Flink是否发布带有Hadoop的二进制文件? Flink1.8发布,主要改变如下: 1.将会增量清除旧的State 2.编程方面TableEnvironment弃用 3.Flink1.8将不发布带有Hadoop的二进制安装包 更多详细如下:
用户1410343
2019-05-07
1.4K0
Flink流之动态表详解
问题导读 1.动态表有什么特点? 2.流处理与批处理转换为表后有什么相同之处? 3.动态表和连续查询是什么关系? 4.连续查询本文列举了什么例子? 5.Flink的Table API和SQL支持哪三种编码动态表更改的方法? 由于Flink对流式数据的处理超越了目前流行的所有框架,所以非常受各大公司的欢迎,其中包括阿里,美团、腾讯、唯品会等公司。而当前也有很多的公司在做技术调研而跃跃欲试。
用户1410343
2019-03-14
4.1K0
比Hive快279倍的数据库-ClickHouse到底是怎样的
1.什么是ClickHouse? 2.ClickHouse适合哪些场景? 3.为什么面向列的数据库查询如此快? 1.什么是ClickHouse ClickHouse是一个面向列的数据库管理系统(DBMS),用于在线分析处理查询(OLAP)。 在“传统”面向行的DBMS中,数据按以下顺序存储:
用户1410343
2018-12-11
7.5K0
kafka sql入门
问题导读 1.kafka sql与数据库sql有哪些区别? 2.KSQL有什么作用? 3.KSQL流和表分别什么情况下使用?
用户1410343
2018-07-26
2.5K0
Spark利用Project Tungsten将硬件性能提升到极限
我们将为你介绍性能提升的下一阶段——Tungsten。在2014年,我们目睹了Spark缔造大规模排序的新世界纪录,同时也看到了Spark整个引擎的大幅度提升——从Python到SQL再到机器学习。 Tungsten项目将是Spark自诞生以来内核级别的最大改动,以大幅度提升Spark应用程序的内存和CPU利用率为目标,旨在最大程度上压榨新时代硬件性能。Project Tungsten包括了3个方面的努力: Memory Management和Binary Processing:利用应用的语义(appl
用户1410343
2018-03-27
1.1K0
spark入门基础知识常见问答整理
一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布
用户1410343
2018-03-27
1.2K0
让你真正理解什么是SparkContext, SQLContext 和HiveContext
问题导读 1.你认为SparkContext的作用是什么? 2.SQLContext 和HiveContext的区别是什么? 3.SQLContext、HiveContext与SparkContext的区别是什么? 第一步spark driver 应用程序创建SparkContext,SparkContext 允许spark driver 应用程序通过资源管理器访问集群。资源管理器可以是Yarn,或则spark集群管理器。为了创建SparkContext,你可以第一步创建SparkConf,Spa
用户1410343
2018-03-27
3.1K0
新技术架起 Oracle、Hadoop、NoSQL数据存储之间的桥梁
一直以来,大数据的使用远远不及大数据收集能力,就起原因主要是目前企业的数据主要分散在不同的系统或组织,大数据战略的杀手锏就是能够更深度的,更丰富的挖掘所有数据系统中的有价值的信息,从而更准确的预测客户行为,发现商业价值,但是目前很难将这些数据移到一个单独的数据存储中,另外,安全和监管问题也得不到保障,Oracle Big Data SQL的推出解决了现在面临的难题。 以下为译文: 发现企业或组织对数据管理架构的需求,Oracle推出Big Data SQL软件来整合包括Hadoop、NoSQL和Oracl
用户1410343
2018-03-27
8050
Kafka权威指南 —— 1.2 初识Kafka
什么是Kafka Apache Kafka是一个基于分布式日志提交机制设计的发布订阅系统。数据在kafka中持久化,用户可以随时按需读取。另外数据以分布式的方式存储,提高容错性,易于扩展。 Message和Batches Kafka中最基本的数据单元是消息message,如果使用过数据库,那么可以把Kafka中的消息理解成数据库里的一条行或者一条记录。消息是由字符数组组成的,kafka并不关系它内部是什么,索引消息的具体格式与Kafka无关。消息可以有一个可选的key,这个key也是个字符数组,与消息
用户1410343
2018-03-26
1.4K2
spark2.2 SparkSession思考与总结1
问题导读 1.你认为为何出现SparkSession? 2.SparkSession如何创建RDD? 3.SparkSession通过那个类来实例化? 4.bulider包含哪些函数? 为何出现SparkSession 对于spark1.x的版本,我们最常用的是rdd,如果我们想使用DataFrame,则需要通过rdd转换。随着dataframe和dataset使用的越来越多,所以spark就寻找了新的切入点--SparkSession。如果rdd使用SparkContext,DateFrame和Dat
用户1410343
2018-03-26
1.5K0
spark2 sql读取json文件的格式要求
问题导读 1.spark2 sql如何读取json文件? 2.spark2读取json格式文件有什么要求? 3.spark2是如何处理对于带有表名信息的json文件的? spark有多个数据源,
用户1410343
2018-03-26
2.4K0
spark2 sql读取数据源编程学习样例1
问题导读 1.dataframe如何保存格式为parquet的文件? 2.在读取csv文件中,如何设置第一行为字段名? 3.dataframe保存为表如何指定buckete数目? 作为一个开发人员
用户1410343
2018-03-26
1.6K0
spark2 sql读取数据源编程学习样例2:函数实现详解
问题导读 1.RDD转换为DataFrame需要导入哪个包? 2.Json格式的Dataset如何转换为DateFrame? 3.如何实现通过jdbc读取和保存数据到数据源? spark2 sql
用户1410343
2018-03-26
1.3K0
spark2 sql编程样例:sql操作
问题导读 1.DataFrame中本文使用了row哪些方法? 2.操作DataFrame row需要导入什么包? 3.teenagersDF.map(teenager => "Name: " + te
用户1410343
2018-03-26
3.4K0
spark sql编程之实现合并Parquet格式的DataFrame的schema
问题导读 1.DataFrame合并schema由哪个配置项控制? 2.修改配置项的方式有哪两种? 3.spark读取hive parquet格式的表,是否转换为自己的格式? 首先说下什么是sch
用户1410343
2018-03-26
1.6K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档