腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
浪淘沙
专栏作者
举报
86
文章
79188
阅读量
18
订阅数
订阅专栏
申请加入专栏
全部文章(86)
其他(46)
java(10)
sql(10)
spark(10)
数据库(8)
xml(7)
apache(7)
http(6)
存储(6)
mapreduce(4)
开源(4)
分布式(4)
hadoop(4)
hive(4)
python(3)
servlet(3)
云数据库 SQL Server(3)
云数据库 Redis(3)
api(3)
jdk(3)
jvm(3)
hbase(3)
access(2)
git(2)
jar(2)
tomcat(2)
spring(2)
编程算法(2)
jdbc(2)
安全(2)
费用中心(1)
php(1)
go(1)
.net(1)
scala(1)
node.js(1)
mvc(1)
ide(1)
eclipse(1)
github(1)
maven(1)
unix(1)
访问管理(1)
腾讯优客(1)
xslt & xpath(1)
容器(1)
serverless(1)
游戏(1)
缓存(1)
网络安全(1)
ssh(1)
mybatis(1)
sql server(1)
面向对象编程(1)
zookeeper(1)
aop(1)
tcp/ip(1)
数据分析(1)
数据处理(1)
windows(1)
kafka(1)
搜索文章
搜索
搜索
关闭
数据仓库问题总结
数据库
sql
sql server
mapreduce
1.在关系模型中,实现“关系中不允许出现相同的元组”的约束是通过 “主键” 完成的。
曼路
2019-05-26
813
0
SparkSql学习笔记一
spark
sql
分布式
hive
mapreduce
1.简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL? 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL也支持从Hive中读取数据。 2.特点 *容易整合 *统一的数据访问方式 *兼容Hive *标准的数据连接 3.基本概念 *DataFrame DataFrame(表) = schema(表结构) + Data(表结构,RDD) 就是一个表 是SparkSql 对结构化数据的抽象 DataFrame表现形式就是RDD DataFrame是组织成命名列的数据集。它在概念上等同于关系数据库中的表,但在底层具有更丰富的优化。DataFrames可以从各种来源构建, DataFrame多了数据的结构信息,即schema。 RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。 DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效率、减少数据读取以及执行计划的优化 *Datasets Dataset是数据的分布式集合。Dataset是在Spark 1.6中添加的一个新接口,是DataFrame之上更高一级的抽象。它提供了RDD的优点(强类型化,使用强大的lambda函数的能力)以及Spark SQL优化后的执行引擎的优点。一个Dataset 可以从JVM对象构造,然后使用函数转换(map, flatMap,filter等)去操作。 Dataset API 支持Scala和Java。 Python不支持Dataset API。 4.创建表 DataFrame 方式一 使用case class 定义表 val df = studentRDD.toDF 方式二 使用SparkSession直接生成表 val df = session.createDataFrame(RowRDD,scheme) 方式三 直接读取一个带格式的文件(json文件) spark.read.json("") 5.视图(虚表) 普通视图 df.createOrReplaceTempView("emp") 只对当前对话有作用 全局视图 df.createGlobalTempView("empG") 在全局(不同会话)有效 前缀:global_temp 6.操作表: 两种语言:SQL,DSL spark.sql("select * from t ").show df.select("name").show
曼路
2018-10-18
800
0
Spark Core 学习笔记
spark
mapreduce
数据分析
分布式
sql
1:Spark Core:内核,也是Spark中最重要的部分,相当于Mapreduce SparkCore 和 Mapreduce都是进行离线数据分析 SparkCore的核心:RDD(弹性分布式数据集),由分区组成 2:Spark Sql:相当于Hive 支持Sql和DSL语句 -》Spark任务(RDD)-》运行
曼路
2018-10-18
2.1K
0
MapReduce操作实例
mapreduce
java
apache
hadoop
存储
要点:有一个combiner方法,可以在执行完map时调用,从而对数据进行先一步的处理,降低Reduce的IO压力。
曼路
2018-10-18
1.5K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档