首页
学习
活动
专区
工具
TVP
发布

我是攻城师

专栏成员
492
文章
1001341
阅读量
119
订阅数
使用Spark SQL的临时表解决一个小问题
最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用spark sql访问hive的表,然后根据一批id把需要的数据过滤出来,本来是非常简单的需求直接使用下面的伪SQL即可: 但现在遇到的问题是id条件比较多,大概有几万个,这样量级的in是肯定会出错的,看网上文章hive的in查询超过3000个就报错了。 如何解决? 主要有两种解决方法: (一)分批执行,就是把几万个id,按3000一组查询一次,最后把所有的查询结果在汇合起来。 (二)使用join,把几万个id创建成一张hiv
我是攻城师
2018-05-14
2.6K0
在Scala里面如何使用元组
元组在Scala语言中是一种十分重要的数据结构,类似数据库里面的一行记录(row),它可以将不同类型的值组合成一个对象,在实际应用中十分广泛。 先来看一个简单的tuple定义: 上面的第二种例子中,可
我是攻城师
2018-05-14
8060
Scala里面的排序函数的使用
排序方法在实际的应用场景中非常常见,Scala里面有三种排序方法,分别是: sorted,sortBy ,sortWith 分别介绍下他们的功能: (1)sorted 对一个集合进行自然排序,通过传递隐式的Ordering (2)sortBy 对一个属性或多个属性进行排序,通过它的类型。 (3)sortWith 基于函数的排序,通过一个comparator函数,实现自定义排序的逻辑。 例子一:基于单集合单字段的排序 结果: 例子二:基于元组多字段的排序 注意多字段的排序,使用sorted比较麻烦,这里给出使
我是攻城师
2018-05-14
1.7K0
在scala中使用spark sql解决特定需求
Spark sql on hive的一个强大之处就是能够嵌在编程语言内执行,比如在Java或者Scala,Python里面,正是因为这样的特性,使得spark sql开发变得更加有趣。 比如我们想做一个简单的交互式查询,我们可以直接在Linux终端直接执行spark sql查询Hive来分析,也可以开发一个jar来完成特定的任务。 有些时候单纯的使用sql开发可能功能有限,比如我有下面的一个功能: 一张大的hive表里面有许多带有日期的数据,现在一个需求是能够把不同天的数据分离导入到不同天的es索引里面,方
我是攻城师
2018-05-14
1.3K0
在scala中使用spark sql解决特定需求(2)
接着上篇文章,本篇来看下如何在scala中完成使用spark sql将不同日期的数据导入不同的es索引里面。 首下看下用到的依赖包有哪些: 下面看相关的代码,代码可直接在跑在win上的idea中,使用的是local模式,数据是模拟造的: 分析下,代码执行过程: (1)首先创建了一个SparkSession对象,注意这是新版本的写法,然后加入了es相关配置 (2)导入了隐式转化的es相关的包 (3)通过Seq+Tuple创建了一个DataFrame对象,并注册成一个表 (4)导入spark sql后,执行了一
我是攻城师
2018-05-14
7900
使用Scala的强大api快速加工数据
Scala是一门高级的,非常灵活和强大的函数式编程语言,既支持类型严格,语义明确的面向对象的编程风格,也支持类型多变,写法风骚的函数式编码。 Scala中封装了许多有用强大的api,使我们处理数据更加
我是攻城师
2018-05-14
9310
Scala里面如何使用枚举
枚举通常用来定义已知数量的常量,比如月份,星期,季节等等,用过java的人都知道定义枚举的关键字是enum,在scala里面和java有所不同,来看一个完整的例子定义: 上面的这个例子基本涵盖了枚举的所有常用方法,定义枚举我们继承的是Enumeration抽象类,然后通过内部对象Value来赋值每一个枚举的值,此外里面还定义了几个工具方法,比如判断是否存在某个枚举,是否是工作日,以及打印所有的枚举值,在使用的时候可以直接通过Object来访问 。 此外还可以用枚举值做模式匹配: 上面基本就是Scala里面最
我是攻城师
2018-05-14
1.1K0
如何使用scala+spark读写hbase?
最近工作有点忙,所以文章更新频率低了点,希望大家可以谅解,好了,言归正传,下面进入今天的主题: 如何使用scala+spark读写Hbase 软件版本如下: scala2.11.8 spark2.1.0 hbase1.2.0 公司有一些实时数据处理的项目,存储用的是hbase,提供实时的检索,当然hbase里面存储的数据模型都是简单的,复杂的多维检索的结果是在es里面存储的,公司也正在引入Kylin作为OLAP的数据分析引擎,这块后续有空在研究下。 接着上面说的,hbase存储着一些实时的数据,前两周新需求
我是攻城师
2018-05-14
1.6K0
Spark如何在一个SparkContext中提交多个任务
在使用spark处理数据的时候,大多数都是提交一个job执行,然后job内部会根据具体的任务,生成task任务,运行在多个进程中,比如读取的HDFS文件的数据,spark会加载所有的数据,然后根据block个数生成task数目,多个task运行中不同的进程中,是并行的,如果在同一个进程中一个JVM里面有多个task,那么多个task也可以并行,这是常见的使用方式。 考虑下面一种场景,在HDFS上某个目录下面有10个文件,我想要同时并行的去统计每个文件的数量,应该怎么做? 其实spark是支持在一个spark
我是攻城师
2018-05-14
3.2K0
如何在Scala中读取Hadoop集群上的gz压缩文件
存在Hadoop集群上的文件,大部分都会经过压缩,如果是压缩后的文件,我们直接在应用程序中如何读取里面的数据?答案是肯定的,但是比普通的文本读取要稍微复杂一点,需要使用到Hadoop的压缩工具类支持,比如处理gz,snappy,lzo,bz压缩的,前提是首先我们的Hadoop集群得支持上面提到的各种压缩文件。 本次就给出一个读取gz压缩文件的例子核心代码: 压缩和解压模块用的工具包是apache-commons下面的类: import org.apache.commons.io.IOUtils impor
我是攻城师
2018-05-14
2.7K0
spark sql on hive笔记一
Spark sql on Hive非常方便,通过共享读取hive的元数据,我们可以直接使用spark sql访问hive的库和表,做更快的OLAP的分析。 spark 如果想直接能集成sql,最好自己编译下源码: 切换scala的版本为新版本 dev/change-scala-version.sh 2.11编译支持hive mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.7.3 -Dscala-2.11 -DskipTests clean pac
我是攻城师
2018-05-14
1.1K0
Scala中的case match语法
scala中的case语法与java中的switch语法类似,但比switch更强大: 例子一正则匹配: val Pattern="(s.*)".r val v1="spark"; val r=v1 match { case Pattern(v1)=> "begin s*" case "1"=> "1" case "2"=> "2" case _=> "default" } println(r) // beg
我是攻城师
2018-05-14
2.4K0
Scala中的Map使用例子
Map结构是一种非常常见的结构,在各种程序语言都有对应的api,由于Spark的底层语言是Scala,所以有必要来了解下Scala中的Map使用方法。 (1)不可变Map 特点: api不太丰富 如果是var修饰,引用可变,支持读写 如果是val修饰,引用不可变,只能写入一次值,其后只读 var a:Map[String,Int]=Map("k1"->1,"k2"->2)//初始化构造函数 a += ("k3"->3)//添加元素 a += ("k4"->4)//添加元素 a +=
我是攻城师
2018-05-14
3.1K0
Scala里面如何使用break和continue
好多从Java转过来使用Scala的人会发现Scala里面竟然没有break和contine关键字,其实不是这样的,Scala里面推荐使用函数式的风格解决break和contine的功能,而不是一个关键字。 如何在Scala中实现break和continue呢? (1)break例子 breakable( for(i<-0 until 10) { println(i) if(i==5){ break() } } )
我是攻城师
2018-05-14
1.3K0
在Scala里面如何使用正则处理数据
正则在任何一门编程语言中,都是必不可少的一个模块,使用它来处理文本是非常方便的,尤其在处理在使用Spark处理大数据的时候,做ETL需要各种清洗,判断,会了正则之后,我们可以非常轻松的面对各种复杂的处理,Scala里面的正则也比Java简化了许多,使用起来也比较简单,下面通过几个例子来展示下其用法: /** * Created by QinDongLiang on 2017/1/5. */object ScalaRegex { def main(args: Array[String]): Un
我是攻城师
2018-05-14
9190
Intellj IDEA +SBT + Scala + Spark Sql读取HDFS数据
前提Spark集群已经搭建完毕,如果不知道怎么搭建,请参考这个链接: http://qindongliang.iteye.com/blog/2224797 注意提交作业,需要使用sbt打包成一个
我是攻城师
2018-05-11
1.9K0
Scala语言开发Spark应用程序
Scala语言开发Spark应用程序 本来这篇文章早就应该写了,拖到现在都有点不好意思了,今天就简单写点 算抛砖吧 ,砸不砸到人 ,请各位看官自行躲避。闲话少说步入正题。 Spark内核是由Sca
我是攻城师
2018-05-11
1.3K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档