我是攻城师-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我是攻城师

专栏成员

492

文章

1001341

阅读量

119

订阅数

使用Spark SQL的临时表解决一个小问题

spark sql scala hive

最近在使用spark处理一个业务场景时，遇到一个小问题，我在scala代码里，使用spark sql访问hive的表，然后根据一批id把需要的数据过滤出来，本来是非常简单的需求直接使用下面的伪SQL即可：但现在遇到的问题是id条件比较多，大概有几万个，这样量级的in是肯定会出错的，看网上文章hive的in查询超过3000个就报错了。如何解决？主要有两种解决方法：（一）分批执行，就是把几万个id，按3000一组查询一次，最后把所有的查询结果在汇合起来。（二）使用join，把几万个id创建成一张hiv

我是攻城师

2018-05-14

2.6K0

在Scala里面如何使用元组

scala 数据结构数据库

元组在Scala语言中是一种十分重要的数据结构，类似数据库里面的一行记录（row），它可以将不同类型的值组合成一个对象，在实际应用中十分广泛。先来看一个简单的tuple定义：上面的第二种例子中，可

我是攻城师

2018-05-14

8060

Scala里面的排序函数的使用

编程算法 scala

排序方法在实际的应用场景中非常常见，Scala里面有三种排序方法，分别是： sorted，sortBy ，sortWith 分别介绍下他们的功能：（1）sorted 对一个集合进行自然排序，通过传递隐式的Ordering （2）sortBy 对一个属性或多个属性进行排序，通过它的类型。（3）sortWith 基于函数的排序，通过一个comparator函数，实现自定义排序的逻辑。例子一：基于单集合单字段的排序结果：例子二：基于元组多字段的排序注意多字段的排序，使用sorted比较麻烦，这里给出使

我是攻城师

2018-05-14

1.7K0

在scala中使用spark sql解决特定需求

scala spark sql hive

Spark sql on hive的一个强大之处就是能够嵌在编程语言内执行，比如在Java或者Scala，Python里面，正是因为这样的特性，使得spark sql开发变得更加有趣。比如我们想做一个简单的交互式查询，我们可以直接在Linux终端直接执行spark sql查询Hive来分析，也可以开发一个jar来完成特定的任务。有些时候单纯的使用sql开发可能功能有限，比如我有下面的一个功能：一张大的hive表里面有许多带有日期的数据，现在一个需求是能够把不同天的数据分离导入到不同天的es索引里面，方

我是攻城师

2018-05-14

1.3K0

在scala中使用spark sql解决特定需求（2）

scala spark sql

接着上篇文章，本篇来看下如何在scala中完成使用spark sql将不同日期的数据导入不同的es索引里面。首下看下用到的依赖包有哪些：下面看相关的代码，代码可直接在跑在win上的idea中，使用的是local模式，数据是模拟造的：分析下，代码执行过程：（1）首先创建了一个SparkSession对象，注意这是新版本的写法，然后加入了es相关配置（2）导入了隐式转化的es相关的包（3）通过Seq+Tuple创建了一个DataFrame对象，并注册成一个表（4）导入spark sql后，执行了一

我是攻城师

2018-05-14

7900

使用Scala的强大api快速加工数据

scala api java 开源

Scala是一门高级的，非常灵活和强大的函数式编程语言，既支持类型严格，语义明确的面向对象的编程风格，也支持类型多变，写法风骚的函数式编码。 Scala中封装了许多有用强大的api，使我们处理数据更加

我是攻城师

2018-05-14

9310

Scala里面如何使用枚举

枚举通常用来定义已知数量的常量，比如月份，星期，季节等等，用过java的人都知道定义枚举的关键字是enum，在scala里面和java有所不同，来看一个完整的例子定义：上面的这个例子基本涵盖了枚举的所有常用方法，定义枚举我们继承的是Enumeration抽象类，然后通过内部对象Value来赋值每一个枚举的值，此外里面还定义了几个工具方法，比如判断是否存在某个枚举，是否是工作日，以及打印所有的枚举值，在使用的时候可以直接通过Object来访问。此外还可以用枚举值做模式匹配：上面基本就是Scala里面最

我是攻城师

2018-05-14

1.1K0

如何使用scala+spark读写hbase？

scala hbase spark

最近工作有点忙，所以文章更新频率低了点，希望大家可以谅解，好了，言归正传，下面进入今天的主题：如何使用scala+spark读写Hbase 软件版本如下： scala2.11.8 spark2.1.0 hbase1.2.0 公司有一些实时数据处理的项目，存储用的是hbase，提供实时的检索，当然hbase里面存储的数据模型都是简单的，复杂的多维检索的结果是在es里面存储的，公司也正在引入Kylin作为OLAP的数据分析引擎，这块后续有空在研究下。接着上面说的，hbase存储着一些实时的数据，前两周新需求

我是攻城师

2018-05-14

1.6K0

Spark如何在一个SparkContext中提交多个任务

spark jvm scala linux

在使用spark处理数据的时候，大多数都是提交一个job执行，然后job内部会根据具体的任务，生成task任务，运行在多个进程中，比如读取的HDFS文件的数据，spark会加载所有的数据，然后根据block个数生成task数目，多个task运行中不同的进程中，是并行的，如果在同一个进程中一个JVM里面有多个task，那么多个task也可以并行，这是常见的使用方式。考虑下面一种场景，在HDFS上某个目录下面有10个文件，我想要同时并行的去统计每个文件的数量，应该怎么做？其实spark是支持在一个spark

我是攻城师

2018-05-14

3.2K0

如何在Scala中读取Hadoop集群上的gz压缩文件

存在Hadoop集群上的文件，大部分都会经过压缩，如果是压缩后的文件，我们直接在应用程序中如何读取里面的数据？答案是肯定的，但是比普通的文本读取要稍微复杂一点，需要使用到Hadoop的压缩工具类支持，比如处理gz，snappy，lzo，bz压缩的，前提是首先我们的Hadoop集群得支持上面提到的各种压缩文件。本次就给出一个读取gz压缩文件的例子核心代码：压缩和解压模块用的工具包是apache-commons下面的类： import org.apache.commons.io.IOUtils impor

我是攻城师

2018-05-14

2.7K0

spark sql on hive笔记一

spark sql hive scala

Spark sql on Hive非常方便，通过共享读取hive的元数据，我们可以直接使用spark sql访问hive的库和表，做更快的OLAP的分析。 spark 如果想直接能集成sql，最好自己编译下源码：切换scala的版本为新版本 dev/change-scala-version.sh 2.11编译支持hive mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.7.3 -Dscala-2.11 -DskipTests clean pac

我是攻城师

2018-05-14

1.1K0

Scala中的case match语法

scala java spark 人工智能

scala中的case语法与java中的switch语法类似，但比switch更强大：例子一正则匹配： val Pattern="(s.*)".r val v1="spark"; val r=v1 match { case Pattern(v1)=> "begin s*" case "1"=> "1" case "2"=> "2" case _=> "default" } println(r) // beg

我是攻城师

2018-05-14

2.4K0

Scala中的Map使用例子

scala api spark

Map结构是一种非常常见的结构，在各种程序语言都有对应的api，由于Spark的底层语言是Scala，所以有必要来了解下Scala中的Map使用方法。（1）不可变Map 特点： api不太丰富如果是var修饰，引用可变，支持读写如果是val修饰，引用不可变，只能写入一次值，其后只读 var a:Map[String,Int]=Map("k1"->1,"k2"->2)//初始化构造函数 a += ("k3"->3)//添加元素 a += ("k4"->4)//添加元素 a +=

我是攻城师

2018-05-14

3.1K0

Scala里面如何使用break和continue

好多从Java转过来使用Scala的人会发现Scala里面竟然没有break和contine关键字，其实不是这样的，Scala里面推荐使用函数式的风格解决break和contine的功能，而不是一个关键字。如何在Scala中实现break和continue呢？ (1)break例子 breakable( for(i<-0 until 10) { println(i) if(i==5){ break() } } )

我是攻城师

2018-05-14

1.3K0

在Scala里面如何使用正则处理数据

scala spark 大数据 java

正则在任何一门编程语言中，都是必不可少的一个模块，使用它来处理文本是非常方便的，尤其在处理在使用Spark处理大数据的时候，做ETL需要各种清洗，判断，会了正则之后，我们可以非常轻松的面对各种复杂的处理，Scala里面的正则也比Java简化了许多，使用起来也比较简单，下面通过几个例子来展示下其用法： /** * Created by QinDongLiang on 2017/1/5. */object ScalaRegex { def main(args: Array[String]): Un

我是攻城师

2018-05-14

9190

Intellj IDEA +SBT + Scala + Spark Sql读取HDFS数据

scala spark sql

前提Spark集群已经搭建完毕,如果不知道怎么搭建，请参考这个链接： http://qindongliang.iteye.com/blog/2224797 注意提交作业，需要使用sbt打包成一个

我是攻城师

2018-05-11

1.9K0

Scala语言开发Spark应用程序

scala spark java

Scala语言开发Spark应用程序本来这篇文章早就应该写了,拖到现在都有点不好意思了，今天就简单写点算抛砖吧，砸不砸到人，请各位看官自行躲避。闲话少说步入正题。 Spark内核是由Sca

我是攻城师

2018-05-11

1.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态