腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我是攻城师

专栏作者

492

文章

958946

阅读量

119

订阅数

如何在spark里面使用窗口函数

spark sql 编程算法

在大数据分析中，窗口函数最常见的应用场景就是对数据进行分组后，求组内数据topN的需求，如果没有窗口函数，实现这样一个需求还是比较复杂的，不过现在大多数标准SQL中都支持这样的功能，今天我们就来学习下如何在spark sql使用窗口函数来完成一个分组求TopN的需求。

我是攻城师

2019-06-25

4.1K0

深入理解什么是LSM-Tree

nosql 大数据数据库 sql 开源

十多年前，谷歌发布了大名鼎鼎的"三驾马车"的论文，分别是GFS(2003年)，MapReduce（2004年），BigTable（2006年），为开源界在大数据领域带来了无数的灵感，其中在 “BigTable” 的论文中很多很酷的方面之一就是它所使用的文件组织方式，这个方法更一般的名字叫 Log Structured-Merge Tree。在面对亿级别之上的海量数据的存储和检索的场景下，我们选择的数据库通常都是各种强力的NoSQL，比如Hbase，Cassandra，Leveldb，RocksDB等等，这其中前两者是Apache下面的顶级开源项目数据库，后两者分别是Google和Facebook开源的数据库存储引擎。而这些强大的NoSQL数据库都有一个共性，就是其底层使用的数据结构，都是仿照“BigTable”中的文件组织方式来实现的，也就是我们今天要介绍的LSM-Tree。

我是攻城师

2019-06-03

41.5K2

使用Spark SQL的临时表解决一个小问题

spark sql scala hive

最近在使用spark处理一个业务场景时，遇到一个小问题，我在scala代码里，使用spark sql访问hive的表，然后根据一批id把需要的数据过滤出来，本来是非常简单的需求直接使用下面的伪SQL即可：但现在遇到的问题是id条件比较多，大概有几万个，这样量级的in是肯定会出错的，看网上文章hive的in查询超过3000个就报错了。如何解决？主要有两种解决方法：（一）分批执行，就是把几万个id，按3000一组查询一次，最后把所有的查询结果在汇合起来。（二）使用join，把几万个id创建成一张hiv

我是攻城师

2018-05-14

2.5K0

在scala中使用spark sql解决特定需求

scala spark sql hive

Spark sql on hive的一个强大之处就是能够嵌在编程语言内执行，比如在Java或者Scala，Python里面，正是因为这样的特性，使得spark sql开发变得更加有趣。比如我们想做一个简单的交互式查询，我们可以直接在Linux终端直接执行spark sql查询Hive来分析，也可以开发一个jar来完成特定的任务。有些时候单纯的使用sql开发可能功能有限，比如我有下面的一个功能：一张大的hive表里面有许多带有日期的数据，现在一个需求是能够把不同天的数据分离导入到不同天的es索引里面，方

我是攻城师

2018-05-14

1.3K0

在scala中使用spark sql解决特定需求（2）

scala spark sql

接着上篇文章，本篇来看下如何在scala中完成使用spark sql将不同日期的数据导入不同的es索引里面。首下看下用到的依赖包有哪些：下面看相关的代码，代码可直接在跑在win上的idea中，使用的是local模式，数据是模拟造的：分析下，代码执行过程：（1）首先创建了一个SparkSession对象，注意这是新版本的写法，然后加入了es相关配置（2）导入了隐式转化的es相关的包（3）通过Seq+Tuple创建了一个DataFrame对象，并注册成一个表（4）导入spark sql后，执行了一

我是攻城师

2018-05-14

7720

Apache Kylin的入门安装

apache 开源分布式 hadoop sql

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。从官网的介绍来看Kylin是一个OLAP的数据查询引擎，其特点就是快。公司最近准备引入Kylin做数据分析，原来也听说过但一直没有接触，现在正好可以验证下Kylin是否是传说中那么NB，今天我们先来看看如何安装部署Kylin。由于Kylin本身只是一个Server，所以安装部署还是比较简

我是攻城师

2018-05-14

9740

ElasticSearch里面如何分组后根据sum值排序

es 2 数据库 sql java api

ElasticSearch里面的聚合机制非常灵活和强大，今天我们来看下如何在ElasticSearch里面实现分组后，根据sum值进行排序？类似的数据库SQL如下：这是一个比较常见的统计需求，在es也能比较轻松的实现，先看看curl的一个实现例子查询：然后，我们看下，如何在Java Api里面操作：首先我们看下造的数据总共三个字段id,count,code都是int类型的然后，我们可以将上面的数据插入到es里面，具体的插入代码不在给出，比较简单，直接通过client.prepareIndex方法插

我是攻城师

2018-05-14

4.7K0

最近工作中遇到ElasticSearch一些问题总结

es 2 数据库 sql 大数据 java

最近在使用ElasticSearch来查询我们的一些实时数据，中间也遇到不少的问题，今天在此简单总结记录一下。es的功能的确十分强大，大部分数据库能实现的需求，基本在es里面都能实现，当然两者都有一些

我是攻城师

2018-05-14

1.9K0

spark sql on hive笔记一

spark sql hive scala

Spark sql on Hive非常方便，通过共享读取hive的元数据，我们可以直接使用spark sql访问hive的库和表，做更快的OLAP的分析。 spark 如果想直接能集成sql，最好自己编译下源码：切换scala的版本为新版本 dev/change-scala-version.sh 2.11编译支持hive mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.7.3 -Dscala-2.11 -DskipTests clean pac

我是攻城师

2018-05-14

1.1K0

Neo4j的查询语法笔记(二)

hadoop sql json

cypher是neo4j官网提供的声明式查询语言，非常强大，用它可以完成任意的图谱里面的查询过滤，我们知识图谱的一期项目基本开发完毕，后面会陆续总结学习一下neo4j相关的知识。今天接着上篇文章来看下neo4j的cpyher查询的一些基本概念和语法。一，Node语法在cypher里面通过用一对小括号()表示一个节点，它在cypher里面查询形式如下： 1，() 代表匹配任意一个节点 2, (node1) 代表匹配任意一个节点，并给它起了一个别名 3, (:Lable) 代表查询一个类型的数据 4, (

我是攻城师

2018-05-14

4.7K0

如何成为一名优秀的全栈工程师

数据库 sql git github 开源

📷 写在最前我的前一篇文章《给职场新人的10点职涯建议》发表后，得到了很多简友，特别是年轻程序员朋友们的喜爱，这令我颇感意外，但又很受鼓舞。同时，我也收到了一些简信，大多来自那些毕业不久，刚步入工作岗位的职场新人。询问的内容也大多是如何选择职业方向，如何成为一名优秀的软件工程师，以及怎样快速提高自身的技能等。我在一一回复的同时，不禁想结合自身的经历，谈谈如何才能成为一名优秀的全栈工程师。什么是全栈工程师全栈工程师一词，最早出现于Facebook工程师Calos Bueno的一篇文章

我是攻城师

2018-05-14

8320

我是如何从煤矿工成为程序员的

网站数据库 sql

你是否为你将来想从事的工作和事业做出了足够的努力？我将要给你讲述一个真实的故事，一个叫Mircea Goia的煤矿工转行去追求他真正想要的工作的故事:- 我来自于一个东欧国家。我在一个煤矿里工作了很多年(在一个很深的矿井里)。每天我都处在危险中，那些年都是这样度过的。后来我感觉过够了这种生活，决定去寻找另外一种生活(挖煤没有任何前途。)我很年轻，没有任何负担，跟你们一样。离开煤矿时，政府给了我们一笔钱(大概是2500美元——这在那时在我们国家相当于一个矿工一年的薪水)。我拿着这笔钱就开始学习计算

我是攻城师

2018-05-14

8260

Spark SQL+Hive历险记

基础依赖环境 Apache Hadoop2.7.1 Apache Spark1.6.0 Apache Hive1.2.1 Apache Hbase0.98.12 （1）提前安装好scala的版本，我这里是2.11.7 （2）下载spark-1.6.0源码，解压进入根目录编译（3）dev/change-scala-version.sh 2.11 修改pom文件，修改对应的hadoop，hbase，hive的版本执行编译支持hive功能的spark （4）mvn -Pyarn

我是攻城师

2018-05-14

1.2K0

Intellj IDEA +SBT + Scala + Spark Sql读取HDFS数据

scala spark sql

前提Spark集群已经搭建完毕,如果不知道怎么搭建，请参考这个链接： http://qindongliang.iteye.com/blog/2224797 注意提交作业，需要使用sbt打包成一个

我是攻城师

2018-05-11

1.8K0

Spark 和 Hadoop 是朋友不是敌人

hadoop spark mapreduce yarn sql

6月15日，IBM 宣布计划大规模投资 Spark 相关技术，此项声明会促使越来越多的工程师学习 Spark 技术，并且大量的企业也会采用 Spark 技术。 Spark 投资的良性循环会使 Spark 技术发展更加成熟，并且可以从整个大数据环境中获益。然而，Spark 的快速增长给人们一个奇怪且固执的误解：Spark 将取代 Hadoop，而不是作为 Hadoop 的补充。这样的误解可以从类似“旨在比下 Hadoop 的新软件”和“企业将放弃大数据技术 Hadoop”的标题中看出来。作为一个长期的大数据

我是攻城师

2018-05-11

5570

使用shell分页读取600万+的MySQL数据脚本

jdbc 云数据库 SQL Server sql linux 数据库

shell-mysql （1）脚本背景: 由于要在Linux上，远程读取mysql的表的数据，然后做一定清洗后，把数据上传至Hadoop集群中，使用Java写吧，感觉太麻烦了，得在Win上开发好，还得打成jar包，上传到Linux上，如果那里出了问题，还得重复这样，非常不方便，那就用shell写一个吧，也不需要什么jdbc驱动包，只需要在Linux上装个MySQL的客户端即可，用一行yum命令即可搞定，所以就花了点时间，封装了一个小脚本（2）功能介绍: 直接在Linux下使用shell脚本远

我是攻城师

2018-05-11

1.9K0

玩转大数据系列之Apache Pig高级技能之函数编程（六）

shell hive java sql linux

已总结Pig系列的学习文档，点击末尾处，阅读原文即可查看所有，希望对大家有用，感谢关注！在Hadoop的生态系统中，如果我们要离线的分析海量的数据，大多数人都会选择Apache Hive或Apache Pig，在国内总体来说，Hive使用的人群占比比较高，而Pig使用的人相对来说，则少的多，这并不是因为Pig不成熟，不稳定，而是因为Hive提供了类数据库SQL的查询语句，使得大多人上手Hive非常容易，相反而Pig则提供了类Linux shell的脚本语法，这使得大多数人不喜欢使用。如果在编程界

我是攻城师

2018-05-11

7950

Apache Pig如何与Apache Lucene集成？

大数据存储数据分析 hive sql

在文章开始之前，我们还是简单来回顾下Pig的的前尘往事： 1，Pig是什么？ Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache（一个开源软件的基金组织）的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台，它提供的SQL-like语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一

我是攻城师

2018-05-11

1K0

大数据，怎么搞？

大数据数据分析数据库 sql

随着大数据的爆红，数据分析师这个职位也得到了越来越多的关注，千千万万懂些大数据技术的少年们都渴望成为高大上的“大数据科学家”，可是，你们真的准备好了吗？ 1、最早的数据分析可能就报表

我是攻城师

2018-05-11

8800

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态