首页
学习
活动
专区
工具
TVP
发布

我是攻城师

专栏作者
492
文章
958946
阅读量
119
订阅数
如何在spark里面使用窗口函数
在大数据分析中,窗口函数最常见的应用场景就是对数据进行分组后,求组内数据topN的需求,如果没有窗口函数,实现这样一个需求还是比较复杂的,不过现在大多数标准SQL中都支持这样的功能,今天我们就来学习下如何在spark sql使用窗口函数来完成一个分组求TopN的需求。
我是攻城师
2019-06-25
4.1K0
深入理解什么是LSM-Tree
十多年前,谷歌发布了大名鼎鼎的"三驾马车"的论文,分别是GFS(2003年),MapReduce(2004年),BigTable(2006年),为开源界在大数据领域带来了无数的灵感,其中在 “BigTable” 的论文中很多很酷的方面之一就是它所使用的文件组织方式,这个方法更一般的名字叫 Log Structured-Merge Tree。在面对亿级别之上的海量数据的存储和检索的场景下,我们选择的数据库通常都是各种强力的NoSQL,比如Hbase,Cassandra,Leveldb,RocksDB等等,这其中前两者是Apache下面的顶级开源项目数据库,后两者分别是Google和Facebook开源的数据库存储引擎。而这些强大的NoSQL数据库都有一个共性,就是其底层使用的数据结构,都是仿照“BigTable”中的文件组织方式来实现的,也就是我们今天要介绍的LSM-Tree。
我是攻城师
2019-06-03
41.5K2
使用Spark SQL的临时表解决一个小问题
最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用spark sql访问hive的表,然后根据一批id把需要的数据过滤出来,本来是非常简单的需求直接使用下面的伪SQL即可: 但现在遇到的问题是id条件比较多,大概有几万个,这样量级的in是肯定会出错的,看网上文章hive的in查询超过3000个就报错了。 如何解决? 主要有两种解决方法: (一)分批执行,就是把几万个id,按3000一组查询一次,最后把所有的查询结果在汇合起来。 (二)使用join,把几万个id创建成一张hiv
我是攻城师
2018-05-14
2.5K0
在scala中使用spark sql解决特定需求
Spark sql on hive的一个强大之处就是能够嵌在编程语言内执行,比如在Java或者Scala,Python里面,正是因为这样的特性,使得spark sql开发变得更加有趣。 比如我们想做一个简单的交互式查询,我们可以直接在Linux终端直接执行spark sql查询Hive来分析,也可以开发一个jar来完成特定的任务。 有些时候单纯的使用sql开发可能功能有限,比如我有下面的一个功能: 一张大的hive表里面有许多带有日期的数据,现在一个需求是能够把不同天的数据分离导入到不同天的es索引里面,方
我是攻城师
2018-05-14
1.3K0
在scala中使用spark sql解决特定需求(2)
接着上篇文章,本篇来看下如何在scala中完成使用spark sql将不同日期的数据导入不同的es索引里面。 首下看下用到的依赖包有哪些: 下面看相关的代码,代码可直接在跑在win上的idea中,使用的是local模式,数据是模拟造的: 分析下,代码执行过程: (1)首先创建了一个SparkSession对象,注意这是新版本的写法,然后加入了es相关配置 (2)导入了隐式转化的es相关的包 (3)通过Seq+Tuple创建了一个DataFrame对象,并注册成一个表 (4)导入spark sql后,执行了一
我是攻城师
2018-05-14
7720
Apache Kylin的入门安装
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 从官网的介绍来看Kylin是一个OLAP的数据查询引擎,其特点就是快。公司最近准备引入Kylin做数据分析,原来也听说过 但一直没有接触,现在正好可以验证下Kylin是否是传说中那么NB,今天我们先来看看如何安装部署Kylin。 由于Kylin本身只是一个Server,所以安装部署还是比较简
我是攻城师
2018-05-14
9740
ElasticSearch里面如何分组后根据sum值排序
ElasticSearch里面的聚合机制非常灵活和强大,今天我们来看下如何在ElasticSearch里面实现分组后,根据sum值进行排序?类似的数据库SQL如下: 这是一个比较常见的统计需求,在es也能比较轻松的实现,先看看curl的一个实现例子查询: 然后,我们看下,如何在Java Api里面操作: 首先我们看下造的数据 总共三个字段id,count,code都是int类型的 然后,我们可以将上面的数据插入到es里面,具体的插入代码不在给出,比较简单,直接通过client.prepareIndex方法插
我是攻城师
2018-05-14
4.7K0
最近工作中遇到ElasticSearch一些问题总结
最近在使用ElasticSearch来查询我们的一些实时数据,中间也遇到不少的问题,今天在此简单总结记录一下。es的功能的确十分强大,大部分数据库能实现的需求,基本在es里面都能实现,当然两者都有一些
我是攻城师
2018-05-14
1.9K0
spark sql on hive笔记一
Spark sql on Hive非常方便,通过共享读取hive的元数据,我们可以直接使用spark sql访问hive的库和表,做更快的OLAP的分析。 spark 如果想直接能集成sql,最好自己编译下源码: 切换scala的版本为新版本 dev/change-scala-version.sh 2.11编译支持hive mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.7.3 -Dscala-2.11 -DskipTests clean pac
我是攻城师
2018-05-14
1.1K0
Neo4j的查询语法笔记(二)
cypher是neo4j官网提供的声明式查询语言,非常强大,用它可以完成任意的图谱里面的查询过滤,我们知识图谱的一期项目 基本开发完毕,后面会陆续总结学习一下neo4j相关的知识。今天接着上篇文章来看下neo4j的cpyher查询的一些基本概念和语法。 一,Node语法 在cypher里面通过用一对小括号()表示一个节点,它在cypher里面查询形式如下: 1,() 代表匹配任意一个节点 2, (node1) 代表匹配任意一个节点,并给它起了一个别名 3, (:Lable) 代表查询一个类型的数据 4, (
我是攻城师
2018-05-14
4.7K0
如何成为一名优秀的全栈工程师
📷 写在最前 我的前一篇文章《给职场新人的10点职涯建议》发表后,得到了很多简友,特别是年轻程序员朋友们的喜爱,这令我颇感意外,但又很受鼓舞。同时,我也收到了一些简信,大多来自那些毕业不久,刚步入工作岗位的职场新人。询问的内容也大多是如何选择职业方向,如何成为一名优秀的软件工程师,以及怎样快速提高自身的技能等。我在一一回复的同时,不禁想结合自身的经历,谈谈如何才能成为一名优秀的全栈工程师。 什么是全栈工程师 全栈工程师一词,最早出现于Facebook工程师Calos Bueno的一篇文章
我是攻城师
2018-05-14
8320
我是如何从煤矿工成为程序员的
你是否为你将来想从事的工作和事业做出了足够的努力?我将要给你讲述一个真实的故事,一个叫Mircea Goia的煤矿工转行去追求他真正想要的工作的故事:- 我来自于一个东欧国家。我在一个煤矿里工作了很多年(在一个很深的矿井里)。每天我都处在危险中,那些年都是这样度过的。后来我感觉过够了这种生活,决定去寻找另外一种生活(挖煤没有任何前途。)我很年轻,没有任何负担,跟你们一样。 离开煤矿时,政府给了我们一笔钱(大概是2500美元——这在那时在我们国家相当于一个矿工一年的薪水)。我拿着这笔钱就开始学习计算
我是攻城师
2018-05-14
8260
Spark SQL+Hive历险记
基础依赖环境 Apache Hadoop2.7.1 Apache Spark1.6.0 Apache Hive1.2.1 Apache Hbase0.98.12 (1)提前安装好scala的版本,我这里是2.11.7 (2)下载spark-1.6.0源码,解压进入根目录编译 (3)dev/change-scala-version.sh 2.11 修改pom文件,修改对应的hadoop,hbase,hive的版本 执行编译支持hive功能的spark (4)mvn -Pyarn
我是攻城师
2018-05-14
1.2K0
Intellj IDEA +SBT + Scala + Spark Sql读取HDFS数据
前提Spark集群已经搭建完毕,如果不知道怎么搭建,请参考这个链接: http://qindongliang.iteye.com/blog/2224797 注意提交作业,需要使用sbt打包成一个
我是攻城师
2018-05-11
1.8K0
Spark 和 Hadoop 是朋友不是敌人
6月15日,IBM 宣布计划大规模投资 Spark 相关技术,此项声明会促使越来越多的工程师学习 Spark 技术,并且大量的企业也会采用 Spark 技术。 Spark 投资的良性循环会使 Spark 技术发展更加成熟,并且可以从整个大数据环境中获益。然而,Spark 的快速增长给人们一个奇怪且固执的误解:Spark 将取代 Hadoop,而不是作为 Hadoop 的补充。这样的误解可以从类似“旨在比下 Hadoop 的新软件”和“企业将放弃大数据技术 Hadoop”的标题中看出来。 作为一个长期的大数据
我是攻城师
2018-05-11
5570
使用shell分页读取600万+的MySQL数据脚本
shell-mysql (1)脚本背景: 由于要在Linux上,远程读取mysql的表的数据,然后做一定清洗后,把数据上传至Hadoop集群中,使用Java写吧,感觉太麻烦了,得在Win上开发好,还得打成jar包, 上传到Linux上,如果那里出了问题,还得重复这样,非常不方便,那就用shell写一个吧,也不需要什么jdbc驱动包,只需要在Linux上装个MySQL的 客户端即可,用一行yum命令即可搞定,所以就花了点时间,封装了一个小脚本 (2)功能介绍: 直接在Linux下使用shell脚本远
我是攻城师
2018-05-11
1.9K0
玩转大数据系列之Apache Pig高级技能之函数编程(六)
已总结Pig系列的学习文档,点击末尾处,阅读原文即可查看所有,希望对大家有用,感谢关注! 在Hadoop的生态系统中,如果我们要离线的分析海量的数据,大多数人都会选择Apache Hive或Apache Pig,在国内总体来说,Hive使用的人群占比比较高, 而Pig使用的人相对来说,则少的多,这并不是因为Pig不成熟,不稳定,而是因为Hive提供了类数据库SQL的查询语句,使得大多人上手Hive非常容易,相反而Pig则提供了类Linux shell的脚本语法,这使得大多数人不喜欢使用。 如果在编程界
我是攻城师
2018-05-11
7950
Apache Pig如何与Apache Lucene集成?
在文章开始之前,我们还是简单来回顾下Pig的的前尘往事: 1,Pig是什么? Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一
我是攻城师
2018-05-11
1K0
大数据,怎么搞?
随着大数据的爆红,数据分析师这个职位也得到了越来越多的关注,千千万万懂些大数据技术的少年们都渴望成为高大上的“大数据科学家”,可是,你们真的准备好了吗? 1、最早的数据分析可能就报表
我是攻城师
2018-05-11
8800
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档