首页
学习
活动
专区
工具
TVP
发布

个人分享

专栏作者
238
文章
256632
阅读量
42
订阅数
一次极限项目管理,设计,开发,联调与测试
     什么是All In? 是你不知道全力做这件事情会得到什么。但你只想把它做好的感觉。
用户3003813
2018-10-09
1.2K0
SparkSQL(源码阅读三)
  额,没忍住,想完全了解sparksql,毕竟一直在用嘛,想一次性搞清楚它,所以今天再多看点好了~
用户3003813
2018-09-06
1.1K0
SparkConf加载与SparkContext创建(源码阅读一)
即日起开始spark源码阅读之旅,这个过程是相当痛苦的,也许有大量的看不懂,但是每天一个方法,一点点看,相信总归会有极大地提高的。那么下面开始:
用户3003813
2018-09-06
7910
Hbase数据导入导出
平时用于从生产环境hbase到导出数据到测试环境。 导入数据: import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.Map; import java.util.S
用户3003813
2018-09-06
3.4K0
Spark性能测试报告与调优参数
1、代码中尽量避免group by函数,如果需要数据聚合,group形式的为rdd.map(x=>(x.chatAt(0),x)).groupbyKey().mapValues((x=>x.toSet.size)).collection() 改为 rdd.map(x=>(x.chatAt(0),x)).countByKey();或进行reduceByKey,效率会提高3倍。
用户3003813
2018-09-06
1.8K0
SparkConf加载与SparkContext创建(源码阅读四)
  sparkContext创建还没完呢,紧接着前两天,我们继续探索。。作死。。。
用户3003813
2018-09-06
5690
Spark Job的提交与task本地化分析(源码阅读八)
  我们又都知道,Spark中任务的处理也要考虑数据的本地性(locality),Spark目前支持PROCESS_LOCAL(本地进程)、NODE_LOCAL(本地节点)、NODE_PREF、RACK_LOCAL(本地机架)、ANY(任何)几种。其他都很好理解,NODE_LOCAL会在spark日志中执行拉取数据所执行的task时,打印出来,因为Spark是移动计算,而不是移动数据的嘛。
用户3003813
2018-09-06
8170
主流大数据技术全体系参数与搭建与后台代码工程框架的编写(百分之70)
之前查阅源码啊,性能测试啊调优啊。。基本告一段落,项目也接近尾声,那么整理下spark所有配置参数与优化策略,方便以后开发与配置:
用户3003813
2018-09-06
1.2K0
hiveql函数笔记(二)
SELECT count(*),avg(salary) FROM employees;
用户3003813
2018-09-06
8090
hiveql笔记(一)
create table if not exists mydb.employees{
用户3003813
2018-09-06
3100
Hadoop源码分类概要整理
  最近突然觉得, 很多掌握的都还是很浅的原理,需要更深入细粒度去了解整个分布式系统的运转机制。于是。。开始作死而又作死而又作死的源码之旅。
用户3003813
2018-09-06
4590
Hive metastore源码阅读(一)
  不要问我为什么,因为爱,哈哈哈哈。。。进入正题,最近做项目顺带学习了下hive metastore的源码,进行下知识总结。
用户3003813
2018-09-06
2.9K0
Hive metastore源码阅读(二)
  最近随着项目的深入,发现hive meta有些弊端,就是你会发现它的元数据操作与操作物理集群的代码耦合在一起,非常不利于扩展。比如:在create_table的时候同时进行路径校验及创建,如下代码:
用户3003813
2018-09-06
1.3K0
Hive metastore源码阅读(三)
  上次写了hive metastore的partition的生命周期,但是简略概括了下alter_partition的操作,这里补一下alter_partition,因为随着项目的深入,发现它涉及的地方较多,比如insert into 时如果路径存在情况下会调用alter_partition,调用insert overwrite语句时,也会调用该方法,
用户3003813
2018-09-06
1.1K0
Linux知识体系之路径属性与目录
  最近在看鸟哥的Linux私房菜,我觉得这本书还是很不错的。这里进行相关的总结。
用户3003813
2018-09-06
7020
Linux知识体系之磁盘与档案系统管理
硬盘的物理组成:由许许多多的圆形硬盘盘所组成。宜居硬盘盘能够容纳的数据量,而有所谓的单碟或者多碟。
用户3003813
2018-09-06
9480
Hive metastore表结构设计分析
  今天总结下,Hive metastore的结构设计。什么是metadata呢,对于它的描述,可以理解为数据的数据,主要是描述数据的属性的信息。它是用来支持如存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录。为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
用户3003813
2018-09-06
1.6K0
Hive metastore整体代码分析及详解
  从上一篇对Hive metastore表结构的简要分析中,我再根据数据设计的实体对象,再进行整个代码结构的总结。那么我们先打开metadata的目录,其目录结构:
用户3003813
2018-09-06
4K0
Hive操作表部分总结
create table tableName(time INT,userid BIGINT,url STRING,ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the tableName table' PARTITIONED BY (dt STRING,country String)  CLUSTERED BY(userid) SORTED BY(time) INTO 32 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '001'  MAP KEYS TERMINATED BY '\003' STORED as SEQUENCEFILE;
用户3003813
2018-09-06
5530
Hbase条件筛选
需求来自于,模糊查找当天的所有记录,并查找对应列的记录数 public static void main(String[] args) throws Exception{ //创建HBase连接 Configuration conf = HBaseConfiguration.create(); //设定需要查询的表 HTable table = new HTable(conf,"EVENT_LOG_LBS_HIS"); Scan scan = new Scan();
用户3003813
2018-09-06
1.5K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档