个人分享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

个人分享

专栏成员

238

文章

266836

阅读量

42

订阅数

一次极限项目管理，设计，开发，联调与测试

什么是All In？是你不知道全力做这件事情会得到什么。但你只想把它做好的感觉。

2018-10-09

1.3K0

SparkSQL（源码阅读三）

　　额，没忍住，想完全了解sparksql，毕竟一直在用嘛，想一次性搞清楚它，所以今天再多看点好了~

2018-09-06

1.1K0

SparkConf加载与SparkContext创建（源码阅读一）

即日起开始spark源码阅读之旅，这个过程是相当痛苦的，也许有大量的看不懂，但是每天一个方法，一点点看，相信总归会有极大地提高的。那么下面开始：

2018-09-06

8180

Hbase数据导入导出

平时用于从生产环境hbase到导出数据到测试环境。导入数据： import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.Map; import java.util.S

2018-09-06

3.5K0

Spark性能测试报告与调优参数

1、代码中尽量避免group by函数，如果需要数据聚合，group形式的为rdd.map(x=>(x.chatAt(0),x)).groupbyKey().mapValues((x=>x.toSet.size)).collection() 改为 rdd.map(x=>(x.chatAt(0）,x)).countByKey();或进行reduceByKey,效率会提高3倍。

2018-09-06

1.9K0

SparkConf加载与SparkContext创建（源码阅读四）

　　sparkContext创建还没完呢，紧接着前两天，我们继续探索。。作死。。。

2018-09-06

5870

Spark Job的提交与task本地化分析（源码阅读八）

　　我们又都知道，Spark中任务的处理也要考虑数据的本地性(locality)，Spark目前支持PROCESS_LOCAL（本地进程）、NODE_LOCAL（本地节点）、NODE_PREF、RACK_LOCAL（本地机架）、ANY（任何）几种。其他都很好理解，NODE_LOCAL会在spark日志中执行拉取数据所执行的task时，打印出来,因为Spark是移动计算，而不是移动数据的嘛。

2018-09-06

8370

主流大数据技术全体系参数与搭建与后台代码工程框架的编写（百分之70）

之前查阅源码啊，性能测试啊调优啊。。基本告一段落，项目也接近尾声，那么整理下spark所有配置参数与优化策略，方便以后开发与配置：

2018-09-06

1.3K0

hiveql函数笔记（二）

SELECT count(*),avg(salary) FROM employees;

2018-09-06

8590

hiveql笔记（一）

create table if not exists mydb.employees{

2018-09-06

3320

Hadoop源码分类概要整理

　　最近突然觉得，很多掌握的都还是很浅的原理，需要更深入细粒度去了解整个分布式系统的运转机制。于是。。开始作死而又作死而又作死的源码之旅。

2018-09-06

4790

Hive metastore源码阅读（一）

　　不要问我为什么，因为爱，哈哈哈哈。。。进入正题，最近做项目顺带学习了下hive metastore的源码，进行下知识总结。

2018-09-06

3.1K0

Hive metastore源码阅读（二）

　　最近随着项目的深入，发现hive meta有些弊端，就是你会发现它的元数据操作与操作物理集群的代码耦合在一起，非常不利于扩展。比如：在create_table的时候同时进行路径校验及创建，如下代码：

2018-09-06

1.3K0

Hive metastore源码阅读（三）

　　上次写了hive metastore的partition的生命周期，但是简略概括了下alter_partition的操作，这里补一下alter_partition,因为随着项目的深入，发现它涉及的地方较多，比如insert into 时如果路径存在情况下会调用alter_partition,调用insert overwrite语句时，也会调用该方法，

2018-09-06

1.1K0

Linux知识体系之路径属性与目录

　　最近在看鸟哥的Linux私房菜，我觉得这本书还是很不错的。这里进行相关的总结。

2018-09-06

7220

Linux知识体系之磁盘与档案系统管理

硬盘的物理组成：由许许多多的圆形硬盘盘所组成。宜居硬盘盘能够容纳的数据量，而有所谓的单碟或者多碟。

2018-09-06

9700

Hive metastore表结构设计分析

　　今天总结下，Hive metastore的结构设计。什么是metadata呢，对于它的描述，可以理解为数据的数据，主要是描述数据的属性的信息。它是用来支持如存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录。为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。

2018-09-06

1.8K0

Hive metastore整体代码分析及详解

　　从上一篇对Hive metastore表结构的简要分析中，我再根据数据设计的实体对象，再进行整个代码结构的总结。那么我们先打开metadata的目录，其目录结构：

2018-09-06

4.2K0

Hive操作表部分总结

create table tableName(time INT,userid BIGINT,url STRING,ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the tableName table' PARTITIONED BY (dt STRING,country String) CLUSTERED BY(userid) SORTED BY(time) INTO 32 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '001' MAP KEYS TERMINATED BY '\003' STORED as SEQUENCEFILE;

2018-09-06

5730

Hbase条件筛选

需求来自于，模糊查找当天的所有记录，并查找对应列的记录数 public static void main(String[] args) throws Exception{ //创建HBase连接 Configuration conf = HBaseConfiguration.create(); //设定需要查询的表 HTable table = new HTable(conf,"EVENT_LOG_LBS_HIS"); Scan scan = new Scan();

2018-09-06

1.5K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态