腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
扎心了老铁
专栏作者
举报
89
文章
206099
阅读量
41
订阅数
订阅专栏
申请加入专栏
全部文章(89)
python(22)
云数据库 Redis(11)
java(10)
es 2(9)
其他(8)
分布式(8)
zookeeper(8)
sql(7)
spark(7)
数据库(6)
django(6)
编程算法(5)
大数据(5)
云数据库 SQL Server(4)
api(4)
linux(4)
hive(4)
mybatis(4)
hadoop(3)
javascript(2)
node.js(2)
ajax(2)
maven(2)
apache(2)
nginx(2)
spring(2)
http(2)
存储(2)
缓存(2)
jvm(2)
grep(2)
rabbitmq(2)
安全(2)
erlang(1)
.net(1)
servlet(1)
scala(1)
html(1)
jquery(1)
嵌入式(1)
memcached(1)
mvc(1)
打包(1)
centos(1)
容器镜像服务(1)
mapreduce(1)
mongodb(1)
容器(1)
压力测试(1)
数据迁移(1)
爬虫(1)
ssh(1)
yum(1)
spring boot(1)
aop(1)
tcp/ip(1)
scrapy(1)
jenkins(1)
数据结构(1)
kafka(1)
配置(1)
搜索文章
搜索
搜索
关闭
大数据算法设计模式(2) - 左外链接(leftOuterJoin) spark实现
大数据
左外链接(leftOuterJoin) spark实现 package com.kangaroo.studio.algorithms.join; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.
用户1225216
2018-03-05
681
0
thrift例子:python客户端/java服务端
python
java
大数据
java服务端的代码请看上文。 1、说明: 这两篇文章其实解决的问题是,当使用python去访问大数据线上集群的时候,遇到两个问题: 1)python-hadoop和python-hive相关包链接不稳定,表现为经常出现链接超时; 2)如果使用fork进程执行hadoop fs或者hive -e的方式则消耗大量的机器资源,包括进程资源和集群链接资源。 我们的解决方式是写一个java的代理服务,使用java-hadoop封装了对集群的操作,通过thrift提供接口给python程序。 2、编译.thrfit
用户1225216
2018-03-05
1.4K
0
大数据算法设计模式(1) - topN spark实现
大数据
spark
编程算法
topN算法,spark实现 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFuncti
用户1225216
2018-03-05
1.2K
0
java使用spark/spark-sql处理schema数据
java
spark
sql
大数据
1、spark是什么? Spark是基于内存计算的大数据并行计算框架。 1.1 Spark基于内存计算 相比于MapReduce基于IO计算,提高了在大数据环境下数据处理的实时性。 1.2 高容错性和高可伸缩性 与mapreduce框架相同,允许用户将Spark部署在大量廉价硬件之上,形成集群。 2、spark编程 每一个spark应用程序都包含一个驱动程序(driver program ),他会运行用户的main函数,并在集群上执行各种并行操作(parallel operations) spark提供的最
用户1225216
2018-03-05
988
0
hiveQL求差集
hive
大数据
hive sql求差集的方法 1、什么是差集 set1 - set2,即去掉set1中存在于set2中的数据。 2、hive中计算差集的方法,基本是使用左外链接。 直接上代码 select * from table1 t1 left outer join table2 t2 on t1.id = t2.id where t2.id = null; 3、一般来说我们要先去重,使得两个表都变成集合,元素唯一。 先对table2(右表)去重然后再计算差集。 select * from ( selec
用户1225216
2018-03-05
3.2K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档