腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
YG小书屋
专栏成员
举报
64
文章
128264
阅读量
28
订阅数
订阅专栏
申请加入专栏
全部文章(64)
其他(19)
es 2(18)
系统架构(7)
数据库(6)
云数据库 SQL Server(4)
hive(4)
java(3)
python(3)
编程算法(3)
sql(2)
nginx(2)
mapreduce(2)
缓存(2)
spark(2)
hadoop(2)
lua(1)
神经网络(1)
深度学习(1)
批量计算(1)
http(1)
hashmap(1)
线性回归(1)
单元测试(1)
腾讯云开发者社区(1)
es(1)
filter(1)
io(1)
ip(1)
zk(1)
工作流(1)
搜索文章
搜索
搜索
关闭
MapReduce:N keys,N files(三)数据倾斜优化
其他
还是如何将N个keys写到N个文件的需求。 这次的问题是单个key太大,引起的单个reduce任务执行时间过长,导致整个MR运行时间过长。数据大部分的key在千,万级别,而有几个key在亿,10亿级别。 解决数据倾斜问题的核心是将数据量很大的key,打散变小分配给多个reduce,最好能均匀分布,这样所有的reduce接收相同的数据量,大家执行时间相差不多,就解决了数据倾斜问题。
YG
2018-12-19
538
0
MapReduce:N keys,N files(二)
其他
如果你看了MapReduce:N keys,N files(一)这篇文章,并按其介绍的方法尝试去将N个key映射到N的文件中,你会发现分割后数据量比分割前的要多,并且有些文件不能正常读取。 用presto读取的话,可能会报这种错:
YG
2018-12-14
792
0
Hadoop Streaming 读ORC文件
其他
hadoop Streaming的处理流程是先通过inputFormat读出输入文件内容,将其传递mapper,再将mapper返回的key,value传给reducer,最后将reducer返回的值通过outputformat写入输出文件。 目前有个需求是通过hadoop streaming读取roc文件。使用正常的org.apache.orc.mapred.OrcInputFormat读orc文件时每行返回的值是:
YG
2018-12-14
2.8K
0
orc文件格式对常用系统的支持
其他
1、Hive支持 创建表时指定orc格式即可: create table tmp.orc_test(id bigint, name string, age int) stored as orc TBLPROPERTIES('orc.compress'='SNAPPY') 压缩格式有"SNAPPY"和 "ZLIB"两种,需要哪种格式指定即可。 2、SPARK支持 Spark读: df = spark.read.orc("/tmp/test/orc_data") # 读出来的数据是一个dataframe
YG
2018-11-22
2.2K
0
parquet常用操作
其他
第一种是hive0.13之后的版本,第二种时0.13之前的版本。目前大都是使用第一种创建方法。https://cwiki.apache.org/confluence/display/Hive/Parquet
YG
2018-10-22
2.9K
0
Query Auto Completion自动完成查询(一)
其他
当我们用搜索引擎或其他工具搜索内容时,输入框下方的提示内容会根据你的输入进行调整展示。这个过程我们称之为Query Auto Completion(QAC)。用户不完整的输入我们称之为Query Prefix,提示的那些内容我们称之为Query Completions。
YG
2018-10-10
1.9K
0
tensorflow cnn常用函数解析
其他
tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) 除去name参数用以指定该操作的name,与方法有关的一共五个参数:
YG
2018-10-10
709
0
Yarn与Mesos
其他
Yarn是Hadoop2的产物。提到这个问题就不得不说下Hadoop1与Hadoop2的差别。详细的内容可参考博客:https://blog.csdn.net/jiangheng0535/article/details/12946529 。
YG
2018-08-13
533
0
logstash 重复消费kafka问题
其他
前两天业务方突然找到我说当天索引ES查询很慢,原来毫秒级的查询现在竟然要20s,让我处理下。我看了下索引大小,原来是1分片6g左右,今天突然就变成了1分片32g。然后我就一脸硬气的告诉他,你们业务膨胀了5倍,为什么不和平台这边沟通,一分片30多g肯定慢。然后业务一脸懵逼的查了一通,告诉我业务大小没变化。业务方说数据大小没变,我这边logtash也没动过,难道是推送kafka的时候,多推送了几次?(我自己没做改动,不可能有问题的好吗?肯定是别人有问题。。。。。)我让负责kakfa的同学帮忙查了一下,他告诉我kafka接收到的数据和往常一样,没变化。业务数据量没变,kafka接收到的数据量也没变,那只能是logtash的问题。但logstash我也没改,为什么今天就突然变大了呢? 然后我试着查看其他业务当天的索引,发现也特别慢。查看segments发现,一个一分片0副本的索引segments竟然有1400多。这肯定慢,从一个文件中查询与从1400个文件这个性能差的不是一点半点。
YG
2018-08-13
2.9K
0
kudu简介与操作方式
其他
1、kudu整体介绍 Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用。 kudu的使用场景: Strong performance for both scan and random access to help customers simplify complex hybrid architectures(适用于那些既有随机访问,也有批量数据扫描的复合场景) High CPU efficienc
YG
2018-06-12
2K
0
kudu介绍与操作方式
其他
Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用。
YG
2018-06-09
7.6K
0
spark任务提交时绝对路径添加额外配置文件提示找不到路径
其他
spark任务提交,添加额外配置文件时用绝对路径读取不到上传的文件。 /usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_test_80 --master yarn --deploy-mode client --executor-cores 1 --num-executors 2 --executor-memory 1G --driver-memory 4G --conf spark.yarn.queue=rad
YG
2018-05-23
2.7K
0
python 进程池异步调用与进程间通信
其他
1、类包含不能序列化的属性时,多进程异步执行失败 import multiprocessing import os import random import sys class A: pool = None def __init__(self): self.pool = multiprocessing.Pool(3) def execute(self,dirs): pid=0 try: fn = "log"+
YG
2018-05-23
1.8K
0
ES-nginx 长连接和权限配置
其他
长连接配置 events { worker_connections 1024; } http { keepalive_timeout 120s 120s; keepalive_requests 10000; upstream elasticsearch { server 127.0.0.1:9200; keepalive 15; } server { listen 8080; location / { proxy_pa
YG
2018-05-23
2.8K
0
ES5.6 search流程与scroll
其他
ES search大致流程 请求转化,由RestSearchAction转为TransportSearchAction,执行其doExecute()方法 1、如果查询请求的索引含有正则表达式和别名,找出具体的索引 indices = indexNameExpressionResolver.concreteIndices(clusterState, searchRequest.indicesOptions(), timeProvider.getAbsoluteStartMillis()
YG
2018-05-23
1.2K
0
ES 深度分页scroll使用方式
其他
我们知道ES对于from+size的个数是有限制的,二者之和不能超过1w。当所请求的数据总量大于1w时,可用scroll来代替from+size。 首次查询使用方式如下: curl -XGET 'lo
YG
2018-05-23
4.3K
1
ES维护常见问题(持续更新)
其他
1 存在未分片索引 1)找出未分片的索引 curl xxx/_cat/shards?v | grep UNASSIGNED 2)查看未分配的原因 curl -XGET 'http://xxx/_clu
YG
2018-05-23
3.5K
0
索引迁移
其他
索引迁移工具esm 下载地址:https://github.com/medcl/esm 经过测试发现使用--copy_setting和--copymappings失败。而只用--copymappings也不起作用。 /bin/esm -s=http://192.168.3.206:9200 -d=http://localhost:9200 --copy_settings --copy_mappings -x=bestbuykaggle 手动创建索引,设置mapping和setting。数据导入导出没问
YG
2018-05-23
1.3K
0
jmeter 测试ES并发
其他
Jmeter 测试 Jmeter安装 下载安装包解压即可。http://jmeter.apache.org/download_jmeter.cgi Jmeter配置 配置线程组 测试计划->添加
YG
2018-05-23
2.1K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档