首页
学习
活动
专区
工具
TVP
发布

YG小书屋

专栏作者
64
文章
123814
阅读量
28
订阅数
MapReduce:N keys,N files(三)数据倾斜优化
还是如何将N个keys写到N个文件的需求。 这次的问题是单个key太大,引起的单个reduce任务执行时间过长,导致整个MR运行时间过长。数据大部分的key在千,万级别,而有几个key在亿,10亿级别。 解决数据倾斜问题的核心是将数据量很大的key,打散变小分配给多个reduce,最好能均匀分布,这样所有的reduce接收相同的数据量,大家执行时间相差不多,就解决了数据倾斜问题。
YG
2018-12-19
5190
MapReduce:N keys,N files(二)
如果你看了MapReduce:N keys,N files(一)这篇文章,并按其介绍的方法尝试去将N个key映射到N的文件中,你会发现分割后数据量比分割前的要多,并且有些文件不能正常读取。 用presto读取的话,可能会报这种错:
YG
2018-12-14
7520
Hadoop Streaming 读ORC文件
hadoop Streaming的处理流程是先通过inputFormat读出输入文件内容,将其传递mapper,再将mapper返回的key,value传给reducer,最后将reducer返回的值通过outputformat写入输出文件。 目前有个需求是通过hadoop streaming读取roc文件。使用正常的org.apache.orc.mapred.OrcInputFormat读orc文件时每行返回的值是:
YG
2018-12-14
2.7K0
orc文件格式对常用系统的支持
1、Hive支持 创建表时指定orc格式即可: create table tmp.orc_test(id bigint, name string, age int) stored as orc TBLPROPERTIES('orc.compress'='SNAPPY') 压缩格式有"SNAPPY"和 "ZLIB"两种,需要哪种格式指定即可。 2、SPARK支持 Spark读: df = spark.read.orc("/tmp/test/orc_data") # 读出来的数据是一个dataframe
YG
2018-11-22
2.1K0
parquet常用操作
第一种是hive0.13之后的版本,第二种时0.13之前的版本。目前大都是使用第一种创建方法。https://cwiki.apache.org/confluence/display/Hive/Parquet
YG
2018-10-22
2.8K0
Query Auto Completion自动完成查询(一)
当我们用搜索引擎或其他工具搜索内容时,输入框下方的提示内容会根据你的输入进行调整展示。这个过程我们称之为Query Auto Completion(QAC)。用户不完整的输入我们称之为Query Prefix,提示的那些内容我们称之为Query Completions。
YG
2018-10-10
1.8K0
tensorflow cnn常用函数解析
tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) 除去name参数用以指定该操作的name,与方法有关的一共五个参数:
YG
2018-10-10
6790
Yarn与Mesos
Yarn是Hadoop2的产物。提到这个问题就不得不说下Hadoop1与Hadoop2的差别。详细的内容可参考博客:https://blog.csdn.net/jiangheng0535/article/details/12946529 。
YG
2018-08-13
5070
logstash 重复消费kafka问题
前两天业务方突然找到我说当天索引ES查询很慢,原来毫秒级的查询现在竟然要20s,让我处理下。我看了下索引大小,原来是1分片6g左右,今天突然就变成了1分片32g。然后我就一脸硬气的告诉他,你们业务膨胀了5倍,为什么不和平台这边沟通,一分片30多g肯定慢。然后业务一脸懵逼的查了一通,告诉我业务大小没变化。业务方说数据大小没变,我这边logtash也没动过,难道是推送kafka的时候,多推送了几次?(我自己没做改动,不可能有问题的好吗?肯定是别人有问题。。。。。)我让负责kakfa的同学帮忙查了一下,他告诉我kafka接收到的数据和往常一样,没变化。业务数据量没变,kafka接收到的数据量也没变,那只能是logtash的问题。但logstash我也没改,为什么今天就突然变大了呢? 然后我试着查看其他业务当天的索引,发现也特别慢。查看segments发现,一个一分片0副本的索引segments竟然有1400多。这肯定慢,从一个文件中查询与从1400个文件这个性能差的不是一点半点。
YG
2018-08-13
2.8K0
kudu简介与操作方式
1、kudu整体介绍 Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用。 kudu的使用场景: Strong performance for both scan and random access to help customers simplify complex hybrid architectures(适用于那些既有随机访问,也有批量数据扫描的复合场景) High CPU efficienc
YG
2018-06-12
1.9K0
kudu介绍与操作方式
Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用。
YG
2018-06-09
7.5K0
spark任务提交时绝对路径添加额外配置文件提示找不到路径
spark任务提交,添加额外配置文件时用绝对路径读取不到上传的文件。 /usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_test_80 --master yarn --deploy-mode client --executor-cores 1 --num-executors 2 --executor-memory 1G --driver-memory 4G --conf spark.yarn.queue=rad
YG
2018-05-23
2.6K0
python 进程池异步调用与进程间通信
1、类包含不能序列化的属性时,多进程异步执行失败 import multiprocessing import os import random import sys class A: pool = None def __init__(self): self.pool = multiprocessing.Pool(3) def execute(self,dirs): pid=0 try: fn = "log"+
YG
2018-05-23
1.8K0
ES-nginx 长连接和权限配置
长连接配置 events { worker_connections 1024; } http { keepalive_timeout 120s 120s; keepalive_requests 10000; upstream elasticsearch { server 127.0.0.1:9200; keepalive 15; } server { listen 8080; location / { proxy_pa
YG
2018-05-23
2.7K0
ES5.6 search流程与scroll
ES search大致流程 请求转化,由RestSearchAction转为TransportSearchAction,执行其doExecute()方法 1、如果查询请求的索引含有正则表达式和别名,找出具体的索引 indices = indexNameExpressionResolver.concreteIndices(clusterState, searchRequest.indicesOptions(), timeProvider.getAbsoluteStartMillis()
YG
2018-05-23
1.1K0
ES 深度分页scroll使用方式
我们知道ES对于from+size的个数是有限制的,二者之和不能超过1w。当所请求的数据总量大于1w时,可用scroll来代替from+size。 首次查询使用方式如下: curl -XGET 'lo
YG
2018-05-23
4.2K1
ES维护常见问题(持续更新)
1 存在未分片索引 1)找出未分片的索引 curl xxx/_cat/shards?v | grep UNASSIGNED 2)查看未分配的原因 curl -XGET 'http://xxx/_clu
YG
2018-05-23
3.4K0
索引迁移
索引迁移工具esm 下载地址:https://github.com/medcl/esm 经过测试发现使用--copy_setting和--copymappings失败。而只用--copymappings也不起作用。 /bin/esm -s=http://192.168.3.206:9200 -d=http://localhost:9200 --copy_settings --copy_mappings -x=bestbuykaggle 手动创建索引,设置mapping和setting。数据导入导出没问
YG
2018-05-23
1.3K0
jmeter 测试ES并发
Jmeter 测试 Jmeter安装 下载安装包解压即可。http://jmeter.apache.org/download_jmeter.cgi Jmeter配置 配置线程组 测试计划->添加
YG
2018-05-23
2.1K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档