YG小书屋

64 篇文章
49.5K 次阅读
27 人订阅

其他

YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(三)数据倾斜优化

还是如何将N个keys写到N个文件的需求。 这次的问题是单个key太大,引起的单个reduce任务执行时间过长,导致整个MR运行时间过长。数据大部分的key在...

16920
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(二)

如果你看了MapReduce:N keys,N files(一)这篇文章,并按其介绍的方法尝试去将N个key映射到N的文件中,你会发现分割后数据量比分割前的要多...

15730
YG

腾讯 · 数据平台开发工程师 (已认证)

Hadoop Streaming 读ORC文件

hadoop Streaming的处理流程是先通过inputFormat读出输入文件内容,将其传递mapper,再将mapper返回的key,value传给re...

55730
YG

腾讯 · 数据平台开发工程师 (已认证)

orc文件格式对常用系统的支持

57730
YG

腾讯 · 数据平台开发工程师 (已认证)

parquet常用操作

第一种是hive0.13之后的版本,第二种时0.13之前的版本。目前大都是使用第一种创建方法。https://cwiki.apache.org/confluen...

1.5K20
YG

腾讯 · 数据平台开发工程师 (已认证)

Query Auto Completion自动完成查询(一)

当我们用搜索引擎或其他工具搜索内容时,输入框下方的提示内容会根据你的输入进行调整展示。这个过程我们称之为Query Auto Completion(QAC)。用...

35110
YG

腾讯 · 数据平台开发工程师 (已认证)

tensorflow cnn常用函数解析

tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) ...

31220
YG

腾讯 · 数据平台开发工程师 (已认证)

Yarn与Mesos

Yarn是Hadoop2的产物。提到这个问题就不得不说下Hadoop1与Hadoop2的差别。详细的内容可参考博客:https://blog.csdn.net/...

23130
YG

腾讯 · 数据平台开发工程师 (已认证)

logstash 重复消费kafka问题

前两天业务方突然找到我说当天索引ES查询很慢,原来毫秒级的查询现在竟然要20s,让我处理下。我看了下索引大小,原来是1分片6g左右,今天突然就变成了1分片32g...

78040
YG

腾讯 · 数据平台开发工程师 (已认证)

kudu简介与操作方式

1.1K50
YG

腾讯 · 数据平台开发工程师 (已认证)

kudu介绍与操作方式

Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用...

4.9K50
YG

腾讯 · 数据平台开发工程师 (已认证)

spark任务提交时绝对路径添加额外配置文件提示找不到路径

62330
YG

腾讯 · 数据平台开发工程师 (已认证)

python 进程池异步调用与进程间通信

53240
YG

腾讯 · 数据平台开发工程师 (已认证)

ES-nginx 长连接和权限配置

1.2K70
YG

腾讯 · 数据平台开发工程师 (已认证)

ES5.6 search流程与scroll

43830
YG

腾讯 · 数据平台开发工程师 (已认证)

ES 深度分页scroll使用方式

1K20
YG

腾讯 · 数据平台开发工程师 (已认证)

ES维护常见问题(持续更新)

2K50
YG

腾讯 · 数据平台开发工程师 (已认证)

索引迁移

48160
YG

腾讯 · 数据平台开发工程师 (已认证)

jmeter 测试ES并发

52240

扫码关注云+社区

领取腾讯云代金券