YG小书屋

46 篇文章
26 人订阅

全部文章

YG

腾讯 · 数据平台开发工程师 (已认证)

orc文件格式对常用系统的支持

553
YG

腾讯 · 数据平台开发工程师 (已认证)

parquet文件格式对常用系统的支持

外部包:https://github.com/whale2/iow-hadoop-streaming 原本想用1.8的parquet格式,后面发现1.8par...

773
YG

腾讯 · 数据平台开发工程师 (已认证)

parquet常用操作

第一种是hive0.13之后的版本,第二种时0.13之前的版本。目前大都是使用第一种创建方法。https://cwiki.apache.org/confluen...

1352
YG

腾讯 · 数据平台开发工程师 (已认证)

hive 插入parquet二级分区表数据倾斜优化

错误: Java Heap Space。或者GC overhead limit exceeded。 原因: Parquet和ORC是列式批处理文件格式。这...

611
YG

腾讯 · 数据平台开发工程师 (已认证)

Hive数据倾斜优化:两个亿级表join

【现象】 出现reduce阶段一直卡在99%的情况,猜测可能出现数据倾斜问题。 【验证猜测】 1、查看user表strmd5个数,6亿左右,做distin...

1951
YG

腾讯 · 数据平台开发工程师 (已认证)

Query Auto Completion自动完成查询(一)

当我们用搜索引擎或其他工具搜索内容时,输入框下方的提示内容会根据你的输入进行调整展示。这个过程我们称之为Query Auto Completion(QAC)。用...

721
YG

腾讯 · 数据平台开发工程师 (已认证)

tensorflow cnn常用函数解析

tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) ...

1082
YG

腾讯 · 数据平台开发工程师 (已认证)

Yarn与Mesos

Yarn是Hadoop2的产物。提到这个问题就不得不说下Hadoop1与Hadoop2的差别。详细的内容可参考博客:https://blog.csdn.net/...

723
YG

腾讯 · 数据平台开发工程师 (已认证)

logstash 重复消费kafka问题

前两天业务方突然找到我说当天索引ES查询很慢,原来毫秒级的查询现在竟然要20s,让我处理下。我看了下索引大小,原来是1分片6g左右,今天突然就变成了1分片32g...

1353
YG

腾讯 · 数据平台开发工程师 (已认证)

kudu简介与操作方式

2355
YG

腾讯 · 数据平台开发工程师 (已认证)

kudu介绍与操作方式

Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用...

1.1K5
YG

腾讯 · 数据平台开发工程师 (已认证)

深度学习之Logistic Regression

2096
YG

腾讯 · 数据平台开发工程师 (已认证)

python 超时任务kill

2062
YG

腾讯 · 数据平台开发工程师 (已认证)

简单二层神经网络介绍

1964
YG

腾讯 · 数据平台开发工程师 (已认证)

脚本提交spark任务会自动重试

1633
YG

腾讯 · 数据平台开发工程师 (已认证)

Python3编码与mysql编码介绍

2995
YG

腾讯 · 数据平台开发工程师 (已认证)

mysql主从配置与数据移植

1935
YG

腾讯 · 数据平台开发工程师 (已认证)

keepalived保证mysql主从自动切换

4014
YG

腾讯 · 数据平台开发工程师 (已认证)

spark任务提交时绝对路径添加额外配置文件提示找不到路径

1653
YG

腾讯 · 数据平台开发工程师 (已认证)

python 进程池异步调用与进程间通信

2014

扫码关注云+社区