数据平台开发工程师

YG小书屋

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

还是如何将N个keys写到N个文件的需求。
 这次的问题是单个key太大，引起的单个reduce任务执行时间过长，导致整个MR运行时间过长。数据大部分的key在千，万级别，而有几个key在亿，10亿级别。
 解决数据倾斜问题的核心是将数据量很大的key，打散变小分配给多个reduce，最好能均匀分布，这样所有的reduce接收相同的数据量，大家执行时间相差不多，就解决了数据倾斜问题。

MapReduce：N keys，N files（三）数据倾斜优化

如果你看了MapReduce：N keys，N files（一）这篇文章，并按其介绍的方法尝试去将N个key映射到N的文件中，你会发现分割后数据量比分割前的要多，并且有些文件不能正常读取。
 用presto读取的话，可能会报这种错：

MapReduce：N keys，N files（二）

hadoop Streaming的处理流程是先通过inputFormat读出输入文件内容，将其传递mapper，再将mapper返回的key，value传给reducer，最后将reducer返回的值通过outputformat写入输出文件。
 目前有个需求是通过hadoop streaming读取roc文件。使用正常的org.apache.orc.mapred.OrcInputFormat读orc文件时每行返回的值是：

Hadoop Streaming 读ORC文件

1、Hive支持
创建表时指定orc格式即可：
create table tmp.orc_test(id bigint, name string, age int) stored as orc TBLPROPERTIES('orc.compress'='SNAPPY')
压缩格式有"SNAPPY"和 "ZLIB"两种，需要哪种格式指定即可。
2、SPARK支持
Spark读：
df  = spark.read.orc("/tmp/test/orc_data")  # 读出来的数据是一个dataframe

orc文件格式对常用系统的支持

第一种是hive0.13之后的版本，第二种时0.13之前的版本。目前大都是使用第一种创建方法。https://cwiki.apache.org/confluence/display/Hive/Parquet

parquet常用操作

当我们用搜索引擎或其他工具搜索内容时，输入框下方的提示内容会根据你的输入进行调整展示。这个过程我们称之为Query Auto Completion（QAC）。用户不完整的输入我们称之为Query Prefix，提示的那些内容我们称之为Query Completions。

Query Auto Completion自动完成查询（一）

tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None)
 除去name参数用以指定该操作的name，与方法有关的一共五个参数：

tensorflow cnn常用函数解析

Yarn是Hadoop2的产物。提到这个问题就不得不说下Hadoop1与Hadoop2的差别。详细的内容可参考博客：https://blog.csdn.net/jiangheng0535/article/details/12946529 。

Yarn与Mesos

前两天业务方突然找到我说当天索引ES查询很慢，原来毫秒级的查询现在竟然要20s，让我处理下。我看了下索引大小，原来是1分片6g左右，今天突然就变成了1分片32g。然后我就一脸硬气的告诉他，你们业务膨胀了5倍，为什么不和平台这边沟通，一分片30多g肯定慢。然后业务一脸懵逼的查了一通，告诉我业务大小没变化。业务方说数据大小没变，我这边logtash也没动过，难道是推送kafka的时候，多推送了几次？（我自己没做改动，不可能有问题的好吗？肯定是别人有问题。。。。。）我让负责kakfa的同学帮忙查了一下，他告诉我kafka接收到的数据和往常一样，没变化。业务数据量没变，kafka接收到的数据量也没变，那只能是logtash的问题。但logstash我也没改，为什么今天就突然变大了呢？
 然后我试着查看其他业务当天的索引，发现也特别慢。查看segments发现，一个一分片0副本的索引segments竟然有1400多。这肯定慢，从一个文件中查询与从1400个文件这个性能差的不是一点半点。

logstash 重复消费kafka问题

1、kudu整体介绍
Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性，运行在一般的商用硬件上，支持水平扩展,高可用。
kudu的使用场景：
Strong performance for both scan and random access to help customers simplify complex hybrid architectures（适用于那些既有随机访问，也有批量数据扫描的复合场景）
High CPU efficienc

kudu简介与操作方式

Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性，运行在一般的商用硬件上，支持水平扩展,高可用。

kudu介绍与操作方式

spark任务提交，添加额外配置文件时用绝对路径读取不到上传的文件。
/usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_test_80 --master yarn --deploy-mode client --executor-cores 1 --num-executors 2 --executor-memory 1G --driver-memory 4G --conf spark.yarn.queue=rad

spark任务提交时绝对路径添加额外配置文件提示找不到路径

1、类包含不能序列化的属性时，多进程异步执行失败
import multiprocessing
import os
import random
import sys

class A:
    pool = None

    def __init__(self):
        self.pool = multiprocessing.Pool(3)
    def execute(self,dirs):
        pid=0
        try:
            fn = "log"+

python 进程池异步调用与进程间通信

长连接配置
events {
    worker_connections  1024;
}

http {
   keepalive_timeout  120s 120s;
   keepalive_requests 10000;

  upstream elasticsearch {
    server 127.0.0.1:9200;

    keepalive 15;
  }

  server {
    listen 8080;

    location / {
      proxy_pa

ES-nginx 长连接和权限配置

ES search大致流程
请求转化，由RestSearchAction转为TransportSearchAction，执行其doExecute()方法
1、如果查询请求的索引含有正则表达式和别名，找出具体的索引
indices = indexNameExpressionResolver.concreteIndices(clusterState, searchRequest.indicesOptions(),
            timeProvider.getAbsoluteStartMillis()

ES5.6 search流程与scroll

我们知道ES对于from+size的个数是有限制的，二者之和不能超过1w。当所请求的数据总量大于1w时，可用scroll来代替from+size。
首次查询使用方式如下：
curl -XGET 'lo

ES 深度分页scroll使用方式

1 存在未分片索引
1）找出未分片的索引
curl xxx/_cat/shards?v | grep UNASSIGNED
2）查看未分配的原因
curl -XGET 'http://xxx/_clu

ES维护常见问题（持续更新）

索引迁移工具esm
下载地址：https://github.com/medcl/esm
 经过测试发现使用--copy_setting和--copymappings失败。而只用--copymappings也不起作用。
/bin/esm -s=http://192.168.3.206:9200 -d=http://localhost:9200 --copy_settings --copy_mappings -x=bestbuykaggle  
手动创建索引，设置mapping和setting。数据导入导出没问

索引迁移

Jmeter 测试
Jmeter安装
下载安装包解压即可。http://jmeter.apache.org/download_jmeter.cgi 
Jmeter配置
 配置线程组
 测试计划->添加

jmeter 测试ES并发

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了YG小书屋专栏，为你提供了YG小书屋的相关文章，致力于帮助开发者快速成长与发展。

YG小书屋

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐