partitions_spark.sql.shuffle.partitions_Python任务map_partitions - 腾讯云开发者社区

Spark2.4.0源码分析之WorldCount 触发作业提交(二) 更多资源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 主要内容描述 Final RDD作为参数，通过RDD.collect()函数触发作业提交时序图 https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/image/example/spark-sql-d

您找到你想要的搜索结果了吗？

是的

没有找到

Flink startupMode是如何起作用的

MySQL创建分区表相关

背景：一个记录表，类似日志的信息，查询大量集中在某个用户个人的数据，分区需要尽量保证一个人的数据在一个分区里。因此采用通过user_id进行hash分区的方式。

spark1.4加载mysql数据创建Dataframe及join操作连接方法问题

最后无奈。。就用原来的方法创建软连接，加载数据，发现可以。。这我就不明白了。。。

Partitioning in SQL Server 2008

Introduction Why don’t you partition your table if you have millions of rows and get complaints abou

Zabbix MySQL MariaDB 数据库分表

Zabbix 数据库在没有使用分区分表功能，默认使用Housekeeping（管家功能）进行删除历史数据和趋势历史记录，如果zabbix数据库使用了分区分表功能需要把Housekeeping（管理功能）关闭。Housekeeping功能监控数据量少可以使用，但监控数据量多每次执行删除旧数据会降低MySQL数据库性能，并且还会产生很多空间碎片。经常会出现警报" Zabbix housekeeper processes more than 75% busy"的告警。（zabbix_server.conf配置文件两个参数进行历史记录数据删除：间隔多久删除一次，默认单位小时HousekeepingFrequency=1，一次删除多少数据，默认单位行MaxHousekeeperDelete=5000）。

[源码解析] PyTorch 流水线并行实现 (2)--如何划分模型

上一篇文章我们介绍了 PyTorch 流水线并行的基本知识，本文我们介绍其自动平衡机制和模型分割。

【kafka实战】分区重分配可能出现的问题和排查问题思路(生产环境实战,附视频)

先定义一下名词: 迁移前的Broker： OriginBroker 、迁移后的副本 TargetBroker

Spark2.4.0源码分析之WorldCount 事件循环处理器(三)

Spark2.4.0源码分析之WorldCount 事件循环处理器(三) 更多资源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 时序图 https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/image/example/spark-sql-dataset/worldCount/DAGSchedulerEventProcessLo

分布式 PostgreSQL 集群(Citus)官方示例 - 时间序列数据

在时间序列工作负载中，应用程序（例如一些实时应用程序查询最近的信息，同时归档旧信息。

mysql自动创建分区存储过程

支持年月日不同间隔分区 DELIMITER || drop procedure if exists auto_create_partitions || create procedure auto_create_partitions_tsec (in databasename varchar(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci,in tablename varchar(50) CHARACTER SET utf8mb4 COLLATE ut

RabbitMQ Network Partitions

欢迎支持笔者新作：《深入理解Kafka:核心设计与实践原理》和《RabbitMQ实战指南》，同时欢迎关注笔者的微信公众号：朱小厮的博客。

Mount NTFS Partitions

Windows uses a different filesystem (NTFS) to store files. In order for Fedora to read that filesystem, you require NTFS support in your kernel. You can either recompile your kernel for NTFS read support -OR- obtain the proper kernel module.

hive之路10-show命令

Show Tables/Views/Materialized Views/Partitions/Indexes

Spark源码分析之分区器的作用--编程学习网

数据倾斜是指Spark中的RDD在计算的时候，每个RDD内部的分区包含的数据不平均。比如一共有5个分区，其中一个占有了90%的数据，这就导致本来5个分区可以5个人一起并行干活，结果四个人不怎么干活，工作全都压到一个人身上了。

【kafka实战】分区重分配可能出现的问题和排查问题思路(生产环境实战,附视频)

先定义一下名词: 迁移前的Broker： OriginBroker 、迁移后的副本 TargetBroker

【kafka源码】TopicCommand之alter源码解析(分区扩容)

PS: 当某个Topic的分区少于指定的分区数时候,他会抛出异常;但是不会影响其他Topic正常进行;

kafka_2.11-2.0.0_常用操作

表示order-group消费组有3个消费者，消费topic order的信息。

【大数据哔哔集20210113】Hive的动态分区和静态分区

静态分区与动态分区的主要区别在于静态分区是手动指定，而动态分区是通过数据来进行判断。详细来说，静态分区的列实在编译时期，通过用户传递来决定的；动态分区只有在SQL执行时才能决定。不难看出，Hive分区主要是以缩小数据查询范围，提高查询速度和性能的。

Spark源码分析之分区器的作用

最近因为手抖，在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题，顺便研究了下Spark分区器的原理，趁着周末加班总结一下~ 先说说数据倾斜数据倾斜是指Spark中的RDD在计算的时候，每个RDD内部的分区包含的数据不平均。比如一共有5个分区，其中一个占有了90%的数据，这就导致本来5个分区可以5个人一起并行干活，结果四个人不怎么干活，工作全都压到一个人身上了。遇到这种问题，网上有很多的解决办法：比如这篇写的就不错：http://www.cnblogs.com/jasongj/p/6508

010

Leetcode 725. Split Linked List in Parts

深入理解Spark 2.1 Core （二）：DAG调度器的原理与源码分析

上一篇《深入理解Spark 2.0 （一）：RDD实现及源码分析》的5.2 Spark任务调度器我们省略过去了，这篇我们就来讲讲Spark的调度器。

Clickhouse 数据迁移

迁移集群实际上就是要把所有数据库（system 除外）的表结构和数据完整的复制一遍。ClickHouse 官方和社区有一些现成的解决方案，也可以自己实现。

【kafka实战】分区重分配可能出现的问题和排查问题思路(生产环境实战,干货!!!非常干!!!建议收藏)

先定义一下名词: 迁移前的Broker： OriginBroker 、迁移后的副本 TargetBroker

Kafka Partition 迁移方法总结

10.191.132.147:2181 是zookeeper 通信ip和port.

Hive on spark下insert overwrite partition慢的优化

这几天发现insert overwrite partition运行的很慢，看了下是hive on spark引擎，这引擎平时比mapreduce快多了，但是怎么今天感觉比mapreduce慢了好几倍，运行了1h多还没运行完。

MySQL - 践行索引优化

key_len ：显示了mysql在索引里使用的字节数，通过这个值可以算出具体使用了索引中的哪些列。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐