开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在Spark SQL中查找表大小( MB/GB)

在Spark SQL中查找表大小（MB/GB），可以通过以下步骤实现：

首先，使用Spark SQL连接到相应的数据库或数据源，加载表的数据。
使用Spark SQL的内置函数或API来计算表的大小。可以使用spark.sql("SHOW TABLES")来获取所有表的列表，然后使用spark.sql("DESCRIBE TABLE <table_name>")来获取表的详细信息，包括表的大小。
在表的详细信息中，可以查找到表的大小信息，通常以字节（bytes）为单位。可以将字节转换为MB或GB，以便更好地理解表的大小。例如，可以使用以下公式将字节转换为MB：table_size_mb = table_size_bytes / (1024 * 1024)，或将字节转换为GB：table_size_gb = table_size_bytes / (1024 * 1024 * 1024)。
如果需要更精确的表大小信息，可以使用Spark SQL的统计功能。可以使用spark.sql("ANALYZE TABLE <table_name> COMPUTE STATISTICS")来计算表的统计信息，包括表的大小。然后，可以使用spark.sql("DESCRIBE EXTENDED <table_name>")来获取表的详细统计信息，包括表的大小。
根据表的大小信息，可以评估表的存储需求，优化数据存储和查询性能。

在腾讯云的生态系统中，可以使用以下产品和服务来支持Spark SQL中查找表大小的需求：

腾讯云COS（对象存储服务）：用于存储和管理大规模数据，可以将表的数据存储在COS中，并使用COS提供的API来获取表的大小信息。产品介绍链接：https://cloud.tencent.com/product/cos
腾讯云EMR（弹性MapReduce服务）：用于大数据处理和分析，可以使用EMR来运行Spark SQL作业，并通过EMR的监控和日志功能获取表的大小信息。产品介绍链接：https://cloud.tencent.com/product/emr
腾讯云CDN（内容分发网络）：用于加速数据传输和访问，可以使用CDN来加速表的数据传输，并通过CDN的统计功能获取表的大小信息。产品介绍链接：https://cloud.tencent.com/product/cdn

请注意，以上仅为示例，具体的产品选择应根据实际需求和情况进行评估和决策。

相关搜索:Spark SQL在Spark Streaming (KafkaStream)中失败 Spark SQL在列中查找最小值并获取整行 Spark异常“无法广播大于8 8GB的表”，'spark.sql.autoBroadcastJoinThreshold'：'-1‘不工作 SQL Server中的表大小 SQL在表中查找部分重复项在postgresql表中查找最大条目数，sql 在Spark SQL中，有没有一种SQL方法可以找到表的物理存储大小在Spark SQL查询中计算派生表的大小在SQL Server中查找派生表的记录计数在SQL Server中查找表中查询最多的项

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

HBase实战 | HBase在人工智能场景的使用

近几年来，人工智能逐渐火热起来，特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据，处理完的数据一般都需要存储起来，这些数据的特点主要有如下几点：

03

Hudi小文件问题处理和生产调优个人笔记

Apache Hudi提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。

02

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

04

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

05

Spark SQL 性能优化再进一步 CBO 基于代价的优化

上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO，实现简单有效。它属于 LogicalPlan 的优化，所有优化均基于 LogicalPlan 本身的特点，未考虑数据本身的特点，也未考虑算子本身的代价。

03

Spark SQL 性能优化再进一步 CBO 基于代价的优化

上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO，实现简单有效。它属于 LogicalPlan 的优化，所有优化均基于 LogicalPlan 本身的特点，未考虑数据本身的特点，也未考虑算子本身的代价。

03

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

原创文章，转载请务必将下面这段话置于文章开头处。本文转发自技术世界，原文链接 http://www.jasongj.com/spark/skew/ 摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据

戳破 | hive on spark 调优点

微信交流群里有人问浪尖hive on spark如何调优，当时浪尖时间忙没时间回答，这里就给出一篇文章详细聊聊。强调一下资源设置调优，这个强经验性质的，这里给出的数值比例仅供参考。

03

Kudu设计要点面面观(下篇)

参考：《Kudu设计要点面面观(上篇)》，本文适用知识共享-署名-相同方式共享（CC-BY-SA）3.0协议。

03

如何在Impala中使用Parquet表

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Parquet是一种列式的二进制文件格式，Impala基于Parquet文件可以高效的处理大型复杂查询。Parquet特别适合扫描表中的特定列的查询，例如查询具有多列的“宽”表，或者对于部分列或者全部列需要做聚合操作（例如SUM（）和AVG（））。列式存储，顾名思义就是按照列进行

03

代达罗斯之殇-大数据领域小文件问题解决攻略

海量小文件问题是工业界和学术界公认的难题，大数据领域中的小文件问题，也是一个非常棘手的问题，仅次于数据倾斜问题，对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案，给大家还原一个大数据系统中小文件问题的系统性解决方案。

02

SQL on Hadoop性能对比－Hive、Spark SQL、Impala

Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理，它本身是建立在Apache Hadoop之上。Hive SQL代表的是以传统基于Mapreduce为核心的SQL语言。

01

Apache Spark 2.2中基于成本的优化器（CBO）

问题导读 1.什么是CBO,RBO? 2.什么是执行计划？ 3.什么是join，filter？ 4.事实表和维度表的区别？ Apache Spark 2.2最近装备了高级的基于成本的优化器框架用于收集

07

客快物流大数据项目（八十三）：Kudu的优化

TabletServer 在开始拒绝所有传入的写入之前可以消耗的最大内存量：memory_limit_h

04

蚂蚁绊倒大象？不起眼的小文件竟拖了Hadoop大佬的后腿

在使用Hadoop过程中，小文件是一种比较常见的挑战，如果不小心处理，可能会带来一系列的问题。HDFS是为了存储和处理大数据集（M以上）而开发的，大量小文件会导致Namenode内存利用率和RPC调用效率低下，block扫描吞吐量下降，应用层性能降低。通过本文，我们将定义小文件存储的问题，并探讨如何对小文件进行治理。

01

Apache Kylin的实践与优化

从2016年开始，美团到店餐饮技术团队就开始使用Apache Kylin作为OLAP引擎，但是随着业务的高速发展，在构建和查询层面都出现了效率问题。于是，技术团队从原理解读开始，然后对过程进行层层拆解，并制定了由点及面的实施路线。本文总结了一些经验和心得，希望能够帮助业界更多的技术团队提高数据的产出效率。

03

sparksql调优之第一弹

1，jvm调优这个是扯不断，理还乱。建议能加内存就加内存，没事调啥JVM，你都不了解JVM和你的任务数据。 spark调优系列之内存和GC调优 2，内存调优缓存表 spark2.+采用： spark.catalog.cacheTable("tableName")缓存表，spark.catalog.uncacheTable("tableName")解除缓存。 spark 1.+采用：采用 sqlContext.cacheTable("tableName")缓存，sqlContext.uncacheTa

08

spark sql 非业务调优

这个是扯不断，理还乱。建议能加内存就加内存，没事调啥JVM，你都不了解JVM和你的任务数据。默认的参数已经很好了，对于GC算法，spark sql可以尝试一些 G1。

03

SparkSQL在有赞大数据的实践（二）

在 2019 年 1 月份的时候，我们发表过一篇博客 SparkSQL在有赞大数据的实践，里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的内容。本文会接着上次的话题继续讲一下我们之后在 SparkSQL 上所做的一些改进，以及如何做到 SparkSQL 占比提升到 91% 以上，最后也分享一些在 Spark 踩过的坑和经验希望能帮助到大家。

01

Spark SQL在100TB上的自适应执行实践

Spark SQL是Apache Spark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功的生产实践，但是在超大规模集群和数据集上，Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战，英特尔大数据技术团队和百度大数据基础架构部工程师在Spark 社区版本的基础上，改进并实现了自适应执行引擎。本文首先讨论Spark SQL在大规模数据集上遇到的挑战，然后介绍自适应执行的背景和基本架构，以及自适应执行如何应对Spark SQL这些问题，最后我们将比

06

查询时间降低60%！Apache Hudi数据布局黑科技了解下

Apache Hudi将流处理带到大数据，相比传统批处理效率高一个数量级，提供了更新鲜的数据。在数据湖/仓库中，需要在摄取速度和查询性能之间进行权衡，数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询，但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据，但如果把查询频繁的数据放在一起时，查询引擎的性能会更好，大多数系统都倾向于支持独立的优化来提高性能，以解决未优化的数据布局的限制。本博客介绍了一种称为Clustering[RFC-19]的服务，该服务可重新组织数据以提高查询性能，也不会影响摄取速度。

01

Adaptive Execution 让 Spark SQL 更高效更智能

前面《Spark SQL / Catalyst 内部原理与 RBO》与《Spark SQL 性能优化再进一步 CBO 基于代价的优化》介绍的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。但是

01

【大数据】Spark优化经验&案例--数据倾斜

TOC 0. 十秒看完 1.业务处理中存在复杂的多表关联和计算逻辑（原始数据达百亿数量级） 2.优化后，spark计算性能提升了约12倍(6h-->30min) 3.最终，业务的性能瓶颈存在于ES写入（计算结果，ES索引document数约为21亿 pri.store.size约 300gb） [优化完整过程] 1. 背景业务数据不断增大, Spark运行时间越来越长, 从最初的半小时到6个多小时某日Spark程序运行6.5个小时后, 报“Too large frame...”的异常 org.apach

08

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化

Apache Spark 自 2010 年面世，到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Release，其中将近一半的 issue 都属于 SparkSQL。这也迎合我们现在的主要场景（90% 是 SQL），同时也是优化痛点和主要功能点。我们 Erda 的 FDP 平台（Fast Data Platform）也从 Spark 2.4 升级到 Spark 3.0 并做了一系列的相关优化，本文将主要结合 Spark 3.0 版本进行探讨研究。

03

SparkSQL的自适应执行-Adaptive Execution

Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行，从而提高整体执行效率。核心在于两点

01

Apache Spark:来自Facebook的60 TB +生产用例

浪尖整理翻译https://databricks.com/blog/2016/08/31/apache-spark-scale-a-60-tb-production-use-case.html。

02

Hudi Clustering特性

Apache Hudi为大数据带来了流处理，在提供新鲜数据的同时，比传统批处理效率高一个数量级。在数据湖/数据仓库中，关键的权衡之一是输入速度和查询性能之间的权衡。数据摄取通常倾向于小文件，以提高并行性，并使数据能够尽快用于查询。但是，如果有很多小文件，查询性能就会下降。此外，在摄入期间，数据通常根据到达时间在同一位置。但是，当频繁查询的数据放在一起时，查询引擎的性能会更好。在大多数体系结构中，每个系统都倾向于独立地添加优化，以提高由于未优化的数据布局而导致的性能限制。本博客介绍了一种新的表服务，称为clustering[RFC-19]，用于重新组织数据，在不影响输入速度的情况下提高查询性能。

02

Apache Hudi数据跳过技术加速查询高达50倍

在 Hudi 0.10 中，我们引入了对高级数据布局优化技术的支持，例如 Z-order和希尔伯特空间填充曲线[1]（作为新的聚类算法），即使在经常使用过滤器查询大表的复杂场景中，也可以在多个列而非单个列上进行数据跳过。

05

TiDB 在网易游戏的应用实践

作者介绍：李文杰，网易互娱高级数据库工程师，TUG 2019 年度和 2020 年度 MVA。主要负责大数据研发和数据分析工作，为产品提供精细化运营指导；同时在部门内推广使用 TiDB，为业务上云及数据库分布式化积累经验和探索最优方案，目前是 TiDB 管理小组负责人。

04

工作经验分享：Spark调优【优化后性能提升1200%】

问题导读 1.本文遇到了什么问题？ 2.遇到问题后，做了哪些分析？ 3.本文解决倾斜使用哪些方法？ 4.本次数据倾斜那种方法更有效？ 5.解决性能优化问题的原理是什么？优化后效果 1.业务处理中存在复杂的多表关联和计算逻辑（原始数据达百亿数量级） 2.优化后，spark计算性能提升了约12倍(6h-->30min) 3.最终，业务的性能瓶颈存在于ES写入（计算结果，ES索引document数约为21亿 pri.store.size约 300gb）

01

Hudi实践 | Apache Hudi在Hopsworks机器学习的应用

Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务，以将特征物化到在线特征存储库，不仅仅保证低延迟访问，而且还保证在服务时间可以访问最新鲜的特征值。

01

Hive on Spark参数调优姿势小结

Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎，在HIVE-7292提出。Hive on Spark的效率比on MR要高不少，但是也需要合理调整参数才能最大化性能，本文简单列举一些调优项。为了符合实际情况，Spark也采用on YARN部署方式来说明。

03

数据湖学习文档

参考资料：https://segment.com/blog/cultivating-your-data-lake/

02

调优 | Apache Hudi应用调优指南

通过Spark作业将数据写入Hudi时，Spark应用的调优技巧也适用于此。如果要提高性能或可靠性，请牢记以下几点。输入并行性：Hudi对输入进行分区默认并发度为1500，以确保每个Spark分区都在2GB的限制内（在Spark2.4.0版本之后去除了该限制），如果有更大的输入，则相应地进行调整。我们建议设置shuffle的并发度，配置项为 hoodie.[insert|upsert|bulkinsert].shuffle.parallelism，以使其至少达到inputdatasize/500MB。 Off-heap（堆外）内存：Hudi写入parquet文件，需要使用一定的堆外内存，如果遇到此类故障，请考虑设置类似 spark.yarn.executor.memoryOverhead或 spark.yarn.driver.memoryOverhead的值。 Spark 内存：通常Hudi需要能够将单个文件读入内存以执行合并或压缩操作，因此执行程序的内存应足以容纳此文件。另外，Hudi会缓存输入数据以便能够智能地放置数据，因此预留一些 spark.memory.storageFraction通常有助于提高性能。调整文件大小：设置 limitFileSize以平衡接收/写入延迟与文件数量，并平衡与文件数据相关的元数据开销。时间序列/日志数据：对于单条记录较大的数据库/ nosql变更日志，可调整默认配置。另一类非常流行的数据是时间序列/事件/日志数据，它往往更加庞大，每个分区的记录更多。在这种情况下，请考虑通过 .bloomFilterFPP()/bloomFilterNumEntries()来调整Bloom过滤器的精度，以加速目标索引查找时间，另外可考虑一个以事件时间为前缀的键，这将使用范围修剪并显着加快索引查找的速度。 GC调优：请确保遵循Spark调优指南中的垃圾收集调优技巧，以避免OutOfMemory错误。[必须]使用G1 / CMS收集器，其中添加到spark.executor.extraJavaOptions的示例如下： -XX:NewSize=1g -XX:SurvivorRatio=2 -XX:+UseCompressedOops -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof OutOfMemory错误：如果出现OOM错误，则可尝试通过如下配置处理：spark.memory.fraction=0.2，spark.memory.storageFraction=0.2允许其溢出而不是OOM（速度变慢与间歇性崩溃相比）。以下是完整的生产配置 spark.driver.extraClassPath /etc/hive/conf spark.driver.extraJavaOptions -XX:+PrintTenuringDistribution -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintGCTimeStamps -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof spark.driver.maxResultSize 2g spark.driver.memory 4g spark.executor.cores 1 spark.executor.extraJavaOptions -XX:+PrintFlagsFinal -XX:+PrintReferenceGC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintAdaptiveSizePolicy -XX:+UnlockDiagnosticVMOptions -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-

02

Spark SQL 之 Join 实现

本文介绍了Spark SQL的Join实现原理、不同Join方式的实现流程、优化策略以及社区现状，为Spark SQL的Join实现提供了全面且深入的解析，有助于开发者深入了解Spark SQL的Join实现细节，从而更好地利用Spark SQL进行数据处理和分析。

记录级别索引：Apache Hudi 针对大型数据集的超快索引

索引是一个关键组件，有助于 Hudi 写入端快速更新和删除，并且它在提高查询执行方面也发挥着关键作用。Hudi提供了多种索引类型，包括全局变化的Bloom索引和Simple索引、利用HBase服务的HBase索引、基于哈希的Bucket索引以及通过元数据表实现的多模态索引。索引的选择取决于表大小、分区数据分布或流量模式等因素，其中特定索引可能更适合更简单的操作或更好的性能。用户在为不同表选择索引类型时经常面临权衡，因为还没有一种能够以最小的操作开销促进写入和读取的通用性能索引。

01

Spark调优 | 不可避免的 Join 优化

在阐述Join实现之前，我们首先简单介绍SparkSQL的总体流程，一般地，我们有两种方式使用SparkSQL，一种是直接写sql语句，这个需要有元数据库支持，例如Hive等，另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示，sql语句被语法解析(SQL AST)成查询计划，或者我们通过Dataset/DataFrame提供的APIs组织成查询计划，查询计划分为两大类：逻辑计划和物理计划，这个阶段通常叫做逻辑计划，经过语法分析(Analyzer)、一系列查询优化(Optimizer)后得到优化后的逻辑计划，最后被映射成物理计划，转换成RDD执行。

02

0924-Hive on Tez性能调优

调优Hive on Tez查询没有一个通用的方法，查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在做性能测试的时候，我们一般是通过调整配置参数或改写SQL来进行性能调优，建议在做测试的时候每次只进行一项更改，这样方便确认是哪个参数生效。

02

【Power BI X SSAS]——再看Power BI数据连接的三种方式

第一篇是关于Power BI连接数据方式的对比。这是个老生常谈的话题。微软官方考试Exam70-778教材的第一章，就是重点介绍这个方面。这种基础性的知识点繁琐而且枯燥，就像一本字典，只有用到的时候才会去查阅。

02

Apache Hudi在Hopsworks机器学习的应用

Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务，以将特征物化到在线特征存储库，不仅仅保证低延迟访问，而且还保证在服务时间可以访问最新鲜的特征值。

02

ApacheHudi使用问题汇总（二）

Hudi Cleaner（清理程序）通常在 commit和 deltacommit之后立即运行，删除不再需要的旧文件。如果在使用增量拉取功能，请确保配置了清理项来保留足够数量的commit(提交)，以便可以回退，另一个考虑因素是为长时间运行的作业提供足够的时间来完成运行。否则，Cleaner可能会删除该作业正在读取或可能被其读取的文件，并使该作业失败。通常，默认配置为10会允许每30分钟运行一次提取，以保留长达5（10 * 0.5）个小时的数据。如果以繁进行摄取，或者为查询提供更多运行时间，可增加 hoodie.cleaner.commits.retained配置项的值。

04

一文读懂Hive底层数据存储格式（好文收藏）

本文讲解 Hive 的数据存储，是 Hive 操作数据的基础。选择一个合适的底层数据存储文件格式，即使在不改变当前 Hive SQL 的情况下，性能也能得到数量级的提升。这种优化方式对学过 MySQL 等关系型数据库的小伙伴并不陌生，选择不同的数据存储引擎，代表着不同的数据组织方式，对于数据库的表现会有不同的影响。

05

浅谈离线数据倾斜

在今年的敏捷团队建设中，我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢？由此我的Runner探索之旅开始了

03

查询性能提升3倍！Apache Hudi 查询优化了解下？

从 Hudi 0.10.0版本开始，我们很高兴推出在数据库领域中称为 Z-Order和 Hilbert 空间填充曲线的高级数据布局优化技术的支持。

01

原荐 SparkSQL简介及入门

SparkSQL简介及入门一、概述 Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame（数据框）的编程抽象，DF的底层仍然是RDD，并且可以充当分布式SQL查询引擎。 1、SparkSQL的由来 SparkSQL的前身是Shark。在Hadoop发展过程中，为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，是当时唯一运行在hadoop上的SQL-on-Hadoop工具。但是，MapReduc

06

SparkSQL极简入门

Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame（数据框）的编程抽象，DF的底层仍然是RDD，并且可以充当分布式SQL查询引擎。

01

有比Pandas 更好的替代吗?对比Vaex, Dask, PySpark, Modin 和Julia

表格是存储数据的最典型方式，在Python环境中没有比Pandas更好的工具来操作数据表了。尽管Pandas具有广泛的能力，但它还是有局限性的。比如，如果数据集超过了内存的大小，就必须选择一种替代方法。但是，如果在内存合适的情况下放弃Pandas使用其他工具是否有意义呢？

01

Spark图解如何全面性能调优？

如果在Task执行期间发生大量的Full GC，那么说明年轻代的Eden区域给的空间不够大，可以通过一下方式进行调优：

06

Spark全面性能调优详解

如果在Task执行期间发生大量的Full GC，那么说明年轻代的Eden区域给的空间不够大，可以通过一下方式进行调优：

03

MySQL数据库：参数优化

数据库属于 IO 密集型的应用程序，其主要职责就是数据的管理及存储工作。而我们知道，从内存中读取一个数据库的时间是微秒级别，而从一块普通硬盘上读取一个IO是在毫秒级别，二者相差3个数量级。所以，要优化数据库，首先第一步需要优化的就是 IO，尽可能将磁盘IO转化为内存IO。本文先从 MySQL 数据库IO相关缓存参数的角度来介绍可以通过哪些参数进行IO优化：

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭