如何在使用spark读表时确定数据大小？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

Hudi 基础知识详解

大数据面试题V3.0，523道题，779页，46w字

面试题总结是一个长期工作，面试不停，这份面试题总结就不会停。以后会慢慢把Java相关的面试题、计算机网络等都加进来，其实这不仅仅是一份面试题，更是一份面试参考，让你熟悉面试题各种提问情况，当然，项目部分，就只能看自己了，毕竟每个人简历、实习、项目等都不一样。

Adaptive Execution 让 Spark SQL 更高效更智能

前面《Spark SQL / Catalyst 内部原理与 RBO》与《Spark SQL 性能优化再进一步 CBO 基于代价的优化》介绍的优化，从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。但是

ApacheHudi使用问题汇总（二）

Hudi Cleaner（清理程序）通常在 commit和 deltacommit之后立即运行，删除不再需要的旧文件。如果在使用增量拉取功能，请确保配置了清理项来保留足够数量的commit(提交)，以便可以回退，另一个考虑因素是为长时间运行的作业提供足够的时间来完成运行。否则，Cleaner可能会删除该作业正在读取或可能被其读取的文件，并使该作业失败。通常，默认配置为10会允许每30分钟运行一次提取，以保留长达5（10 * 0.5）个小时的数据。如果以繁进行摄取，或者为查询提供更多运行时间，可增加 hoodie.cleaner.commits.retained配置项的值。

Parquet与ORC:高性能列式存储 | 青训营笔记

数据格式层：定义了存储层文件内部的组织格式，计算引擎通过格式层的支持来读写文件；从分层视角下的数据形态来看

大数据查询——HBase读写设计与实践

作者 | 汪婷编辑 | Vincent导语：本文介绍的项目主要解决 check 和 opinion2 张历史数据表（历史数据是指当业务发生过程中的完整中间流程和结果数据）的在线查询。原实现基于 Oracle 提供存储查询服务，随着数据量的不断增加，在写入和读取过程中面临性能问题，且历史数据仅供业务查询参考，并不影响实际流程，从系统结构上来说，放在业务链条上游比较重。该项目将其置于下游数据处理 Hadoop 分布式平台来实现此需求。背景介绍本项目主要解决 check 和 opinion2 张历史数据表

Apache Hudi：统一批和近实时分析的存储和服务

一篇由三位Hudi PMC在2018年做的关于Hudi的分享，介绍了Hudi产生的背景及设计，现在看来也很有意义。

spark sql 非业务调优

这个是扯不断，理还乱。建议能加内存就加内存，没事调啥JVM，你都不了解JVM和你的任务数据。默认的参数已经很好了，对于GC算法，spark sql可以尝试一些 G1。

Hive 和 Spark 分区策略剖析

随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。

Hudi关键术语及其概述

在其核心，Hudi维护了在不同时刻对表执行的所有操作的时间轴，这有助于提供表的瞬时视图，与此同时也有效地支持按到达顺序的数据检索。Hudi的瞬时特性包括以下部分：

Spark向量化计算在美团生产环境的实践

Apache Spark是一个优秀的计算引擎，广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下，既可获得资源节省，又能加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎，本文将阐述美团在这一方向的实践和思考。

CDP的HWC授权

您配置 Hive 仓库连接器 (HWC) 的方式会影响查询授权过程和您的安全性。有多种方法可以通过 HWC 访问 Hive，并不是所有操作都通过 HiveServer (HS2)。一些操作，例如 Spark Direct Reader 和 Hive Streaming，通过 HMS 直接进入 Hive，其中通常适用基于存储的权限。

TiDB 在网易游戏的应用实践

作者介绍：李文杰，网易互娱高级数据库工程师，TUG 2019 年度和 2020 年度 MVA。主要负责大数据研发和数据分析工作，为产品提供精细化运营指导；同时在部门内推广使用 TiDB，为业务上云及数据库分布式化积累经验和探索最优方案，目前是 TiDB 管理小组负责人。

Apache Hudi 0.11 版本重磅发布，新特性速览!

在 0.11.0 中，默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing，以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面，用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此，使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关，您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。

Mysql常见知识点【新】

1、一张表，里面有ID自增主键，当insert了17条记录之后，删除了第15,16,17条记录，再把Mysql重启，再insert一条记录，这条记录的ID是18还是15 ? 　2、MySQL的技术特

数据湖 | Apache Hudi 设计与架构最强解读

Apache Hudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

Spark与mongodb整合完整版本

一，准备阶段 MongoDB Connector for spark是的spark操作mongodb数据很简单，这样方便使用spark去分析mongodb数据，sql分析，流式处理，机器学习，图计算。要求： 1),要有mongodb和spark的基础 2),mongodb要求是2.6以上 3),Spark 1.6.x 4),Scala 2.10.x 使用mongo-spark-connector_2.10 5),Scala 2.11.x 使用mongo-spark-connector_2.11 <depe

010

Spark Adaptive Execution调研

本文阅读价值不错建议大家仔细阅读，感谢作者疯狂哈秋，转自：https://blog.csdn.net/u013332124/article/details/90677676

澄清 | snappy压缩到底支持不支持split? 为啥？

不是说snappy压缩不支持split嘛，为什么我改小mapred.max.split.size一倍之后，mapper数翻倍？

【大数据哔哔集20210120】SparkSQL优化策略小盘点

大部分做Spark开发的同学或多或少都做过很多的优化，事实上优化的策略是很多的，还有很多的默认策略做了其实是无感知，当时当某些场景数据规模比较庞大的时候就需要用户自己去控制优化策略了，我们希望对优化策略有个整体认识，然后我们做优化的时候才能够从多方面去切入。

当Facebook创造的cassandra遇上饿了么

摘要 1、饿了么大数据为什么选择cassandra 2、 Cassandra的基本原理 3、饿了么cassandra实践 4、 Cassandra和大数据离线平台的结合 Cassandra历史 Goo

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

简介：阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析，为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展，同时预测了Spark 3.0即将重磅发布的新功能。

探索 eBay 用于交互式分析的全新优化 Spark SQL 引擎

作者 | Gang Ma 等译者 | Sambodhi 策划 | 闫园园看一下 eBay 如何创建优化的 SQL 解决方案，它可以为新的基于开源的分析平台提供更高的速度、稳定性和可扩展性。最近，eBay 完成了把超过 20PB 的数据从一个提供商的分析平台迁移到内部构建的基于开源的 Hadoop 系统。这次迁移使得 eBay 以技术为主导的重新构想与第三方服务提供商脱钩。与此同时，它也给 eBay 提供了一个机会，建立一套相互补充的开源系统来支持对用户体验的分析。这个迁移过程中面临的

6道经典大数据面试题（ChatGPT回答版）

HDFS（Hadoop Distributed File System）的读写流程如下：

Spark SQL中对Json支持的详细介绍

Spark SQL中对Json支持的详细介绍在这篇文章中，我将介绍一下Spark SQL对Json的支持，这个特性是Databricks的开发者们的努力结果，它的目的就是在Spark中使得查询和创建JSON数据变得非常地简单。随着WEB和手机应用的流行，JSON格式的数据已经是WEB Service API之间通信以及数据的长期保存的事实上的标准格式了。但是使用现有的工具，用户常常需要开发出复杂的程序来读写分析系统中的JSON数据集。而Spark SQL中对JSON数据的支持极大地简化了使用JSON数据的

SparkSQL的自适应执行-Adaptive Execution

Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行，从而提高整体执行效率。核心在于两点

【Spark研究】用Apache Spark进行大数据处理第二部分：Spark SQL

在Apache Spark文章系列的前一篇文章中，我们学习了什么是Apache Spark框架，以及如何用该框架帮助组织处理大数据处理分析的需求。 Spark SQL，作为Apache Spark大数据框架的一部分，主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL，可以针对不同格式的数据执行ETL操作（如JSON，Parquet，数据库）然后完成特定的查询操作。在这一文章系列的第二篇中，我们将讨论Spark SQL库，如何使用Spark SQL库对存储在批处理文件、JSO

010

Spark如何定位数据倾斜

在大数据处理过程中常常出现数据倾斜（Data Skew）。那么，数据倾斜会造成什么问题呢？为什么要处理数据倾斜？

spark面试该准备点啥

最近很多球友都说在准备面试，不知道准备点啥，尤其是spark，实际上星球里浪尖分享的内容真的都掌握了，应对一般面试绝对没问题，但是遗憾的事情是很多人都是处于不会主动搜集资料，主动梳理知识，主动记忆整理知识，而是伸手要粮的境地。浪尖觉得这个是阻止你成长的罪魁祸手。前天跟朋友聚餐就说道这种情况，不努力，不加班给自己喂粮的，没有足够量和时间积累的人很难在一个领域里有所建树。

数据湖选型指南｜Hudi vs Iceberg 数据更新能力深度对比

数据湖作为新一代大数据基础设施，近年来持续火热，许多前线的同学都在讨论数据湖应该怎么建，许多企业也都在构建或者计划构建自己的数据湖。基于此，自然引发了许多关于数据湖选型的讨论和探究。但是经过搜索之后我们发现，网上现存的很多内容都是基于较早之前的开源信息做出的结论，在企业调研初期容易造成不准确的印象和理解。

「Apache Hudi系列」核心概念与架构设计总结

Apache Hudi依赖 HDFS 做底层的存储，所以可以支撑非常大规模的数据存储。同时基于下面两个原语，Hudi可以解决流批一体的存储问题。

戳破 | hive on spark 调优点

微信交流群里有人问浪尖hive on spark如何调优，当时浪尖时间忙没时间回答，这里就给出一篇文章详细聊聊。强调一下资源设置调优，这个强经验性质的，这里给出的数值比例仅供参考。

HBase生产环境优化不完全指南

HBase集群一旦部署使用，再想对其作出调整需要付出惨痛代价，所以如何部署HBase集群是使用的第一个关键步骤。

Apache Hudi 0.11.0版本重磅发布！

在 0.11.0 中，我们默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing，以提高在大型 Hudi 表上的分区和文件 listing 的性能。在reader方面，用户需要将其设置为 hoodie.metadata.enable = true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此，使用异步表服务部署 Hudi 的用户需要配置锁服务。如果无需使用此功能，可以通过额外设置这个配置 hoodie.metadata.enable = false 像以前一样使用 Hudi。

四万字硬刚Kudu | Kudu基础原理实践小总结

Hadoop生态系统发展到现在，存储层主要由HDFS和HBase两个系统把持着，一直没有太大突破。在追求高吞吐的批处理场景下，我们选用HDFS，在追求低延迟，有随机读写需求的场景下，我们选用HBase，那么是否存在一种系统，能结合两个系统优点，同时支持高吞吐率和低延迟呢？

Hive/Spark/Flink增量查询Hudi最佳实践一网打尽

我们在写数据时，可以配置同步Hive参数，生成对应的Hive表，用来查询Hudi表，具体来说，在写入过程中传递了两个由table name命名的Hive表。例如，如果table name = hudi_tbl，我们得到

原 Spark Shuffle

Spark Shuffle 1、概述 Shuffle，翻译成中文就是洗牌。之所以需要Shuffle，还是因为具有某种共同特征的一类数据需要最终汇聚（aggregate）到一个计算节点上进行计算

架构大数据应用

数据管理比以往更加复杂，到处都是大数据，包括每个人的想法以及不同的形式:广告 , 社交图谱,信息流 ,推荐 ,市场, 健康, 安全, 政府等等。过去的三年里，成千上万的技术必须处理汇合在一起的大数据获取，管理和分析; 技术选型对IT部门来说是一件艰巨的任务，因为在大多数时间里没有一个综合的方法来用于选型.

陌陌:使用Spark SQL和Alluxio加速Ad Hoc查询

星球里经常有人问，如何保存sparkstreaming状态，回答的时候也会说道Alluxio。可能很多公司并没有去做Alluxio相关的使用。希望通过本文，大家对Alluxio的使用场景更详细了解，后面结合spark streaming浪尖会制作一个demo。

袋鼠云产品功能更新报告03期丨产品体验全面优化，请查收！

年底啦～2022 年即将走到尾声，不过袋鼠云对产品品质的坚持始终如一，这段时间我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化，例如新增任务告警，进行了 Connector 相关功能优化，以及支持跨时间分区圈群等。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐