腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如
何在
使用
spark
读
表
时
确定
数据
大小
?
、
我正在尝试
使用
spark
在postgres db上读取一个
表
。为此,我编写了以下代码: val yearDF =
spark
.read.format("jdbc").option("url", connectionUrl),我试图找到一些在线材料来
确定
正在读取的
数据
的
大小
,以及我的作业应该
使用
多少分区、执行器和输出文件来处理
数据
。如果
数据
类型类似于character varyi
浏览 134
提问于2019-07-03
得票数 3
2
回答
Spark
忽略TBLPROPERTIES中指定的parquet.compression属性
、
、
我需要从
Spark
创建一个Hive
表
,该
表
将采用拼花格式和快速压缩。下面的代码以拼花格式创建
表
,但
使用
GZIP压缩:但在色调"Metastore
表
“”-
浏览 3
提问于2016-04-29
得票数 4
回答已采纳
1
回答
如何避免“任务
大小
太大”?
、
我的问题是,在
使用
Spark
将
表
还原为更大的
表
时
,任务
大小
太大了。这里是情况: 我有10+
表
/
数据
帧连
浏览 0
提问于2017-03-06
得票数 2
1
回答
星火Java
数据
-分区的
大小
、
、
、
如何获得每个分区的
大小
(以mb为单位)?如何获得
数据
帧的总
大小
(以mb为单位)?如果我持久化它并检查SparkUI?的存储选项卡,它是否正确?
浏览 3
提问于2022-11-08
得票数 1
1
回答
如果RDD不能放入
Spark
的内存中,会发生什么?
、
、
、
据我所知,
Spark
试图在内存中完成所有计算,除非你调用persist with disk storage选项。但是,如果我们不
使用
任何persist,那么当RDD不能放入内存
时
,
Spark
会做什么?如果我们有非常庞大的
数据
。
Spark
如
何在
不崩溃的情况下处理它?
浏览 0
提问于2015-09-15
得票数 6
3
回答
在
Spark
中将多个小
表
与大
表
连接的最佳方法
、
、
我正在
使用
spark
执行连接倍数表。其中一个
表
非常大,其他
表
很小(10-20个记录)。实际上,我想
使用
包含一对键值的其他
表
来替换最大
表
中的值。即大
表
:-------------------------------------- | A1 | B1 |我的问题是;,这是加入
表
的最佳方式。(假设有100个或更多的小
表
) 1)收集小
浏览 1
提问于2018-02-13
得票数 3
2
回答
检查pyspark dataframe是否为空,从而导致内存问题
、
、
、
我有一个
表
,其中包含大约10亿条记录。我对它运行了一个查询,实质上是查找重复项。如果查询结果为0行,则没有重复项,否则有重复项。如果有重复,我想把
表
名写到一个文本文件中。所以我要做的是if len(df.head(1)) != 0: 在我的查询中,我认为(希望)添
浏览 0
提问于2020-06-12
得票数 0
1
回答
后端
数据
库在速度上重要吗?
、
、
目前,我
使用
星火与卡桑德拉作为
数据
存储(我有一些NoSQL要求)。
Spark
有自己的内存处理框架,可以连接到各种
数据
库,
如
Cassandra、MongoDB、Redshift。因此,当通过
Spark
从这些
数据
库读取
时
,
数据
库的
读
性能(或写性能)重要吗?我想为了更快的读取而改变
数据
存储。
浏览 4
提问于2015-09-16
得票数 1
1
回答
如何
使用
scala连接到Apache中的postgreSQL
数据
库?
、
、
我想知道如
何在
scala中执行以下操作? 编写SQL查询,
如
SELECT、UPDATE等,以修改
数据
库中的
表
。我知道如何
使用
scala来实现它,但是如
何在
打包
时
将psql scala的连接器jar导入sbt?
浏览 0
提问于2014-07-23
得票数 40
回答已采纳
3
回答
Spark
SQL和MySQL- SaveMode.Overwrite不插入修改的
数据
、
、
、
我在MySQL中有一个test
表
,其id和名称如下:| id | name || 1 | Name1 |+----+-------++----+-------+DatasetAppProperties.MYSQL_CONNECTION_URL,
浏览 0
提问于2017-01-26
得票数 8
回答已采纳
2
回答
配置单元分区
表
上的
spark
行为
、
、
我
使用
Spark
2。我们将hive
表
划分为2000个分区,并以拼接格式存储。当在
spark
中
使用
这个
表
时
,在executors中恰好有2000个任务被执行。但是我们有一个256MB的块
大小
,我们期望(总
大小
/ 256 )分区的数量肯定会比2000小得多。
spark
是否有任何内部逻辑
使用</em
浏览 1
提问于2018-04-05
得票数 2
1
回答
无法通过
Spark
1.6从拼接蜂窝
表
中读取
数据
、
、
、
我正在尝试从以拼图格式存储的配置单元
表
中读取
数据
。我
使用
的是MapR发行版。读取
数据
后,当我尝试执行任何操作
时
,例如df.show(3),它抛出java.lang.ArrayIndexOutOfBoundsException: 7。如果
表
存储被更改为ORC,那么它就可以工作。 此外,我还尝试从共享集群中的
表
中读取
数据
。因此,我不能更改源
表
中的任何内容。Hive
表
结构, CREATE TABLE employee_p(
浏览 16
提问于2019-02-15
得票数 0
1
回答
当
Spark
通过JDBC读取RDBMS
时
,是否存在参数分区?
、
当我为
表
同步运行
spark
应用程序时,错误消息如下所示: at org.apache.
spark
.rdd.RDD.iteratorjava.util.concurrent.ThreadPoolExecutor$Worker.r
浏览 3
提问于2019-10-16
得票数 0
回答已采纳
2
回答
如何刷新
表
并并发进行?
、
、
我
使用
的是星火流2.1。我想定期刷新一些缓存的
表
(由
spark
提供的DataSource加载,比如parquet、MySQL或用户定义的
数据
源)。
spark
.read.format("").load().createTempView("my_table")
spark
.sql("cache table my_table下一个加载
表
时
,它
浏览 5
提问于2017-08-22
得票数 18
3
回答
什么是JDBC查询来写入SparkSQL
表
?
、
、
、
、
对于
Spark
中的SQL查询。对于
读
,我们可以通过USING org.apache.
spark
.sql.jdbc对于写,
使用
SQL将
数据
写入远程JDBC
表
的查询是什么?plz提供了
使用
HiveContext.sql(.)
时
可以写入HiveContext.sql的纯"SQL“。SparkSQL的。
浏览 4
提问于2016-03-23
得票数 6
1
回答
在不更改列名的情况下创建PySpark
数据
框
、
、
、
我
使用
下面的CTAS命令
使用
SparkSQL创建
表
。FROM TBL1 在那之后,我正在
使用
下面的PySpark代码读取新创建的位置(TBL2)下面的文件。但是,下面的data frame仅
使用
lowercase中的所有列名创建。df =
spark
.read.format('ORC') \ .option('header',True) \
浏览 12
提问于2019-12-23
得票数 1
回答已采纳
2
回答
Apache :广播连接行为:筛选连接
表
和临时
表
、
但是,我首先过滤掉了第二个
表
的一部分,而不是完全连接两个
表
:在这种情况下,我想
使用
广播连接。
Spark
有一个参数,该参数定义广播连接的最大
表
大小
:
spark
.sql.autoBroadcastJoinThreshold 配置
表
的最大
大小</e
浏览 7
提问于2021-07-08
得票数 2
回答已采纳
2
回答
EOF与读取器/作者同步
、
、
、
、
文件的EOF工作流是什么(关闭文件句柄,
如
^D或^z)?如果EOF从来没有写过,会发生什么?还有什么是不想要的场景?读取文件
时
O.S如何计算EOF?P.S:当前的操作系统是windows,但我也不介意在unix上学习同样有趣的特性。区块报价 现在我知道EOF不是字符,所以它不能写在文件的
数据
上。如果O.S.
使用
File_size
确定
EOF,就像偶@saurabh指出的那样。
浏览 7
提问于2012-05-28
得票数 0
1
回答
用列列表激发SQL插入选择?
当我阅读
Spark
/Hive文档
时
,将插入到带有列列表的
表
中,在
Spark
2.4和更早版本中不支持。input_table( cola, colb, colc, cold, cole) 在SQL中(假设关系
浏览 1
提问于2019-01-09
得票数 4
回答已采纳
1
回答
无法
使用
SparkSQL读取行
大小
大于2 2GB的
表
、
我正在尝试
使用
SparkSQL将
数据
库以拼图格式导出到我的S3中。有什么解决方法吗?
浏览 0
提问于2021-08-04
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL在字节跳动数据仓库领域的优化实践
万亿级数据规模下的倾斜调优
HBaseSQL及分析-Phoenix&Spark
从入门到精通-Fayson带你玩转CDH
Doris在作业帮实时数仓中的应用实践
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券