腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何
使用
python
在
spark
中
使用
参数
化
的
多
列
创建
分区
?
python
、
hadoop
、
pyspark
我想从
参数
文件
中
读取多个
列
,并想将变量传递到PartitionBy() function.Those
中
,我可以通过硬编码列名来对多个
列
进行
分区
。但问题是:我已经尝试从配置文件
中
读取,并将所有列名存储到列表
中
,如下所示 pPartitionKey=["year","month","day"] 但是不知道
如何
将列表pPartitionKey传递给PartitionBy
浏览 8
提问于2020-01-25
得票数 0
3
回答
如何
在
Spark
中
读取ORC文件时保留
分区
列
apache-spark
、
apache-spark-sql
、
orc
在
Spark
中
读取ORC文件时,如果在路径中指定
分区
列
,则该
列
将不会包含在数据集中。例如,如果我们有那么dfWithColu
浏览 1
提问于2018-09-13
得票数 5
1
回答
Spark
中
的
分区
是
如何
工作
的
?
apache-spark
、
partitioning
我正在尝试理解
在
Apache
Spark
中
分区
是
如何
完成
的
。你们能帮帮忙吗?一个主节点和两个节点,每个节点具有一个大小为10 MB
的
文件大小
的
文件
的
大小对
分区
的
数量有影响吗?
浏览 8
提问于2014-10-15
得票数 22
1
回答
在
Apache
中
RDD
分区
的
数量是
如何
确定
的
?
partition
、
apache-spark
问题我是否需要显式地指定可用CPU核心
的
数量,这样
分区
的
数量将是相同
的
(例如并行
化
方法
的
numPartition arg,但是当内核
的
数量发生变化时需要更新程序)吗?背景对于node程序,
分
浏览 0
提问于2016-09-26
得票数 1
回答已采纳
1
回答
火花DataFrame再划分与Parquet划分
apache-spark
、
parquet
我正在
使用
重新
分区
的
列
,以存储数据
在
拼花。但我看到了不。分割后
的
文件与否文件不相同。Rdd
分区
。rdd
分区
和拼板
分区
之间没有关联吗?当我将数据写入parquet
分区
并
使用
Rdd重新
分区
,然后从parquet
分区
读取数据时,rdd
分区
号在读/写过程
中
是否存在相同
的
条件?
如何
使用
浏览 2
提问于2018-09-26
得票数 13
回答已采纳
2
回答
Dataproc未
使用
pyspark并行处理大数据
apache-spark
、
pyspark
、
dataproc
我
在
GCP
中
启动了一个DataProc集群,有一个主节点和3个工作节点。每个节点有8个vCPU和30G内存。
spark
.schema(schema) --region=${REGION} \ 我得到
的
分区
号只有1
浏览 4
提问于2021-05-03
得票数 0
1
回答
带有pyspark结构流
的
kafka自定义分割器
apache-spark
、
pyspark
、
apache-kafka
我想为我
的
pyspark应用程序
使用
kafka自定义分割器,从kafka推送到另一个kafka主题。
使用
pyspark处理将数据从源转换到宿。我希望能够根据data/message
中
的
某个键控制应该将数据推送到哪个
分区
。
在
中
,我找不到此类用例
的
任何参考资料或示例。我正在
使用
python
处理和pyspark,被用作kafka客户端,但它也缺乏自定义
分区
程序
的</em
浏览 1
提问于2021-11-01
得票数 1
3
回答
如何
更改本地文件(非HDFS文件)较大
的
RDD
的
分区
数量?
apache-spark
、
partitioning
、
large-files
我有一个8.9 in
的
文本文件,我用它
创建
了一个RDD,并将它导入
Spark
。textfile = sc.textFile("input.txt")
Spark
创建
的
分区
数是279,这是通过将输入文件
的
大小除以32MB
的
默认HDFS块大小得到
的
。我可以将一个
参数
传递给textfile并要求更多
的
分区
数量,然而,不幸
的
是,我不能
浏览 0
提问于2015-08-07
得票数 1
2
回答
在
星火中连接多个表
的
有效方法--设备上没有空间
apache-spark
、
pyspark
、
hadoop-partitioning
我有将近100个DataFrames,每个行至少有200,000行,我需要通过基于
列
ID
的
full连接来加入它们,从而
创建
一个
列
- ID, Col1, Col2,Col3,Col4, Col5...,因此,我首先
使用
DataFrame df1
使用
将基于ID
的
hash-partitions DataFrame划分为30个
分区
-现在,我
在
df1join时d
浏览 0
提问于2019-03-14
得票数 6
1
回答
星火中
的
转移矿是用来做什么
的
?
apache-spark
、
hive
、
apache-spark-sql
、
metastore
我
在
python
中
使用
SparkSQL。我已经
创建
了一个
分区
表(大约几百个
分区
),并
使用
hiveContext将其存储到Hive内部表
中
。母公司仓库位于S3。第一次遍历所有
分区
将花费一分钟
多
的
时间。我以为metastore存储了所有的元数据。为什么
spark
仍然需要遍历每个
分区
?有没有可能避免这一步,这样我
的
启动就可以更快?“
浏览 2
提问于2015-06-22
得票数 4
2
回答
Spark
中
的
bucketBy和partitionBy有什么不同?
apache-spark
、
hadoop
、
pyspark
、
hdfs
、
partitioning
<-- here is the only difference .saveAsTable("someTable") 我猜,
在
第一种情况下,bucketBy
创建
了4个带有国家
的
目录,而partitionBy将在“国家”
列
中
创建
与多个唯一值一样
多
的
目录。这是正确
的
理解吗?
浏览 0
提问于2021-05-19
得票数 0
1
回答
小型数据集
的
最佳(低延迟)火花设置
apache-spark
我知道
spark
是为大型数据集设计
的
,这对它来说很棒。但在某些情况下,我不需要这种可伸缩性,例如,用于单元测试或小型数据集上
的
数据探索。在这些情况下,
spark
在
纯scala/
python
/matlab/R等纯实现
中
的
性能相对较差。 请注意,我不想完全放弃
spark
,我希望保留适用于更大工作负载
的
框架,而无需重新实现所有内容。
如何
在较小
的
数据集(例如1
浏览 15
提问于2019-12-12
得票数 3
1
回答
将
python
函数传递给pyspark
中
的
Scala RDD
apache-spark
、
pyspark
、
rdd
、
py4j
val res = rdd.map(function) }import mylibrary.runFunction这个库打包在jar
中
,我现在也想在
python
中
使用
它。我想要做
的
是
在
Python
中加载这个库,并将一个
python
函数传递给它。
Python
中
的
用法如下: <e
浏览 14
提问于2019-11-14
得票数 0
1
回答
是否可以在从HDFS读取CSV文件时对其进行
分区
?
csv
、
apache-spark
我正在尝试读取一个巨大
的
csv文件到
spark
中
,并将其加载到雪花表
中
。要读取csv文件,我们
在
pyspark中
使用
以下语法: file_df =
spark
.read.format('csv').option('header', 'true').option('inferSchema,我们可以
使用
选项partitionColumn,其中我们可以指定
分区
列<
浏览 25
提问于2020-07-23
得票数 1
1
回答
从
spark
中
的
sql server并行读取
sql-server
、
apache-spark
、
jdbc
我正在
使用
com.microsoft.sqlserver.jdbc.SQLServerDriver
在
spark
作业
中
从sql server读取数据。为了提高性能,需要并行读取数据。
spark
job建立
的
连接数是否等于
spark
-submit命令
中
的
核心数?
浏览 0
提问于2019-06-28
得票数 1
1
回答
mllib代码是
如何
在
spark
上运行
的
?
apache-spark
、
apache-spark-mllib
我对分布式计算很陌生,我正在尝试
使用
Spark
的
mllib方法
在
EC2上运行kmeans。
在
阅读本教程时,我在上找到了以下代码片段 我很难理解这些代码是
如何
在集群
中
运行
的
。具体来说,我很难理解以下内容: 是否将代码复制到所有节点并在
浏览 3
提问于2016-11-27
得票数 1
回答已采纳
1
回答
用
spark
.catalog.createTable
创建
一个表
python
、
pyspark
、
hive
我试图用
spark
.catalog.createTable
创建
一个表。它需要一个名为"id“
的
分区
列
。基于Scala
中
的
,我尝试:
spark
.catalog.createTable("default.test_partition它
使用
以下属性
浏览 3
提问于2021-09-28
得票数 2
回答已采纳
2
回答
如何
优化
Spark
向S3写入大量数据
scala
、
apache-spark
、
amazon-s3
、
amazon-emr
我
在
EMR上
使用
Apache
Spark
做了相当
多
的
ETL。 我对获得良好性能所需
的
大部分调优都相当满意,但我有一项工作似乎搞不懂。基本上,我
使用
了大约1TB
的
拼图数据-分散
在
S3
中
的
数万个文件
中
-添加了一些
列
,并按数据
的
日期属性之一将其
分区
输出-同样,以S3格式
的
拼图。、
spark
.sql.
浏览 0
提问于2020-01-07
得票数 5
3
回答
Pyspark:序列
化
任务超过了允许
的
最大值。考虑增加
spark
.rpc.message.maxSize或对较大
的
值
使用
广播变量
dataframe
、
pyspark
、
message
、
rpc
、
max-size
我正在集群上进行计算,最后,当我
使用
df.describe().show()请求
Spark
数据帧
的
汇总统计数据时,我得到了一个错误:
在
我
的
Spark
配置
中
,我已经尝试增加了前面提到<e
浏览 7
提问于2019-01-31
得票数 14
1
回答
spark
.rdd.compress及其
在
保存表
中
的
作用
apache-spark
、
pyspark
来自诸如和 one这样
的
问题,我问自己,当我将一个
在
RDD级别上
分区
的
数据文件保存到一个(例如)拼花表
中
时,
spark
.rdd.compress是否也有效果。或者换句话说:
spark
.rdd.compress是否也压缩了我
在
使用
dataframe.write.saveAsTable(...)时
创建
的
表 是否压缩序列<e
浏览 0
提问于2019-06-06
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何管理Spark的分区
Spark SQL,DataFrames 以及 Datasets 编程指南
Spark实战(5)_Spark Core核心编程
HBaseSQL及分析-Phoenix&Spark
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券