腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
在
spark
中
循环
加载
文件
、
、
我
在
一个具有相同.txt扩展名的目录中有n个
文件
,我想在一个
循环
中
加载
它们,然后为每个
文件
创建单独的dataframes。我读过,但在我的例子
中
,我的所有
文件
都有相同的扩展名,我想一个接一个地迭代它们,并为每个
文件
生成dataframe。我从计算目录
中
的
文件
开始,代码如下 sc.wholeTextFiles("/path/to/dir/*.txt").cou
浏览 3
提问于2018-08-07
得票数 0
回答已采纳
1
回答
如何在for
循环
中分别处理多个拼图
文件
?
、
我有多个镶木面板
文件
(大约1000个)。我需要
加载
它们
中
的每一个,处理它并将结果保存到Hive表
中
。我有一个for
循环
,但它似乎只能处理2或5个
文件
,但不能处理1000个
文件
,因为似乎
Spark
试图同时
加载
它们,我需要在同一个
Spark
会话
中
单独执行。我尝试使用for
循环
,然后使用for each,并使用了unpersist(),但都失败了。
加载
文件</e
浏览 11
提问于2019-02-10
得票数 1
回答已采纳
1
回答
使用Hive表迭代
Spark
数据帧
、
、
、
、
我有一个非常大的csv
文件
,所以我使用
spark
并将其
加载
到
spark
数据帧
中
。for index, row in locations.iterrows(): color="#0A8A9F",fill=True).ad
浏览 27
提问于2018-05-30
得票数 0
1
回答
Spark
抛出内存错误
、
、
、
我有一个具有8 GB内存的测试节点,
在
该节点上,我仅将10MB的数据(来自csv
文件
)
加载
到Cassandra(
在
同一个节点上)。我正在尝试使用
spark
(
在
同一节点上运行)来处理这些数据。请注意,对于
SPARK
_MEM,我分配了1 GB的内存,
SPARK
_WORKER_MEMORY也分配了同样的内存。分配任何额外的内存量都会导致
spark
抛出一个“检查所有的工作进程是否都已注册并且有足够的内存错误”,这通常表示
Spark</
浏览 0
提问于2014-08-20
得票数 2
1
回答
在
spark
executors上找不到Apache Phoenix JDBC驱动程序
、
、
我正在通过胖客户端连接到apache phoenix,并且已经提供了phoenix-client.jar to --files,但是executor仍然无法找到驱动程序。
浏览 19
提问于2019-08-04
得票数 0
1
回答
使用Apache
Spark
和AWS从每日CSV
文件
生成月度数据
、
、
、
我的CSV
文件
具有相同的列和一百万个匹配的ID,用于2018年的每一天。每一列都有5列,不包括ID。我想按月连接
文件
,这样每个月的
文件
都有5列*天数,因此1月份将有155个名称为Day1-Col1,Day1-Col2...第31天-Col5。 这是我可以用Apache
Spark
做的事情吗?我选择
Spark
是因为我想将数据放入AWS Athena数据集中,而AWS Glue似乎可以通过
Spark
SQL查询来实现这一点。我想我们会先把CSV转换成拼图
文件
,然后生成一个每
浏览 18
提问于2019-09-17
得票数 0
回答已采纳
1
回答
spark
-defaults.conf
中
的
spark
.{driver,executor}.memory和
spark
-env.sh
中
的
SPARK
_WORKER_MEMORY有什么区别?
我计划在
Spark
上做一个实验。有两个配置
文件
:
spark
-defaults.conf和
spark
-env.sh我应该控制哪一个来调整内存容量?(我
在<
浏览 6
提问于2017-01-18
得票数 1
1
回答
为什么当我运行一个通过maven阴影插件制作的uber jar时,Submit会导致NoSuchMethodError?
、
、
、
、
(SparkApplication.scala:52) at org.apache.
spark
.deploy.SparkSubmit$.main(SparkSubmit.scala:929)pom.xml
文件<
浏览 9
提问于2022-05-10
得票数 0
回答已采纳
1
回答
ec2上的sparkr :确保工作人员已注册并拥有足够的内存
、
、
我使用发行版附带的
spark
ec2脚本
在
ec2上设置了
spark
(
spark
1.4.0)集群。它可以
在
主程序和一个从服务器上正常启动,我可以在上检查状态。现在,我想在集群上运行sparkR,它在主服务器和从服务器上的本地模式下运行良好:
在
Myscript.R
中
,我有以下几行:#Initialize
Spark
context sc <- sparkR
浏览 1
提问于2015-07-16
得票数 0
回答已采纳
1
回答
Spark
-SQL :如何将TSV或CSV
文件
读入dataframe并应用自定义模式?
、
、
、
我
在
使用制表符分隔值(TSV)和逗号分隔值(CSV)
文件
时使用
Spark
2.0。我希望将数据
加载
到
Spark
-SQL数据帧
中
,在读取
文件
时,我希望完全控制模式。我不希望
Spark
从
文件
中
的数据
中
猜测模式。 如何将TSV或CSV
文件
加载
到
Spark
SQL Dataframe
中
,并对其应用模式?
浏览 2
提问于2017-04-20
得票数 6
2
回答
将大量CSV
文件
转换为拼花
文件
、
、
我有大量的CSV
文件
,需要转换为拼花
文件
,使用火种。一个CSV就是一个Parquet。000.csv002.csv000.parquet002.parquetfor each_csv in same_folder: df.write.parquet(output_fold
浏览 4
提问于2020-06-04
得票数 0
1
回答
R
中
的
spark
-warehouse错误
、
我已经
在
我的Windows10 PC上安装了
spark
spark
-2.0.0-bin-hadoop2.7,并且我想在R中使用SparkR包。:114) at org.apache.
spark
.sql.catalyst.catalog.SessionCatalog.<init>(Ses
浏览 1
提问于2016-10-18
得票数 0
3
回答
Spark
version-info.properties不在jenkins
中
、
、
、
、
当我将它作为java应用程序运行时,它是可以的,但是当我
在
Jenkins
中
运行插件时,它会显示一个错误,即:星星之核库通过一个名为package.java的类通过以下代码搜索该
文件
");
浏览 5
提问于2017-03-12
得票数 5
1
回答
如何将python代码转换为
Spark
兼容代码(pyspark)?
、
、
、
我有一个火花源代码,可以提取出所需的名称从text.This代码给我的结果,但需要很多时间来处理我的大数据,因为它的一部分是更多的pythonic.Request你的帮助,以更多的火花源的方式,以提高效率(新的
spark
浏览 2
提问于2016-04-15
得票数 1
1
回答
跨集群分布分区
、
、
、
、
在
apache
spark
中
,允许从许多不同的源
加载
数据集。根据我的理解,
spark
集群的计算节点可以不同于hadoop用来存储数据的节点(对吗?)更重要的是,我们甚至可以
加载
本地
文件
到
spark
作业
中
。主要问题来了:即使我们
在
hdfs和
spark
上使用相同的计算机,
在
创建RDD的过程
中
,
spark
是否总是会对所有数据进行混洗?或者
spa
浏览 0
提问于2018-05-08
得票数 0
1
回答
如果有
在
加载
阶段拥有'maxRecordsPerFile‘的好方法,就会产生火花
、
、
我已经按存储
在
s3上的空间列(四键)数据进行了分区。假设将150个分区
中
的5000个
文件
加载
到我的
spark
应用程序
中
时,我希望将数据分解为15,000个分区,但我希望保留已存在的分区。当然,这方面有很多工作要做,但可能会有一些优雅的解决方案,比如
Spark
在
保存阶段: preExportRdd.toDF .option("maxRecordsPerFile",maxCountInPartition
浏览 48
提问于2020-03-25
得票数 1
2
回答
Apache :当增加内核数量时无法提高执行时间
、
、
、
这样做的目的是调用一个名为wordcount.py的脚本(如下所示)来计算大型文本
文件
中
的字数。作者建议从互联网上抓取Iliad,并将其连接到一个名为iliad100.txt的
文件
中
。iliad.mb.txt当使用4核(local[4])而不是单个核心(local[1])
在
本地机器上运行脚本时/
spark
-2.3.1-bin-hadoop2.7
浏览 3
提问于2020-07-29
得票数 1
回答已采纳
1
回答
将数据集从
spark
中
的网站
加载
到rdd
、
、
我用tar.gz
文件
从pyspark的网站
加载
数据集。dataset=
spark
.sparkContext.textFile('https://www.example/example.tar.gz') ( url只是一个例子)和dataset.collect
浏览 9
提问于2019-11-16
得票数 0
回答已采纳
1
回答
Pyspark数据分布
、
、
我有1000个csv
文件
,这些
文件
将使用
spark
中
可用的映射功能进行并行处理。我
在
集群
中
连接了两个桌面,并且我使用pyspark shell进行计算。我将csv
文件
的名称传递给map函数,该函数根据名称访问
文件
。但是,我需要将
文件
复制到从服务器,以使进程正常工作。这意味着另一个系统上必须有所有csv
文件
的副本。
在
避免数据传输延迟的同时,请推荐一种替代存储。 我还尝试将这些
文件
存储
浏览 1
提问于2015-06-18
得票数 0
1
回答
使用scala从web上的csv
文件
读取数据
、
我在网上有一个很大的csv
文件
“https://drive.google.com/file/d/1_8*/view”(差不多100MB大小) 是否可以直接从上面提到的URL读取
文件
并将数据
加载
到scaladataframe
中
。如果是,则需要您的帮助才能将其
加载
到我的系统
中
致以敬意,
浏览 14
提问于2020-04-23
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券