腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
Spark
-
Dataframe
编写
器
-
额外
的
空
文件
apache-spark
、
apache-spark-sql
我正面临着
spark
的
奇怪行为。我使用
的
是一个只有10行
的
小数据集: +-----+--------------------++-----+-----------------我添加了一列,以便使用以下代码定位每行所在
的
位置: df.select('*',
spark
_partition_id().alias('partition_id')) 结果是: +-----+----错误
的<
浏览 23
提问于2020-01-14
得票数 1
3
回答
如何让
spark
为
空
拼图输出写一个_SUCCESS
文件
?
apache-spark
我
的
一个
spark
作业当前在
空
输入上运行,因此没有生成任何输出。现在还可以,但我仍然需要知道
spark
作业是否运行,即使它没有生成拼花输出。有没有办法强迫
spark
写一个_SUCCESS
文件
,即使根本没有输出?目前,如果有输入,它不会向输出
的
目录写入任何内容,所以我无法确定是否出现了故障(这是一个更大
的
自动化管道
的
一部分,因此它会一直重新调度作业,因为没有迹象表明它已经运行了)。
浏览 30
提问于2016-02-24
得票数 5
2
回答
在
Spark
中,如果数据
文件
中没有行,如何在
文件
中写入标头?
pyspark
、
apache-spark-sql
、
header
如果在
dataframe
中没有行,我希望在
文件
中写入一个头,目前,当我将一个
空
的
dataframe
写入一个
文件
时,就会创建
文件
,但是它中没有头
文件
。我使用以下设置和命令
编写
dataframe
: .write \ .format("com.databricks.
spark
.csv(&quo
浏览 0
提问于2019-07-09
得票数 3
回答已采纳
2
回答
使用Scala检查Google存储桶或
文件
是否存在
scala
、
apache-spark
、
google-cloud-platform
、
google-cloud-storage
我想检查一下是否有一个谷歌存储桶存在使用火花-scala。如果它不存在,就创建它。
浏览 0
提问于2019-03-26
得票数 2
1
回答
在该行
的
任何列中选择至少一个
空
或
空
的
行。
scala
、
apache-spark
从一个
dataframe
中,我想创建一个新
的
dataframe
,其中任何列中至少有一个值为null或
空
,在
Spark
1.5/ scala中。我正在尝试
编写
一个通用函数来创建这个新
的
dataframe
。在这里,我传递数据
文件
和列列表,并创建记录。 谢谢
浏览 4
提问于2017-07-25
得票数 4
回答已采纳
1
回答
PySpark
DataFrame
写入
空
(零字节)
文件
python
、
apache-spark
、
pyspark
我正在使用
Spark
3.1.1版本
的
PySpark
DataFrame
API进行本地设置。在读取数据、执行一些转换等之后,我将
DataFrame
保存到磁盘。输出目录与part-0000*
文件
一起创建,输出目录中也有_SUCCESS
文件
。但是,我
的
part-0000*总是
空
的
,即零字节。 我试着用parquet和csv格式
编写
它,结果是一样
的
。在
编写
之前,我调用了df.show()
浏览 8
提问于2022-05-11
得票数 1
2
回答
将数据存储到本地
文件
系统将导致结果为
空
。
apache-spark
、
amazon-emr
以下
DataFrame
"df“是非
空
的
,大小适中:res0: Long = 4067 scala> val hdf =
spark
.read.parquet("/tmp/topVendors") hdf: org.apache.
spark
.sql.
DataFrame
= [displayName: string, cnt: bi
浏览 0
提问于2018-07-30
得票数 18
回答已采纳
2
回答
使用已知模式保存
空
DataFrame
(
Spark
2.2.1)
apache-spark
、
parquet
、
databricks
是否可以使用已知
的
模式保存一个
空
的
DataFrame
,以便将该模式写入该
文件
,即使该
文件
没有任何记录?def example(
spark
: SparkSession, path: String, schema: StructType) = { va
浏览 2
提问于2018-04-14
得票数 5
1
回答
PySpark和Pandas读取从S3中分离
的
csv
文件
跳过空
文件
apache-spark
、
amazon-s3
、
pyspark
、
boto3
、
emr
现在,我想收集这些
文件
,并把它们放在熊猫
的
资料里。my_big_
dataframe
= pandas.concat(to_concat) 问题是Pyspark
编写
了大量
的
空
文件
。所以我
的
代码花了很多时间试图读取一个
空
的
csv
文件
,结果却抛出了一个异常。据我所知,df_
spark
.toPandas()函数克服了
spark
的
用途,因为它将其放入驱动程序内存中,而不使用
浏览 3
提问于2018-02-07
得票数 1
12
回答
如何创建一个
空
的
DataFrame
?为什么"ValueError: RDD是
空
的
“?
apache-spark
、
pyspark
我正在努力创建一个
空
的
数据在火花(火花)。df = sqlContext.createDataFrame(sc.emptyRDD(), schema)Traceback (most recent call last):File "<stdin>", line 1, in <module> File "/Users/Me/Desktop/
spark
浏览 4
提问于2016-01-06
得票数 34
回答已采纳
1
回答
星星之火:未能将包含
空
值
的
布尔列发送到Oracle
oracle
、
scala
、
apache-spark
、
apache-spark-sql
我有一个包含布尔列(TRUE、FALSE、NULL)
的
dataframe
。但是,当它们不是
dataframe
中
的
空
值时,任务就成功地完成了。此外,如果我将一个
空
值直接插入到Oracle中
的
布尔字段中,我就没有问题(这只是为了在Oracle中直接测试
空
值)。我使用
Spark
在Oracle中
编写
数据
的
方式如下: df.write.mode(SaveMode.Append).jdbc(url, table
浏览 2
提问于2021-03-21
得票数 1
1
回答
CosmosDB
的
Spark
DataFrame
编写
器
会处理空行吗?
azure
、
azure-cosmosdb
在进行数据操作之后,我将构建一个大型
DataFrame
,并使用CosmosDB
的
Spark
SQL连接
器
将其写回CosmosDB集合,使用df.write.mode(SaveMode.Overwrite).cosmosDB(writeConfig)
编写
代码
的
类是来自
spark
_sql_2.11
的
DataFrameWriter。DataFrameWriter是否检查它将要写入
的
行是否只包含空字符串?如果不是,那么在将其传递给DataF
浏览 11
提问于2019-04-15
得票数 0
2
回答
访问
空
数组或
空
数组时引发错误
java
、
json
、
scala
、
apache-spark
我有一个带有这种模式
的
JSON
文件
: "name" : "john doe", "home": ["1111", "222"], }家庭电话号码数组有时可能是
空
的
。我
的
spark
应用程序收到这些JSONS
的<
浏览 2
提问于2017-05-21
得票数 3
回答已采纳
3
回答
火花写入Avro
文件
apache-spark
、
avro
在如下流中使用
Spark
(使用Scala )
编写
Avro
文件
的
常见做法是: createRow(...) val s
浏览 7
提问于2015-11-23
得票数 6
2
回答
DataSet javaRDD()性能
java
、
performance
、
apache-spark
、
cassandra
、
apache-spark-sql
我正在使用
Spark
SQL从
Spark
应用程序
的
Cassandra中检索数据。数据以DataSet
的
形式检索。但是,我需要使用javaRDD()函数将此dataset转换为JavaRDD。是否有一些参数需要调整以增强这次
的
性能?
浏览 1
提问于2017-08-19
得票数 0
2
回答
如何在"pyspark“中读取xml
文件
?
xml
、
apache-spark
、
pyspark
spark
.read \ .option('rootTag', 'tags')df =
spark
.read.format('xml').options(rowTag='file').load('ted_en-20160408.xml') 但也有错误。Please find packages at h
浏览 2
提问于2021-09-30
得票数 0
1
回答
Apache上下文dropDuplicates
java
、
apache-spark
我正在尝试使用
Spark
的
1.5方法dropDuplicates().过滤
DataFrame
内容使用完全数据填充
的
表(我
的
意思是没有空单元格)会给出正确
的
结果,但是当我
的
CSV源包含
空
单元格(我将提供源
文件
我已经阅读了1.6.2版本
的
Spark
和DataFrames教程,它没有详细描述
DataFrame
操作。我还在读“学习火花。闪电-快速大数据分析”一书,但是它是为
Spar
浏览 0
提问于2016-08-01
得票数 0
回答已采纳
1
回答
在Kerberos环境下在Yarn上用sftp模式
编写
csv
文件
的
尝试
scala
、
apache-spark
、
sftp
、
hadoop-yarn
、
kerberos
我正在尝试将
Dataframe
写入csv
文件
,并将此csv
文件
放入远程计算机。
Spark
作业在Yarn上运行到Kerberos集群中。下面是当作业试图在远程计算机上写入csv
文件
时遇到
的
错误: 为了
编写
这个csv
文件
浏览 0
提问于2018-08-02
得票数 2
1
回答
PySpark替换()函数不使用
空
值替换整数
python
、
dataframe
、
python-2.7
、
apache-spark
、
pyspark
注意:这是用于
Spark
2.1.1.2.6.1.0-129my_df = my_df.na.replace(0, None) File "<stdin>", line 1, in <module> File"/usr/
浏览 4
提问于2021-10-24
得票数 0
回答已采纳
1
回答
Janusgraph查询返回数据帧以使用GraphFrame执行分析
python-2.7
、
apache-spark
、
apache-spark-sql
、
gremlin
、
janusgraph
我想知道是否可以从JanusGraph中查询
DataFrame
格式
的
图形,然后摄取到GraphFrame中来计算pageRank?关键问题是如何使用Python语言在JanusGraph + GraphFrame之间架起桥梁,即1.查询以某种格式返回
的
图2.调用GraphFrame API计算PageRank。
浏览 39
提问于2018-08-03
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Spark将本地文件读取并封装为DataFrame的完整指南
Spark之SparkSQL
Spark SQL,DataFrames 以及 Datasets 编程指南
我用Rust徒手重写了一个Spark,并把它开源了
简化TensorFlow和Spark互操作性的问题:LinkedIn开源Spark-TFRecord
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券