腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
从
spark
scala
中
的
txt
或
csv
文件
读取
时
,
从
csv
中
删除
标题
、
我正在尝试
从
给定
的
输入
文件
中
删除
头
文件
。但是我来不了了。这就是我所写
的
。有人能帮我
从
txt
或
csv
文件
中
删除
标题
吗? import org.apache.
spark
.
浏览 14
提问于2019-11-04
得票数 0
回答已采纳
1
回答
从
dbfs (> 2gb )复制和
读取
文件
的
databricks错误
、
、
但是,当我做一个
spark
.read.
csv
(samplePath)
时
,它只
读取
1800万行,而不是6600万行。我更新了maven dbutil依赖项,并在我调用该行
的
对象中导入了相同
的
依赖项。还有其他地方可以让我在
scala
代码中使用dbutils在databricks上运行吗?dbutils.fs.cp("file:" + _outputFile, _outputFile) Databricks自动假定,当您执行
spark
.r
浏览 1
提问于2019-07-19
得票数 1
回答已采纳
2
回答
将
csv
文件
作为
spark
数据帧
读取
、
、
我有一个
CSV
文件
和一个头
文件
,它必须作为数据帧通过
Spark
(2.0.0和
Scala
2.11.8)
读取
。当我尝试将
spark
中
的
csv
数据作为数据帧
读取
时
,我遇到了问题,因为
标题
包含列(No.指项目)具有特殊字符“。我尝试用来
读取
csv
数据
的
代码是: val
spark
= SparkSe
浏览 0
提问于2017-09-06
得票数 3
2
回答
Spark
Dataset加载多个
CSV
文件
,如果所有
文件
中
的
标头不相同,则报告不匹配
、
、
、
、
我正在尝试使用
spark
2.1.0 API将多个
csv
文件
从
hdfs目录加载到
Spark
DataSet
中
: val csvData =
spark
.read.option("header", "true
Spark
只
从
第一个
文件
中选取头部,并将其生成为DataSet
的
架构,忽略其余
csv
文件
的
头部。但我
的<
浏览 0
提问于2017-11-06
得票数 1
1
回答
如何在pyspark中将第一行作为
标题
读取
文本
文件
作为
spark
context
、
在
spark
context
中
读取
文本
文件
后得到
的
数据帧| _1| _2| _3||name|age|salary|| sai| 25| 1000|| che| 40| null|我需要
的
数据帧是|name+---+------+| bum| 30|
浏览 0
提问于2020-10-24
得票数 1
1
回答
scala
的
hdfs连接错误
、
、
、
、
我是hadoop
的
新手,刚刚开始尝试使用
scala
和
spark
连接到hdfs,但不知道配置有什么问题。请帮我解决和理解它。Hadoop Version is 2.7.3
Spark
Version is 2.1.1 <dependency>
浏览 6
提问于2017-06-14
得票数 0
1
回答
导入多个
文件
的
sparklyr
、
、
我
的
问题我试过
的
我试着使用lapply()和
spark
_read_
csv
,就像我在sparklyr外所做
的
那样。= sc, name = "name", de
浏览 0
提问于2018-03-31
得票数 5
回答已采纳
1
回答
星火重命名Dataframe列
、
、
我在HDFS中有两个
文件
-一个是没有头
的
csv
文件
,另一个是列名列表。我想知道是否可以将列名分配给其他数据帧,而不必像描述
的
那样实际输入它们。我在找这样
的
东西: val df = sqlContext.read.format("com.databricks.
spark
.
csv
").option("delimiter", "\t").load("/user/trai
浏览 2
提问于2017-01-13
得票数 1
3
回答
星星之火: HiveContext不要忽略标头
、
、
、
我有一个火花作业,它从外部蜂巢表
读取
数据,并在另一个内部蜂巢表中进行一些转换和重新保存数据。orc.compress","SNAPPY").saveAsTable("my_internal_table")我
的
问题是,我在my_internal_table表<
浏览 17
提问于2016-07-25
得票数 3
回答已采纳
2
回答
火花org.apache.hadoop.mapred.InvalidInputException S3
CSV
读取
返回
、
、
我在这里看到了几个帖子和谷歌搜索
的
org.apache.hadoop.mapred.InvalidInputException,但大多数涉及HDFS
文件
或
陷阱错误。我
的
问题是,虽然我可以
从
spark
读取
CSV
文件
,但是
从
编译
的
JAR
中
运行它会不断地返回一个org.apache.hadoop.mapred.InvalidInputException错误。罐子
的
粗糙过
浏览 4
提问于2017-02-03
得票数 0
1
回答
在
spark
中
从
HDFS加载
文件
、
我尝试
从
HDFS运行这个
spark
程序,因为当我在本地运行它
时
,我
的
pc上没有足够
的
内存来处理它。有人可以告诉我如何
从
HDFS加载
csv
文件
,而不是在本地加载吗?下面是我
的
代码:import org.apache.
spark
.sql.Row; import org.apache.
spark
.sql.Save
浏览 0
提问于2018-04-19
得票数 0
2
回答
在Windows上可以使用
Scala
语言
的
SparkSession对象
读取
文件
吗?
、
、
、
我一直试图通过多种方式
从
.
csv
文件
中
读取
数据,使用SparkContext对象。我发现它可以通过
scala
.io.Source.fromFile函数,但我想使用火花对象。每次我为textfile运行函数org.apache.
spark
.SparkContext
时
,都会得到相同
的
错误:
scala
> sparkSession.read.
csv
("file:/
浏览 9
提问于2021-12-29
得票数 0
回答已采纳
2
回答
是否可以在创建DataFrame
时
指定列名
我
的
数据在
csv
文件
中
。该
文件
没有任何
标题
列United States Croatia 1Egypt United
scala
> val data =
spark
.read.
csv
(".... 1 more field] 如果我不想使用_c0,_c1,是否可以在
读取
文件</e
浏览 0
提问于2019-02-03
得票数 0
2
回答
更改数据类型拆分后
的
星火RDD如何在不更改数据类型
的
情况下拆分
、
、
我已经将数据
从
文本
文件
加载到
Spark
,在数据类型拆分更改之后。如何在不更改数据类型
的
情况下拆分数据,或者如何将拆分
的
数据转换为原始数据类型?我
的
代码conf = SparkConf().setMaster("local").setAppName("Movie") movies = sc.te
浏览 2
提问于2020-10-22
得票数 0
1
回答
如何处理PySpark和
Spark
中
多个分隔符
的
csv
文件
?
、
在PySpark
中
,我要处理以下场景。"Name1"@|#34@|#Male我需要清理数据并得到如下所示
的
数据| Name2
浏览 1
提问于2021-07-21
得票数 2
回答已采纳
12
回答
如何将
csv
文件
转换为rdd
、
我是新来
的
。我想对
CSV
记录
中
的
特定数据执行一些操作。final JavaRDD<String> File = sc.textFile(Filename).cache(); final J
浏览 6
提问于2014-06-19
得票数 50
回答已采纳
2
回答
使用
spark
读取
多个
csv
文件
时
,如何
从
单个
文件
设置header?
、
、
我有多个相同格式
的
.
csv
文件
。它们
的
名字类似于file_#.
csv
。它们
的
头在第一个
文件
(file_1.
csv
)
中
。我用
spark
读取
了这个
文件
,代码如下:当我显示结果
时
,
标题
不是第一个
文
浏览 2
提问于2019-09-22
得票数 0
2
回答
如何在不使用火花
的
情况下
从
AWS内部
读取
S3桶
中
的
文本
文件
、
、
我需要打开一个普通
的
文本
文件
位于一个S3桶(不是一个地板
或
CSV
文件
)从一个电子病历集群。我可以直接使用
spark
.read.parquet("s3://mybucket/some_parq_file")打开
CSV
或
拼板
文件
但是我只需要使用、java.io.File
或
scala
.io.Source
从
EMR集群
读取
浏览 3
提问于2019-11-14
得票数 0
回答已采纳
2
回答
读取
csv
函数
时
出错
、
在google计算集群
中
,我正在尝试使用sparklyr包将
csv
文件
读取
到strudio
中
。配置如下:install.packages("sparklyr")
spark
_install(version = "1.6.2") Sys.setenv(
SPARK
_HOME=&q
浏览 1
提问于2017-04-05
得票数 0
2
回答
星星之火(v2.3.2) dataframe正在以字符串类型
读取
ORC
文件
中
的
所有列。这是正常
的
行为吗?
、
我有一堆
CSV
文件
正在使用ETL工具Informatica以ORC格式加载到HDFS。加载到HDFS之后,我想提取ORC
文件
的
元数据(列名、数据类型)。但是,当我将ORC
文件
加载到
Spark
中
时
,所有的列都被评估为string类型。我试图理解为什么每一列都是string类型
的
结果。这是否是使用
csv
源
文件
创建兽人
的
正常行为(不管我们使用哪个工具)?或者我是不是在火花中正确地做了导致
浏览 1
提问于2019-10-16
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券