腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
在
java
中
使用
Apache
Spark
读取
TSV
文件
的
最佳
方法
java
、
csv
、
apache-spark
我有一个
TSV
文件
,其中第一行是头
文件
。我想从这个
文件
创建一个JavaPairRDD。目前,我
使用
以下代码来完成此操作: TsvParser tsvParser = new TsvParser(new TsvParserSettings()); .mapToPair(row -> new Tuple2<>(row[0], myObjectFromArray(row))
浏览 159
提问于2016-08-04
得票数 2
回答已采纳
5
回答
java
.lang.OutOfMemoryError:无法获得100个字节
的
内存,获得0
python
、
hadoop
、
memory
、
apache-spark
、
pyspark
我
使用
以下命令
在
本地模式下
使用
Spark
2.0调用Pyspark:输入数据正在从
tsv
文件
中
读取
,并且有我正在对dataframe做一些操作,然后我尝试将它导出到
tsv
文件
中
,我得到了这个错误。df.coalesce(1).write.save("sample.
tsv
&quo
浏览 7
提问于2016-08-15
得票数 24
回答已采纳
1
回答
Spark
-SQL :如何将
TSV
或CSV
文件
读入dataframe并应用自定义模式?
scala
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
我
在
使用
制表符分隔值(
TSV
)和逗号分隔值(CSV)
文件
时
使用
Spark
2.0。我希望将数据加载到
Spark
-SQL数据帧
中
,在
读取
文件
时,我希望完全控制模式。我不希望
Spark
从
文件
中
的
数据
中
猜测模式。 如何将
TSV
或CSV
文件
加载到
Spark
SQL Dataframe
浏览 2
提问于2017-04-20
得票数 6
1
回答
火花镶嵌:
在
推断架构为
java
.lang.IllegalArgumentException时出现问题:无效
的
小数位数:-1
apache-spark
、
pyspark
、
bigdata
、
parquet
Spark
版本2.4.0集群: AWS EMR read. \ option("delimiter", "\t"). \ option(
浏览 3
提问于2019-09-04
得票数 1
3
回答
用Scala API将
TSV
读入
Spark
Dataframe
scala
、
apache-spark
我一直
在
尝试
使用
databricks库来
读取
CSV。我正在尝试
使用
scala api将hive创建
的
TSV
读取
到
spark
数据帧
中
。下面是一个可以
在
spark
shell
中
运行
的
示例(我公开了示例数据,以便它可以为您工作)import org.<em
浏览 0
提问于2015-11-24
得票数 29
回答已采纳
0
回答
Apache
Spark
能否加快从Oracle DB
读取
数百万条记录,然后将这些记录写入
文件
的
过程?
java
、
oracle
、
apache-spark
、
mapreduce
、
spark-streaming
我是新来
Apache
-
Spark
的
, 我需要从Oracle数据库
中
读取
数百万(~500万)条记录,然后对这些记录进行一些处理,并将处理后
的
记录写入一个
文件
。目前,这是
在
Java
中
完成
的
,在这个过程
中
-数据库
中
的
记录被分类到不同
的
子集,基于一些数据标准-
在
Java
进程
中
,4个线
浏览 9
提问于2017-06-23
得票数 1
2
回答
如何在
spark
中
使用
scala过滤Rdd
中
的
数据并将其保存为文本
文件
scala
、
apache-spark
、
rdd
我有两个
TSV
格式
的
数据集。我想在
spark
scala
中
读取
两个
TSV
文件
并执行分析。
文件
1具有Aug数据,而
文件
2具有Sep数据。如何在
spark
中
使用
scala
读取
两个
tsv
文件
并将输出保存到另一个
tsv
文件
。我想在RRD和RRD上
使用
交集操作 下面是两种
TSV
浏览 49
提问于2020-04-27
得票数 0
1
回答
Apache
spark
-将JavaRDD转换为csv
文件
java
、
apache
、
csv
我正在尝试
使用
Apache
spark
将我org.
apache
.
spark
.api.
java
.JavaRDD<Object>作为管道分隔
的
文本写入.txt
文件
。为此,我
使用
了
spark
提供
的
saveAsTextFile
方法
。但是这个
方法
的
问题是,它直接将对象写到
文件
中
,没有格式化,我也无法给出正确<
浏览 1
提问于2017-11-17
得票数 1
1
回答
Spark
:与另一个汇总器合并时维度不匹配
scala
、
apache-spark
、
apache-spark-mllib
我想研究额外
的
训练数据如何帮助模型性能(
在
精度、召回率等方面)
的
影响。我将采样率改变为0.35,0.5,0.75和1.0 (从所有数据
的
25%到100% )。val sampling_ratio = 0.25 从单独
的
文件
中
读取
案例和控件。org.
apache
.
spark
.SparkDriverExecutionException:执行异常在org.
apache
.
spark
.sch
浏览 2
提问于2016-01-12
得票数 0
3
回答
在
spark
1.6
中
将csv
读取
为数据帧
scala
、
apache-spark
我
使用
的
是
Spark
1.6,正在尝试将csv (或
tsv
)
文件
读取
为数据帧。以下是我采取
的
步骤:scala> import sqlContext.implicits._scala> .format("com
浏览 12
提问于2016-07-27
得票数 2
1
回答
在
AWS
中
每月运行一次python脚本
的
最佳
方法
是什么?
python
、
amazon-s3
、
amazon-ec2
、
amazon-ecs
我需要在每个月20日运行一个python脚本
文件
。此代码将
读取
tsv
文件
(存储在某处),然后调用费用注册API并记录对
文件
的
响应并保存它。处理后
的
tsv
文件
将被移动到处理
文件
夹
中
。我不知道
在
AWS
中
实现这一点
的
最佳
方法
是什么?创建EC2实例,
在
s3上运行pyt
浏览 1
提问于2022-01-13
得票数 0
2
回答
从DataFrame到RDD[LabeledPoint]
scala
、
apache-spark
、
apache-spark-mllib
我正在尝试
使用
Apache
Spark
MLlib实现一个文档分类器,但我
在
表示数据时遇到了一些问题。我
的
代码如下:import org.
apache
.
spark
.ml.feature.Tokenizer import org.
apache
.
spark
.ml.feat
浏览 0
提问于2015-06-19
得票数 15
回答已采纳
3
回答
PySpark3从https url
读取
文件
python
、
apache-spark
、
pyspark
PySpark
中
是否有从.
tsv
.gz
中
读取
.
tsv
.gz
的
方法
?("wikipediaClickstream").getOrCreate() url = "https://dumps.wikimedia.org/other/clickstream/2017-11/clickstre
浏览 7
提问于2021-09-25
得票数 1
回答已采纳
2
回答
使用
spark
dataFrame从HDFS加载数据
apache-spark
、
spark-dataframe
我们可以在从硬盘
文件
系统
中
读取
数据时
使用
DataFrame吗?我
在
HDFS中有一个制表符分隔
的
数据。 我用谷歌搜索了一下,但我发现它可以用于NoSQL数据
浏览 1
提问于2016-06-05
得票数 5
回答已采纳
2
回答
无法
读取
java
星火中
的
文件
java
、
hadoop
、
apache-spark
我试图
使用
eclipse
在
java
上运行
spark
程序。如果我只是
在
控制台上打印一些东西,但是我无法
使用
textFile函数
读取
任何
文件
,它就在运行。我
在
某个地方读到,
读取
文件
只能
使用
HDFS完成,但我无法
在
本地系统
中
完成。请让我知道如何访问/
读取
文件
,如果
使用
HDFS,那么如何在我
浏览 1
提问于2016-08-03
得票数 1
回答已采纳
2
回答
如何在
Spark
2.4
中
读取
闪烁2-shell
中
的
Avro
文件
?
apache-spark
、
apache-spark-sql
我们
在
Spark
2.4
中
在
spark
2-shell
中
读取
avro
文件
时遇到了问题,任何指针都会有很大帮助。我们
使用
以下
方法
读取
Spark
2.4 2.3
中
的
avro
文件
,但这种支持
在
Spark
2.4
中
已被删除:
spark
2-shell --jars
浏览 4
提问于2020-01-24
得票数 2
回答已采纳
3
回答
idea intellij
中
运行
的
Apache
火花主URL错误
scala
、
apache-spark
我正在
使用
intellij
在
scala
中
的
星火应用程序。我不知道为什么我会犯错误。代码: .setAppName("Lambda with <
浏览 1
提问于2018-10-09
得票数 0
回答已采纳
1
回答
删除
spark
-structured-streaming写入
的
损坏拼接
文件
时会丢失数据吗?
scala
、
apache-kafka
、
parquet
、
spark-structured-streaming
我
使用
spark
-structured-streaming作为消费者从kafka获取数据,按照指南参考https://
spark
.
apache
.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为拼图
文件
。这是我
的
问题:程序运行良好,但一些容器很少失败(但它确实发生了),导致了一些损坏
的
拼接
文件
。它将导致错误,
浏览 20
提问于2019-05-25
得票数 0
1
回答
如何解决
spark
读取
hive orc
文件
遇到错误
scala
、
apache-spark
、
hive
、
orc
jdk 1.8 scala 2.12.11
spark
3.0.1当我
在
scala
spark
中
读取
配置单元表并写入导出orc
文件
时它运行成功 当我想从python pyspark
中
的
句号导出orc
文件
中
读取</
浏览 29
提问于2021-02-19
得票数 1
1
回答
使用
SPARK
从ftp
读取
文件
时出现异常。
java
、
apache-spark
、
ftp
在
尝试
使用
Spark
从FTP
读取
数据时出错。<init>(LineRecordReader.
java
:127) at org.
apache
.
spark
.executor.Executor$TaskRunner.run(Execut
浏览 3
提问于2017-05-11
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
pyspark 安装
Apache Spark 2.4 内置的 Avro 数据源实战
Spark-2
英雄惜英雄-当Spark遇上Zeppelin之实战案例
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券