腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
4
回答
如何用
java
读取
spark
中的xls和xlsx文件?
、
、
、
、
我想
逐行
读取
xls和xlsx ()文件,就像我们如何
读取
文本文件
一样?我想
使用
spark
来提高
读取
大型
xls文件的性能,比如1GB,这就是为什么我需要
spark
分部分
读取
该文件,就像我们对
文本文件
所做的那样。请建议一下。 谢谢!
浏览 19
提问于2015-07-29
得票数 0
回答已采纳
2
回答
使用
Java
Spark
逐行
读取
大型
文本文件
、
我正在尝试
读取
一个大的
文本文件
(2到3 gb)。我需要
逐行
读取
文本文件
,并将每一行转换为一个Json对象。我已经尝试
使用
.collect()和.toLocalIterator()来
读取
文本文件
。根据文档,.toLocalIterator()在处理
大型
RDD时是无效的,因为它会遇到内存问题。有没有一种有效的方法来
读取
多节点集群中的
大型
文本文件
?下面是我通过各种尝试
读取</em
浏览 70
提问于2019-11-15
得票数 5
回答已采纳
1
回答
有没有一种方法可以在不下载的情况下
使用
pyspark处理s3桶中的json文件?
、
、
、
、
我在一个特定的s3桶文件夹中有一些
大型
json文件。每个文件每一行都包含json对象。我试图
使用
spark
.read.json(s3a://bucket/prefix/file.json)下载它,但是得到了“内容长度分隔消息体的过早结束”错误。我想知道是否有办法处理json中的空行,同时
读取
它?我们如何
逐行
读取
json并处理它?最后,我需要
使用
json数据进行一些事件分析。我们可以在不下载json的情况下从s3本身处理/
浏览 2
提问于2020-10-02
得票数 0
1
回答
管理24 GB的S3文件的理想群集大小是多少
、
、
、
、
我目前正在
使用
这个数据集s3://commoncrawl/crawl-001/2008/06/19/1/。它的大小是24 S3,我正在尝试将其分离为文本/html请求,并将其保存在我的S3存储桶中。我正在
使用
内核pyspark,并将此文件作为rdd
读取
,我必须将其作为csv文件保存在我的存储桶中: rdd=sc.wholeTextFiles('s3://commoncrawl/crawl-001/
浏览 15
提问于2021-09-08
得票数 0
回答已采纳
6
回答
Delphi7处理超大
文本文件
数据的最佳解决方案
、
、
我有这样的
文本文件
:"02","BBB","BBBBB","BBBBBBBB" "04","DDD","DDDDD" 我想把这个
文本文件
数据加载到因此,我需要构建一个程序来
逐行
读取
这个
文本文件
,直到eo
浏览 1
提问于2013-07-18
得票数 2
回答已采纳
1
回答
逐行
读取
文件并执行regex替换
、
、
、
我编写了一个程序,将
文本文件
读入变量,对文本执行regex替换,并将其写回文件。显然,对于
大型
文本文件
,这是不可伸缩的;我希望能够
逐行
读取
文本文件
,并对所需的模式执行regex替换。rgx.Replace(fileContents, rep); 我知道如何
使用
StreamReader
逐行
读取
文
浏览 2
提问于2014-12-23
得票数 4
回答已采纳
1
回答
使用
pyspark将json文件读入RDD (而不是dataFrame)
、
、
我有以下文件: test.json > "id": 1, "price": 12.50,}rddj = sc.textFile('test.json')我有个错误: 期望对象:第1行
浏览 3
提问于2017-10-30
得票数 3
回答已采纳
22
回答
如何
使用
Java
逐行
读取
大型
文本文件
?
、
、
、
、
我需要
使用
Java
逐行
读取
一个大约5-6 GB的大
文本文件
。 我怎样才能快速完成这项工作?
浏览 39
提问于2011-05-03
得票数 939
2
回答
如何
使用
Java
逐行
读取
大型
文本文件
?
"我需要
使用
Java
逐行
读取
大约5-6 GB的大
文本文件
。 我怎样才能快速做到这一点?"
浏览 264
提问于2017-12-08
1
回答
C++缓冲文件
读取
、
、
我想知道
逐行
读取
大型
文本文件
(例如std::getline或fgets)是否可以
使用
预定义的
读取
缓冲区大小进行缓冲,还是必须
使用
特殊的字节函数?我的意思是通过I/O操作数优化
读取
非常大的文件(例如,一次从HDD
读取
32MB)。当然,我可以手工进行缓冲
读取
,但我认为标准文件流具有这种可能性。
浏览 0
提问于2011-11-02
得票数 2
2
回答
如何在Python中逐句解析文件
、
、
我需要
读取
大量的
大型
文本文件
。我发现的大多数方法都是
逐行
阅读的。 我如何用Python来做这件事呢?
浏览 1
提问于2018-02-22
得票数 2
回答已采纳
1
回答
如何删除python中
大型
文件的重复行
、
、
、
在不
逐行
读取
的情况下,删除
大型
文本文件
的重复行的最佳方法是什么?
浏览 3
提问于2021-04-07
得票数 1
回答已采纳
1
回答
用火花
读取
大Json文件的第一行
、
、
、
、
我对
Spark
非常陌生,并且教自己我一直在
使用
小json文件,这些文件工作得很完美。但是,我不知道如何在中
读取
的单个数据行,而不是整个json文件。我一直在寻找这方面的文件,但它似乎相当稀少。我必须处理一个
大型
(比我的内存更大) json文件(维基百科转储:),并且想要
逐行
处理。我以为
Spark
就是为了做到这一点而设计的,但却找不出如何做到这一点。SparkRDD=
spark
.read.json("largejson.json").rdd Spar
浏览 1
提问于2018-01-10
得票数 2
1
回答
从
文本文件
中
读取
矩阵作为向量的RDD
、
我正试图从一个以制表符分隔的
文本文件
中
逐行
读取
一个大的双精度矩阵。这是在Scala/Apache
Spark
中。如果我执行以下操作:我得到了obs: org.apache.
spark
.rdd.RDDString 但是,要求具有向量的
浏览 1
提问于2014-10-29
得票数 1
1
回答
Shell脚本:将变量传递给火花-shell会话。
、
、
、
、
本质上,我的目标是创建一个代码,它将
逐行
读取
文本文件
并逐一执行
文本文件
中的SQL查询。要做到这一点,我需要能够将"p“的值传递到火花会话中。但我不能这样做:export p="SELECT distinct year, period FROM calendar "
spark
-shell<< 'EOF'
spark<
浏览 1
提问于2018-10-02
得票数 1
回答已采纳
1
回答
使用
java
实现
大型
日志文件的‘'Tail 10’
、
有没有办法
使用
1 4GB的RAM
读取
4 4GB的日志文件?基本上,我想从
大型
日志文件中
读取
几行。该行可以在
大型
日志文件中的任何位置。-If有人可以帮助我理解linux tail的实现,我可以在
java
中尝试同样的实现。-At至少我应该
使用
哪个
java
I/O包来按需
读取
行,而不是在物理内存中加载完整的文件,然后
逐行
读取
。
浏览 0
提问于2013-11-27
得票数 1
2
回答
在dart中
逐行
读取
文件
、
我正在尝试处理语言Dart中的
大型
文本文件
。这些文件的大小超过100 MB。 我尝试了dart:io库的readAsLines和readAsLinesSync方法。有没有办法像在其他语言中那样
逐行
或逐字节地
读取
文件?
浏览 1
提问于2014-02-16
得票数 13
2
回答
Python匹配大txt文件中的数据?
、
我
使用
文本文件
来存储值,这样就不会耗尽内存。我还
逐行
读取
文本文件
,如果
文本文件
中已有新值,则需要一种匹配方法。问题是我无法在不发生内存错误的情况下用python加载整个文件。唯一的选择是打开上下文管理器,
逐行
迭代并尝试匹配值。是这样做还是保留
文本文件
更好? 附带问题: 来自实际公司的
大型
数据库
使用
什么方法?我知道他们在
使用
批处理或分块;他们是不是在这些分块中做与我相同的事情?此外,有没有一种方法可以
浏览 40
提问于2020-06-16
得票数 0
2
回答
Spark
文件格式转义\n正在加载CSV
、
、
我正在
使用
spark
读取
CSV管道分隔的数据文件。这是有资格引用的。一个文本块中有一个/n,它会导致
读取
损坏。我不明白的是,它是引用限定文本,所以它肯定应该跳过它!?行本身是CR+LN分隔的。这就是我用来加载数据的代码val df =
spark
.read .schema
浏览 2
提问于2018-08-10
得票数 0
回答已采纳
2
回答
逐行
阅读
文本文件
、
、
、
我需要从
文本文件
中
逐行
读取
数据。每行包含一个字符串或一个整数。我想
使用
StreamReader从
文本文件
中
逐行
读取
,并
使用
StreamWriter将其写入二进制文件。“写入二进制文件”部分将会很简单。“从
文本文件
中
逐行
读取
”部分是我需要帮助的部分。
浏览 24
提问于2013-08-29
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券