腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
有没有
办法
在
读取
多个
文件
时
并行
化
spark.read.load
(
string
*)?
、
、
、
我注意到
在
spark-shell (spark 2.4.4)中,当我做一个简单的spark.read.format(xyz).load("a","b","c",...)
时
,spark看起来像是使用了一个单独的ipc客户端(或“线程”)来加载
文件
a、b、c……顺序(它们是到hdfs的路径)。我问的原因是,对于我的情况,我正在尝试加载50K
文件
,而顺序加载需要很长时间。另外,我正在尝试
在
源代码中查看它,但不确定是否就是这个:
浏览 21
提问于2020-05-19
得票数 3
2
回答
在
并行
C#中
读取
一个非常大的
文件
、
、
我有20
多个
文件
,每个
文件
包含近100万行(5GB),我需要加快阅读过程,所以我尝试
并行
读取
这些
文件
,但比顺序
读取
要花费更长的时间。
有没有
办法
并行
读取
一个很大的
文件
?
string
.IsNullOrEmpty(filePath) && File.Exists(filePath)) StreamReader str =
浏览 0
提问于2018-03-28
得票数 3
回答已采纳
1
回答
多个
文件
读取
器
并行
同时
读取
同一
文件
、
、
我有一个非常大的文本数据
文件
。是否可以由
多个
文件
读取
器同时
并行
地从不同位置
读取
此
文件
?例如,一个阅读器从开始读到中间,另一个开始从
文件
的中间读到结尾。我有一种通过流
读取
文件
并使用parallel的替代方法。但它并没有达到这个目标。Files.lines(filePath).parallel
多个
文件
读取
器可能无法
读取
同一
文件
,因
浏览 2
提问于2018-08-08
得票数 1
1
回答
加快从视频
文件
中
读取
帧的速度
、
、
有没有
办法
用OpenCV
并行
读取
视频
文件
中的帧,或者以其他方式加快
读取
速度? 我尝试
在
多个
线程中使用cap.read(frame)函数,但应用程序崩溃。我还尝试使用VideoCapture对象数组cap,所有对象都引用相同的视频
文件
,然后
在
每个线程中我可以使用caps[i].read(frame),因此我可以
并行
读取
,但我只是多次
读取
相同的帧。
浏览 22
提问于2021-06-02
得票数 0
回答已采纳
1
回答
将
文件
列表传递给sftp get
、
、
、
我正在寻找一个'sftp‘替代以下命令: cat list_of_files_to_copy.txt | xargs -I % cp -r % -t /target/folder/ :
读取
一个包含要复制的
文件
夹路径的文本
文件
我想这样做,这样我就可以
并行
化
复制过程,使用所有
文件
夹的分区,我可以将每个
文件
夹作为不同的文本
文件
分配给不同终端上的
多个
复制命令(如果这不能像我期望的那样工作,请评论)。由于
浏览 33
提问于2019-09-20
得票数 0
1
回答
在
Python中分别
读取
多个
CSV并将其
并行
保存到数据帧字典中
、
、
、
、
我有一个Python函数(如下所示),它从S3
读取
多个
csv
文件
,并将它们分别保存为一个字典中的Pandas DataFrames。
有没有
办法
将这个过程
并行
化
,以便可以同时
读取
tables中的
多个
项目,而不是逐个
读取
?
浏览 3
提问于2019-12-04
得票数 1
2
回答
readLines可以
在
R中
并行
执行吗
、
是否有可能在单个多核机器上
并行
迭代单个文本
文件
?对于上下文,文本
文件
的JSON输出在250-400MB之间。以下是我一直
在
使用的一些代码示例。令我惊讶的是,
并行
处理并没有获胜--只是基本的lapply --但这可能是由于我的用户错误。此外,当尝试
读取
大量大
文件
时
,我的机器卡住了。
浏览 0
提问于2012-11-27
得票数 6
回答已采纳
1
回答
用GCP数据流和从GCS中异常缓慢地
读取
、
、
我注意到,当处理一个大小为50 my的压缩
文件
时
,我的管道执行时间几乎超过了3个小时。不完全确定是否有任何方法可以加快这部分的速度。下面是我看到的日志警告的截图,
在
作业最终成功完成之前。
浏览 3
提问于2020-05-11
得票数 0
1
回答
使用xcopy进行
并行
复制
、
、
、
我需要将
多个
目录从一个位置复制到另一个位置。因此,将会有
多个
xcopy语句,一个接一个。还
有没有
别的选择?
浏览 2
提问于2012-02-10
得票数 7
回答已采纳
1
回答
写入同一uWSGI
文件
的JSON工作线程
、
、
、
、
当我发出API Post
时
,post
在
我的代码的不同部分写入和
读取
一个json
文件
。如何克服这种情况?这不是我的API中的多进程。因此,
在
我的json更新代码中使用python的多处理锁不会解决我的问题。 我希
浏览 2
提问于2017-12-13
得票数 2
1
回答
SSIS -局部变量
我的SSIS包的主要目标是
读取
sql代码,然后execute.The脚本任务将
读取
SQL
文件
中的代码,然后将代码传递到全局变量中。SQL任务执行存储
在
变量中的代码。因此,我不能
并行
执行
多个
步骤。
有没有
办法
避免创建
多个
变量来存储SQL代码?局部变量可以工作吗?如果可以,又是如何工作的?
浏览 0
提问于2015-10-21
得票数 0
1
回答
使用tensorflow或skflow对输入数据进行排队
、
、
、
我正在用DataFeeder训练神经网络,它有点慢(因为它从h5
文件
中
读取
不连续的数据);所以GPU有一半的时间是空闲的(GPU-Util为0 %)。
在
TensorFlow或skflow中,
有没有
办法
让
多个
DataFeeder
并行
运行,以避免这个瓶颈?
浏览 2
提问于2016-04-13
得票数 1
1
回答
用于单
文件
的Apache camel多动态路由
我有一个动态路由来
读取
和处理一个
文件
,并且可能有
多个
文件
。每个路由一次处理一个
文件
。当对不同
文件
的请求同时到来时,没有问题,因为它根据
文件
名创建唯一的URI。我还需要支持对同一
文件
的
并行
请求。我得到了以下
并行
请求的异常。
有没有
办法
可以在运行时创建路由的链接?
浏览 0
提问于2018-10-04
得票数 0
1
回答
合并
多个
Rocksdb数据库
、
、
、
有一个用例,我必须
读取
巨大的Parquet
文件
并转换成Rocksdb二进制
文件
,所以我决定使用spark (因为我团队中的每个人都很熟悉它)。
在
Rocksdb方面,我知道它不是分布式的,你不能
并行
化
。 现在我想把它们组合在一起。所以我的问题是,
有没有
可能将Rocksdb的
多个
实例组合在一起,使用一些后处理来创建一个大的Rocksd
浏览 31
提问于2019-08-02
得票数 3
1
回答
Apache Spark:多机器学习ALgorithm的
并行
化
、
、
有没有
办法
在
Spark中
并行
化
多个
ML算法?我的用例是这样的: A)运行多机器学习算法(Naive Bayes,ANN,Random Forest等)
并行
的。我的问题是:我们可以
并行
运行步骤A中的
多个
机器学习算法吗?我们可以
并行
进行交叉验证吗?比如,
并行
运行10个迭代的朴素贝叶斯训练? 我找不到任何方法来
并行
运行不同的算法。而且似乎交叉验证也不能
并行
进行。我很感谢
浏览 2
提问于2017-09-04
得票数 0
1
回答
线程应该在单独的内存上工作吗?
、
、
目前,数据一次以1GB的块
读取
,并保存在数组中,以避免I/O瓶颈。我应该分离n块/数组中的数据(其中n是线程数)还是由
多个
线程访问的单个数组不成问题?目前,数据一次以1GB的块
读取
,并保存在数组中,以避免I/O瓶颈。我应该分离n块/数组中的数据(其中n是线程数)还是由
多个
线程访问的单个数组不成问题?当然,时间戳按时间顺序保存在
文件
中。该任务是在用户设置的特定时间窗口内,
在
通道之间查找符合事件。所以你继续阅读时间戳,当你
在
感兴趣的渠
浏览 0
提问于2018-07-06
得票数 0
回答已采纳
3
回答
如何直接高效地访问超大文本
文件
?
、
、
、
我有一个非常大的文本
文件
(+10 to ),我想
读取
一些数据挖掘技术。为此,我将
并行
技术与MPI结合使用,以便
多个
进程可以一起访问同一
文件
。 实际上,我希望每个进程
读取
N行。由于
文件
不是结构
化
的(字段数量相同,但每个字段可以包含不同数量的字符),所以我有责任解析
文件
,这不是
并行
的,而且需要花费大量时间。
有没有
什么方法可以直接访问特定数量的行,而不需要解析和计数行?
浏览 0
提问于2012-04-30
得票数 20
回答已采纳
3
回答
OpenMP线程中的fread慢性能
、
、
、
试图
并行
化
我的c++程序。这里的模板代码:vector< vector< float > > data; data.resize( files.size() );当我插入而不是fread
时
(&datai,sizeof of (浮),someSize,f) data[i][j] = rand我不相信磁盘
读取
会这么慢..。
浏览 6
提问于2011-11-14
得票数 2
2
回答
多少个
文件
读取
器可以同时从同一
文件
中
读取
数据?
、
我有一个巨大的25 CSV
文件
。我知道
文件
中有大约5亿条记录。我不想使用Hadoop/Pig,至少现在还不想。class MainClass { long start = 1; return stuff;} 我认为这样做我
浏览 3
提问于2014-05-31
得票数 1
2
回答
Windows Azure:代码
并行
化
、
我希望通过
多个
处理器
并行
执行这些操作。这可以
在
使用MPI (消息传递接口)的高性能计算集群上完成。 像wise一样,我可以使用
多个
工作者角色
在
云中进行一些
并行
化
吗?
有没有
办法
做到这一点。
浏览 2
提问于2010-06-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 核心编程RDD的使用(1)
Spark之SparkSQL
日均TB级数据,携程支付统一日志框架
TensorFlow 篇 | TensorFlow 数据输入的最佳实践
万字长文,Spark 架构原理和RDD算子详解一网打进!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券