腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(930)
视频
沙龙
1
回答
如何
使用
dask
高效
地
(
代码
大小
,
scheduler+cluster
运行时
)
聚合
大量
的
小
csv
文件
(
大约
50k
文件
,
每个
120kb
)?
python
、
pandas
、
dataframe
、
dask
、
intake
我有一个数据集,其中包含
每个
文件
的
时间序列。我真的很高兴
dask
在我们
的
集群上处理
大约
1k个
文件
(在我
的
例子中是一个目录)。但我有
大约
50个目录。下面的最小
代码
应该只创建图形,但似乎已经在调度器上做了
大量
的
工作: df=intake.open_
csv
(TRAIN_PATH+"{folder_name}/{file_name}.
c
浏览 10
提问于2020-10-24
得票数 1
1
回答
在
CSV
数据解析上
Dask
性能缓慢?
python
、
multithreading
、
performance
、
pandas
、
dask
我已经在一大堆
文件
上进行了
大量
的
文本处理,包括大
的
CSV
和
大量
的
小
XML
文件
。有时我会做
聚合
计数,但很多时候我会做NLP类型
的
工作,以便更深入
地
查看这些
文件
中除了已标记或已结构化
的
内容之外还有哪些内容。我经常
使用
多处理库在多个CPU上执行这些计算,但我已经爱上了
Dask
背后
的
想法,它在网上和同
浏览 11
提问于2017-01-15
得票数 5
回答已采纳
1
回答
优化多个小
文件
的
流入
c#
、
windows
、
.net-4.0
我在LAN网络共享上有数十万个
小
文本
文件
,
每个
文件
大小
在0到8kb之间。我可以
使用
一些带有kernel32.dll和FindFileEx
的
互操作调用来递归
地
提取
每个
文件
的
完全限定
的
UNC路径列表,并将这些路径存储在内存中
的
一个集合类中,比如List<string>。
使用
这种方法,我能够相当快地填充List<string>
浏览 0
提问于2012-08-22
得票数 3
回答已采纳
1
回答
消息
聚合
上
的
骆驼条件
apache-camel
、
aggregation
我每隔x天从目录中轮询一次,并获取所有
文件
(file://...). )我将其路由到
聚合
中,将
文件
聚合
到一个单一
大小
(directorySize)中。然后,我检查这个
大小
是否超过了某个阈值。我试图将
聚合
条件移动到另一条我将调用
的
路由,但这会导致与第一个解决方案相同
的
问题。 重写
聚合
策略,不仅
聚合
大小
,而且将
浏览 3
提问于2013-12-16
得票数 1
回答已采纳
2
回答
用内存
高效
的
方式将大型
csv
读入稀疏
的
熊猫数据
python
、
pandas
、
numpy
、
scipy
、
dask
熊猫
的
read_
csv
函数似乎没有很少
的
选择。我有包含
大量
零
的
csv
数据(它可以很好地压缩,并且去掉任何0值都可以将其减少到原来
大小
的
近一半)。即使我将零从原始
文件
中删除并调用to_sparse() (因此填充值为NaN),也会发生这种情况。无论我是传递kind='block'还是kind='integer',都会发生这种情况。除了手工构建稀疏数据
文件
外,是否有一种好
的
浏览 4
提问于2015-08-08
得票数 32
1
回答
Dask
数据流分析
pandas
、
dask
、
dask-distributed
这是我
的
代码
:import
dask
.dataframe as dd client = Client("<scheduler
如何
通过read_table()将文本
文件
读入数据帧?客户端是否读取整个文本
文件
并将数据发送到调度程序,调度程序将数据分割并发送给工作人员?还是
每个
工作人员直接从文本
文件
读取其工作
的
数据分区?对于组而言,
浏览 1
提问于2018-10-12
得票数 0
3
回答
加快对大型数据集
的
Python
文件
处理
python
、
performance
、
csv
、
large-files
、
python-multithreading
我有一个大数据集,存储为一个17 as
的
csv
文件
(fileData),其中包含
每个
customer_id
的
可变记录数(最多可达30,000条)。我试图搜索特定
的
客户(在fileSelection中列出
的
90000个客户中
的
1500个左右),并将
每个
客户
的
记录复制到一个独立
的
csv
文件
(fileOutput)中。我对Python非常陌生,但
使用
它
浏览 8
提问于2016-07-09
得票数 3
回答已采纳
1
回答
如何
获得最小
的
ocamlopt编译
的
本地二进制
文件
?
compilation
、
size
、
ocaml
、
executable
、
minimum
我很惊讶
地
看到,即使是这样
的
一个简单
的
程序:当
使用
一些相当激进
的
选项(
使用
ocamlopt )静态
地
编译到本机
代码
时(
使用
musl),在我
的
系统上仍然会有~190 to左右。196K helloworld
如何
从ocamlopt获得最小二进制数?对于当今
的
约束条件下
的
简单程
浏览 2
提问于2019-09-20
得票数 4
回答已采纳
1
回答
评估用于GroupBy计算
的
簇
大小
pandas-groupby
、
out-of-memory
、
dask
免责声明:这里
的
结果和数字绝不是比较任何商业或非商业产品
的
基准。 目前,我
的
团队正在
使用
Azure上
的
Databricks进行数据工程任务,作为一个PoC,我们决定尝试
使用
Dask
框架。因此,我们创建了一个与我们在DBS上
使用
的
k8s集群
大小
相当
的
专用
Dask
集群,并在那里部署了
Dask
--工作内存总数为512 GiB,有84名工作人员(
每个
CP
浏览 10
提问于2021-12-16
得票数 1
1
回答
如何
从
csv
文件
中读取数据并存储在二叉树中,
如何
用perl编写多个
文件
?
perl
、
csv
、
binary-tree
我有
CSV
文件
,其中有10多万
的
数据。我想
使用
binary::tree来减少内存
的
使用
。my $file = "my_
c
浏览 0
提问于2013-08-02
得票数 0
回答已采纳
3
回答
在页面上启动一个大类会减慢它
的
速度吗?
php
、
class
、
lines-of-code
我正在编写一个类,这个类可能会有
大约
3000行
代码
。如果是这样的话,我应该考虑创建扩展来处理
每个
方法,而不是将整个类放在一个
文件
中吗?因此,考虑到我们网站
的
大小
和功能,3000行是相当
浏览 3
提问于2012-01-18
得票数 9
回答已采纳
2
回答
如何
使用
Python并行处理CPU-整数数据处理任务?
python
、
amazon-ec2
、
parallel-processing
、
batch-processing
、
distributed-computing
我正在创建一些
代码
,以便在pdfs
的
大型数据集上执行OCR,并将提取
的
文本写入
csv
。这是
使用
Imagemagick、Pillow、PyOCR (Tesseract)等库
的
组合完成
的
,并且已经在一个
小
的
数据样本上进行了测试。该数据包含
大量
文件
夹(~2500),
每个
文件
夹约有15个pdfs。为
每个
文件
夹中
的
pdf
浏览 3
提问于2017-06-15
得票数 1
1
回答
将大型数据集加载到python中
的
最快方法
python
、
pandas
、
astropy
、
mat-file
、
data-ingestion
我有一些相对较大
的
.mat
文件
,我正在将它们读入Python,以便最终在PyTorch中
使用
它们。这些
文件
的
行数范围在55k到111k之间,但
每个
文件
的
列数都略低于11k,没有标题,并且所有条目都是浮点型。数据
文件
大小
从5.8 GB到11.8 GB不等。.下面是
使用
我上面提到
的
每种方法加载
的
代码
,作为计时实验运行: import pandas a
浏览 8
提问于2021-09-17
得票数 0
2
回答
附加到
文件
大小
限制
的
标准输出
shell-script
、
curl
、
stdout
、
gnu-parallel
这是
大量
的
数据,而且由于我没有以任何方式转换数据,curl似乎是一种比Python更
高效
、更轻量级
的
完成任务
的
方法(就像Python使并行处理有点麻烦)。在下面的
代码
中,vins.
csv
是一个包含25M个VINs
的
大样本
的
文件
,它被分成100个VINs。这些正在传递给
使用
4个核
的
GNU并行。我
的
问题 我
的
命令中有什么东西会随着nhtsa_vin_
浏览 0
提问于2018-07-15
得票数 5
回答已采纳
1
回答
为什么我
的
NumPy数组占用
的
内存比它应该占用
的
多*少?
python
、
numpy
我重新构造了联机
文件
,使其与页面上提到
的
维度(138000乘27000)相匹配,因为原始
文件
包含更大
的
索引(138000×131000),但包含
大量
空列。简单
地
抛出这些空列并重新编制索引就可以得到所需
的
维度。无论
如何
,将稀疏
csv
文件
强制转换为密集格式
的
代码
片段如下所示:from scipy import sparse # note th
浏览 0
提问于2018-08-08
得票数 2
回答已采纳
3
回答
在.
csv
中读取和扩充(复制样本和更改某些值)大数据集
的
最有效方法是什么?
python
、
pandas
、
csv
、
large-data
、
data-augmentation
硬件/软件规范: RAM 8GB,Windows 11 64位,Python 3.8.8我有一个在.
csv
(~13 in )中
的
数据集,其中
每个
样本都有一个值和几个月
的
起始周期,我想创建一个数据集,其中
每个
样本都有相同
的
值,但引用
每个
特定
的
月份。我
的
实施: 在熊猫里阅读,在字典中增加,附加在
CSV
后面。
使用
一个函数,给定一个df,计算
每个
样本从开始日期到结束
浏览 12
提问于2022-09-18
得票数 5
回答已采纳
1
回答
MATLAB花费了
大量
的
时间来编写一个相对较小
的
矩阵。
matlab
、
matrix
我有一个
小
的
MATLAB脚本(包括下面),用于处理从
CSV
文件
中读取
的
带有两列和数十万行
的
数据。
每个
条目都是一个自然数,零只出现在第二列中。这段
代码
花费了相当长
的
时间(小时)才能运行最多几秒钟就能实现
的
任务。分析器确定,
大约
100%
的
运行时
间用于编写一个零矩阵,其
大小
取决于输入,但在所有
使用
中都小于1000x1000。data(
浏览 2
提问于2015-07-02
得票数 1
回答已采纳
5
回答
如何
测量目录中
文件
的
大小
?
linux
、
files
我有一个装满600 of
文件
的
文件
夹。我想要自动复制前300到一个
文件
夹,其余
的
到另一个
文件
夹。我不知道
如何
用ls来限制结果,或者随便哪一个,这样我就可以把它作为一个论点. 平台是linux..。编辑:我想移动300 to,而不是前300个
文件
。
文件
大小
是任意
的
,排序并不重要。
浏览 0
提问于2009-07-30
得票数 1
回答已采纳
2
回答
在大于RAM
的
大型数据
文件
上应用一个函数
pyspark
、
data-science
、
python-multiprocessing
、
dask
、
distributed-computing
据信,
Dask
框架能够处理比RAM更大
的
数据集。然而,我未能成功
地
将它应用于我
的
问题,听起来如下所示:dataframeRelease 标记文本(以运行tokenize(df_part)),并返回给定
的
一个新
的
预处理部分--内存,用于从
文件</e
浏览 5
提问于2020-05-20
得票数 1
回答已采纳
1
回答
多处理太慢了
python
、
pandas
、
parallel-processing
、
multiprocessing
、
python-multiprocessing
个
文件
的
程序时,所有的核心都得到了充分
的
使用
(平均
每个
核心
大约
90% )。但这一次,在运行
代码
时,cpu
的
使用
在开始时是不稳定
的
,过了一段时间,利用率就下降了(
每个
核心
的
平均
使用
率约为10% )。内存利用率也很低,平均为4gb最大(剩余
的
8gb免费)。我重新启动机器,并试图清除任何不必要
的
僵尸进程,但仍然,结果是一样
的<
浏览 0
提问于2019-01-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何只用一行代码让Pandas加速四倍?
如何只用一行代码让 Pandas 加速四倍?
你写的ML代码占多少内存?这件事很重要,但很多人还不懂
当小内存遇上大量数据,你该怎么解决这个问题?
处理数据,大数据甚至更大数据的 17 种策略
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券