腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(930)
视频
沙龙
1
回答
如何
使用
dask
高效
地
(
代码
大小
,
scheduler+cluster
运行时
)
聚合
大量
的
小
csv
文件
(
大约
50k
文件
,
每个
120kb
)?
python
、
pandas
、
dataframe
、
dask
、
intake
我有一个数据集,其中包含
每个
文件
的
时间序列。我真的很高兴
dask
在我们
的
集群上处理
大约
1k个
文件
(在我
的
例子中是一个目录)。但我有
大约
50个目录。下面的最小
代码
应该只创建图形,但似乎已经在调度器上做了
大量
的
工作: df=intake.open_
csv
(TRAIN_PATH+"{folder_name}/{file_name}.
c
浏览 10
提问于2020-10-24
得票数 1
1
回答
在
CSV
数据解析上
Dask
性能缓慢?
python
、
multithreading
、
performance
、
pandas
、
dask
我已经在一大堆
文件
上进行了
大量
的
文本处理,包括大
的
CSV
和
大量
的
小
XML
文件
。有时我会做
聚合
计数,但很多时候我会做NLP类型
的
工作,以便更深入
地
查看这些
文件
中除了已标记或已结构化
的
内容之外还有哪些内容。我经常
使用
多处理库在多个CPU上执行这些计算,但我已经爱上了
Dask
背后
的
想法,它在网上和同
浏览 11
提问于2017-01-15
得票数 5
回答已采纳
1
回答
优化多个小
文件
的
流入
c#
、
windows
、
.net-4.0
我在LAN网络共享上有数十万个
小
文本
文件
,
每个
文件
大小
在0到8kb之间。我可以
使用
一些带有kernel32.dll和FindFileEx
的
互操作调用来递归
地
提取
每个
文件
的
完全限定
的
UNC路径列表,并将这些路径存储在内存中
的
一个集合类中,比如List<string>。
使用
这种方法,我能够相当快地填充List<string>
浏览 0
提问于2012-08-22
得票数 3
回答已采纳
1
回答
消息
聚合
上
的
骆驼条件
apache-camel
、
aggregation
我每隔x天从目录中轮询一次,并获取所有
文件
(file://...). )我将其路由到
聚合
中,将
文件
聚合
到一个单一
大小
(directorySize)中。然后,我检查这个
大小
是否超过了某个阈值。我试图将
聚合
条件移动到另一条我将调用
的
路由,但这会导致与第一个解决方案相同
的
问题。 重写
聚合
策略,不仅
聚合
大小
,而且将
浏览 3
提问于2013-12-16
得票数 1
回答已采纳
2
回答
用内存
高效
的
方式将大型
csv
读入稀疏
的
熊猫数据
python
、
pandas
、
numpy
、
scipy
、
dask
熊猫
的
read_
csv
函数似乎没有很少
的
选择。我有包含
大量
零
的
csv
数据(它可以很好地压缩,并且去掉任何0值都可以将其减少到原来
大小
的
近一半)。即使我将零从原始
文件
中删除并调用to_sparse() (因此填充值为NaN),也会发生这种情况。无论我是传递kind='block'还是kind='integer',都会发生这种情况。除了手工构建稀疏数据
文件
外,是否有一种好
的
浏览 4
提问于2015-08-08
得票数 32
1
回答
Dask
数据流分析
pandas
、
dask
、
dask-distributed
这是我
的
代码
:import
dask
.dataframe as dd client = Client("<scheduler
如何
通过read_table()将文本
文件
读入数据帧?客户端是否读取整个文本
文件
并将数据发送到调度程序,调度程序将数据分割并发送给工作人员?还是
每个
工作人员直接从文本
文件
读取其工作
的
数据分区?对于组而言,
浏览 1
提问于2018-10-12
得票数 0
3
回答
加快对大型数据集
的
Python
文件
处理
python
、
performance
、
csv
、
large-files
、
python-multithreading
我有一个大数据集,存储为一个17 as
的
csv
文件
(fileData),其中包含
每个
customer_id
的
可变记录数(最多可达30,000条)。我试图搜索特定
的
客户(在fileSelection中列出
的
90000个客户中
的
1500个左右),并将
每个
客户
的
记录复制到一个独立
的
csv
文件
(fileOutput)中。我对Python非常陌生,但
使用
它
浏览 8
提问于2016-07-09
得票数 3
回答已采纳
1
回答
如何
获得最小
的
ocamlopt编译
的
本地二进制
文件
?
compilation
、
size
、
ocaml
、
executable
、
minimum
我很惊讶
地
看到,即使是这样
的
一个简单
的
程序:当
使用
一些相当激进
的
选项(
使用
ocamlopt )静态
地
编译到本机
代码
时(
使用
musl),在我
的
系统上仍然会有~190 to左右。196K helloworld
如何
从ocamlopt获得最小二进制数?对于当今
的
约束条件下
的
简单程
浏览 2
提问于2019-09-20
得票数 4
回答已采纳
1
回答
评估用于GroupBy计算
的
簇
大小
pandas-groupby
、
out-of-memory
、
dask
免责声明:这里
的
结果和数字绝不是比较任何商业或非商业产品
的
基准。 目前,我
的
团队正在
使用
Azure上
的
Databricks进行数据工程任务,作为一个PoC,我们决定尝试
使用
Dask
框架。因此,我们创建了一个与我们在DBS上
使用
的
k8s集群
大小
相当
的
专用
Dask
集群,并在那里部署了
Dask
--工作内存总数为512 GiB,有84名工作人员(
每个
CP
浏览 10
提问于2021-12-16
得票数 1
1
回答
如何
从
csv
文件
中读取数据并存储在二叉树中,
如何
用perl编写多个
文件
?
perl
、
csv
、
binary-tree
我有
CSV
文件
,其中有10多万
的
数据。我想
使用
binary::tree来减少内存
的
使用
。my $file = "my_
c
浏览 0
提问于2013-08-02
得票数 0
回答已采纳
3
回答
在页面上启动一个大类会减慢它
的
速度吗?
php
、
class
、
lines-of-code
我正在编写一个类,这个类可能会有
大约
3000行
代码
。如果是这样的话,我应该考虑创建扩展来处理
每个
方法,而不是将整个类放在一个
文件
中吗?因此,考虑到我们网站
的
大小
和功能,3000行是相当
浏览 3
提问于2012-01-18
得票数 9
回答已采纳
2
回答
如何
使用
Python并行处理CPU-整数数据处理任务?
python
、
amazon-ec2
、
parallel-processing
、
batch-processing
、
distributed-computing
我正在创建一些
代码
,以便在pdfs
的
大型数据集上执行OCR,并将提取
的
文本写入
csv
。这是
使用
Imagemagick、Pillow、PyOCR (Tesseract)等库
的
组合完成
的
,并且已经在一个
小
的
数据样本上进行了测试。该数据包含
大量
文件
夹(~2500),
每个
文件
夹约有15个pdfs。为
每个
文件
夹中
的
pdf
浏览 3
提问于2017-06-15
得票数 1
1
回答
将大型数据集加载到python中
的
最快方法
python
、
pandas
、
astropy
、
mat-file
、
data-ingestion
我有一些相对较大
的
.mat
文件
,我正在将它们读入Python,以便最终在PyTorch中
使用
它们。这些
文件
的
行数范围在55k到111k之间,但
每个
文件
的
列数都略低于11k,没有标题,并且所有条目都是浮点型。数据
文件
大小
从5.8 GB到11.8 GB不等。.下面是
使用
我上面提到
的
每种方法加载
的
代码
,作为计时实验运行: import pandas a
浏览 8
提问于2021-09-17
得票数 0
2
回答
附加到
文件
大小
限制
的
标准输出
shell-script
、
curl
、
stdout
、
gnu-parallel
这是
大量
的
数据,而且由于我没有以任何方式转换数据,curl似乎是一种比Python更
高效
、更轻量级
的
完成任务
的
方法(就像Python使并行处理有点麻烦)。在下面的
代码
中,vins.
csv
是一个包含25M个VINs
的
大样本
的
文件
,它被分成100个VINs。这些正在传递给
使用
4个核
的
GNU并行。我
的
问题 我
的
命令中有什么东西会随着nhtsa_vin_
浏览 0
提问于2018-07-15
得票数 5
回答已采纳
1
回答
为什么我
的
NumPy数组占用
的
内存比它应该占用
的
多*少?
python
、
numpy
我重新构造了联机
文件
,使其与页面上提到
的
维度(138000乘27000)相匹配,因为原始
文件
包含更大
的
索引(138000×131000),但包含
大量
空列。简单
地
抛出这些空列并重新编制索引就可以得到所需
的
维度。无论
如何
,将稀疏
csv
文件
强制转换为密集格式
的
代码
片段如下所示:from scipy import sparse # note th
浏览 0
提问于2018-08-08
得票数 2
回答已采纳
3
回答
在.
csv
中读取和扩充(复制样本和更改某些值)大数据集
的
最有效方法是什么?
python
、
pandas
、
csv
、
large-data
、
data-augmentation
硬件/软件规范: RAM 8GB,Windows 11 64位,Python 3.8.8我有一个在.
csv
(~13 in )中
的
数据集,其中
每个
样本都有一个值和几个月
的
起始周期,我想创建一个数据集,其中
每个
样本都有相同
的
值,但引用
每个
特定
的
月份。我
的
实施: 在熊猫里阅读,在字典中增加,附加在
CSV
后面。
使用
一个函数,给定一个df,计算
每个
样本从开始日期到结束
浏览 12
提问于2022-09-18
得票数 5
回答已采纳
1
回答
MATLAB花费了
大量
的
时间来编写一个相对较小
的
矩阵。
matlab
、
matrix
我有一个
小
的
MATLAB脚本(包括下面),用于处理从
CSV
文件
中读取
的
带有两列和数十万行
的
数据。
每个
条目都是一个自然数,零只出现在第二列中。这段
代码
花费了相当长
的
时间(小时)才能运行最多几秒钟就能实现
的
任务。分析器确定,
大约
100%
的
运行时
间用于编写一个零矩阵,其
大小
取决于输入,但在所有
使用
中都小于1000x1000。data(
浏览 2
提问于2015-07-02
得票数 1
回答已采纳
5
回答
如何
测量目录中
文件
的
大小
?
linux
、
files
我有一个装满600 of
文件
的
文件
夹。我想要自动复制前300到一个
文件
夹,其余
的
到另一个
文件
夹。我不知道
如何
用ls来限制结果,或者随便哪一个,这样我就可以把它作为一个论点. 平台是linux..。编辑:我想移动300 to,而不是前300个
文件
。
文件
大小
是任意
的
,排序并不重要。
浏览 0
提问于2009-07-30
得票数 1
回答已采纳
2
回答
在大于RAM
的
大型数据
文件
上应用一个函数
pyspark
、
data-science
、
python-multiprocessing
、
dask
、
distributed-computing
据信,
Dask
框架能够处理比RAM更大
的
数据集。然而,我未能成功
地
将它应用于我
的
问题,听起来如下所示:dataframeRelease 标记文本(以运行tokenize(df_part)),并返回给定
的
一个新
的
预处理部分--内存,用于从
文件</e
浏览 5
提问于2020-05-20
得票数 1
回答已采纳
1
回答
多处理太慢了
python
、
pandas
、
parallel-processing
、
multiprocessing
、
python-multiprocessing
个
文件
的
程序时,所有的核心都得到了充分
的
使用
(平均
每个
核心
大约
90% )。但这一次,在运行
代码
时,cpu
的
使用
在开始时是不稳定
的
,过了一段时间,利用率就下降了(
每个
核心
的
平均
使用
率约为10% )。内存利用率也很低,平均为4gb最大(剩余
的
8gb免费)。我重新启动机器,并试图清除任何不必要
的
僵尸进程,但仍然,结果是一样
的<
浏览 0
提问于2019-01-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何只用一行代码让Pandas加速四倍?
如何只用一行代码让 Pandas 加速四倍?
你写的ML代码占多少内存?这件事很重要,但很多人还不懂
当小内存遇上大量数据,你该怎么解决这个问题?
处理数据,大数据甚至更大数据的 17 种策略
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券