腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
在对
每个
文件
使用
不同
的
skiprows
值
的
同时
,
将
dask
的
dataframe.read_csv
与
google
storage
globstring
结合
使用
?
、
、
、
我在
google
存储桶中有一些
文件
夹,其中包含CSVs,我正在尝试
将
这些CSVs读取到
dask
.dataframe中,以便对
文件
进行并行标准化。例如:其中一些数据帧可能缺少其他数据帧所具有的列,因此我希望
将
缺少
的
列插入到缺少它
的
每个
数据帧中。在通过
dask
.dataframe
使用
全局字符串之前,我可以遍历目录并分析
每个
文件
。即使这样,我也不确定
如何</em
浏览 7
提问于2021-06-08
得票数 0
1
回答
如何
在多个
文件
中
使用
Dask
read_csv读取第n行以快速读取多个
文件
?
、
、
、
、
我正在尝试
将
多个CSV
文件
读入一个数据
文件
中。而这是
使用
列表理解和熊猫
的
连接功能。我试过
使用
Dask
,它接受列表作为输入,并内置了并行化以提高速度。但是,为了进一步加快速度,我希望能够只在
文件
的
第N行中读取。
使用
Pandas,我可以
使用
lambda函数和
skiprows
参数read_csv来完成这个任务。= 0和循环中,
使用
,pd.read_csv(filena
浏览 2
提问于2021-01-27
得票数 1
回答已采纳
1
回答
插入SQLite3数据库
、
我有一个tsv
文件
,其中包含两种标识符
的
映射。我想我可以用accession字段上
的
主键将其放入数据库中。 这就是我所做
的
,它可以工作,但我有大约15亿行,这需要很长时间。(我将
使用
accession主键对数据进行非常基本
的
选择)
浏览 0
提问于2019-04-23
得票数 4
回答已采纳
2
回答
如何
在12k
文件
/50 up上加速这些数据
文件
操作?
、
、
、
、
我有一个具有几个函数
的
类,这些函数利用pandas来分析和规范这些csv
文件
,这些
文件
要么存储在本地,要么存储在
google
桶中。
将
收集到
的
所有标头转换成标准格式,从
文件
名中删除除字母数字和下划线以外
的
所有内容。normalize_files中
的
循环遍历所有
文件
,
将
每个
time.convert列标题完全加载到analyze_files.upload中标头
的
标准化
浏览 1
提问于2021-06-06
得票数 1
1
回答
如何
模拟GCS进行离线测试
、
、
、
我有一个Python
Google
App Engine应用程序,可以从
Google
Cloud
Storage
读取
文件
,我可以
使用
本地开发服务器(dev_appserver.py)离线测试它,这很棒。我还有一个.NET工具,它
使用
基于示例
的
Google
.Apis.
Storage
.v1.StorageService
将
文件
转储到云存储桶中,供App Engine应用程序检索。这对于写入“实时”云存储很
浏览 2
提问于2016-06-16
得票数 0
1
回答
集群上数据
的
Dask
和持久性
、
、
我正在进行一个项目,它
使用
历史数据和输入
的
数据进行分析。我想学习
如何
管理在
dask
上更新传入
的
数据,
同时
不必每次都发送所有的历史数据。我收集数据用于时间序列进行分析,但是时间序列随着传入数据
的
增长而增长,
每个
流
的
传入数据都需要发送给适当
的
工作人员,以便进行ARMA分析。如果我对天气进行ARMA分析,我希望
将
气压
与
温度分开,并通过比较压力
与
温度和温度
与</e
浏览 4
提问于2022-11-08
得票数 1
回答已采纳
1
回答
从
Dask
或Pandas dataframe创建geodataframe
的
更快方法
、
、
、
、
问题import
dask
from
da
浏览 24
提问于2022-03-30
得票数 2
回答已采纳
1
回答
如何
使用
Dask
在纱线上运行并行python作业?
、
、
、
、
我有几个关于
使用
Dask
与
Hadoop/Yarn有关
的
问题。 import
das
浏览 5
提问于2017-10-25
得票数 2
回答已采纳
1
回答
使用
Scala根据RDD中
的
多个键列对
值
进行分组
的
最快方法是什么?
、
、
我
的
数据是一个包含200多万行员工记录
的
文件
。每一行都有15个员工特征字段,包括姓名、道布、ssn等。我需要将数据按多个列分组,并
使用
相同
的
键聚合员工
的
ID (第一列)。键列
的
数目和名称作为参数传递给函数。为了解决这个问题,我所做
的
就是:
将
数据读取为RDD,并尝试
使用
groupBy、reduceByKey和foldByKey来实现基于对StackOverflow
的
研究
的
函数。然而,
浏览 3
提问于2017-10-02
得票数 0
1
回答
数据流-
将
avro对象存储到未知
的
GCS
文件
夹
、
、
、
、
我有一个DataFlow管道,它
使用
来自云发布/订阅
的
JSON消息,将它们转换为Avro,并将它们存储到
Google
Cloud
Storage
。有没有办法让DataFlow根据某个JSON字段
将
每个
Avro对象存储到GCS中
的
不同
文件
夹中,如果它
的
值
实际上可以是任何
值
的话?此
文件
夹结构
的
目标是通过云函数
使用
PubSu
浏览 17
提问于2020-02-20
得票数 0
2
回答
将
NFS
与
Dask
工作进程一起
使用
、
我一直在与我
的
用户和
Dask
工作人员一起尝试
使用
NFS共享驱动器。这是可以工作
的
东西吗?我注意到
Dask
在我
的
主目录中创建了两个
文件
,global.lock和purge.lock,并且在工作完成时没有清理它们。这些
文件
是做什么
的
?
浏览 4
提问于2019-07-28
得票数 1
2
回答
如何
将
每个
Parquet行组读入一个单独
的
分区?
、
、
、
我有一个10行组
的
拼花
文件
:10In [31]: print(
dask
.dataframe.read_parquet("/tmp/test2.parquet").npartitions)这似乎
与</em
浏览 2
提问于2020-01-30
得票数 4
1
回答
Dask
.delayed在类中没有.compute()
、
、
、
我有一个
文件
夹,里面有497个熊猫
的
数据
文件
,存储在.parquet
文件
中。
文件
夹总维度为7.6GB。 我在尝试开发一个简单
的
交易系统。所以我创建了两个
不同
的
类,其中一个是Portfolio类,然后这个类为数据
文件
夹中
的
每个
数据
文件
创建一个Asset对象。我没想到一个7.6GB
的
文件
夹能填满16 to内存,这就是我想
使用
浏览 4
提问于2017-11-22
得票数 3
1
回答
调用DataFrame MemoryError时
使用
to_csv
、
我目前正在用以下方式
使用
达斯克..。= ddf.merge(df1, df2, how='inner', left_index=True, right_index=True).Writes
将
两个数据
文件
放在一起,结果输出到S3 via:我认为
Dask
将
根据docs()中
的
以下行,以一种内存感知
的
方式管理更大
的
连接: 如果找不到足够
的
内存,那么
Dask
将不得不将数据读写到磁盘,这可能会导致其他性能成
浏览 3
提问于2020-06-06
得票数 1
3
回答
如何
将
dask
.dataframe
与
自定义dsk图一起
使用
、
我
将
尝试重新表述我
的
问题:id,names,amount387,Tim,208129,Patricia,284import
dask
.dataframe as dd import
浏览 5
提问于2015-10-21
得票数 2
回答已采纳
1
回答
Google
存储桶和
Google
colab
、
使用
google
drive和
google
存储桶
的
主要区别是什么?我
的
团队打开了
google
bucket上
的
存储桶auth.authenticate_user() project_id = 'nifty-depthgsutil -m cp -r /content/drive/My\ Drive/Data/* gs:/
浏览 0
提问于2020-03-21
得票数 0
2
回答
FlutterFirebase是否可以添加有关照片和照片
的
文本数据?
、
、
、
我正在做一个新
的
项目,如添加照片和描述或其他文本输入。我读了一篇文章,它是这样做
的
,但这是一篇旧文章。我
的
应用程序像这样;用户
将
添加一张照片,标题和描述。就像一个简单
的
Instagram。或者我应该
使用
云硬盘? 如果我必须
使用
云存储,
如何
添加照片描述或其他文本输入。 我在谷歌上找不到任何这样
的
例子。
浏览 24
提问于2021-01-23
得票数 1
1
回答
带有HTCondor调度器
的
Dask
、
、
、
背景问题为了让我
的
代码在新
的<
浏览 0
提问于2018-11-26
得票数 0
回答已采纳
2
回答
有没有办法
将
数据从
google
云存储中
的
csv
文件
加载到datalab中
的
单独变量中?
、
、
、
我过去常常
使用
Jupyter Notebook访问本地目录中CSV
文件
中
的
数据,但现在我想通过datalab访问存储在
google
云存储中
的
CSV
文件
。csv_reader: variable = values_in_column1 * 0.6 / 5
如何
更改此函数以使其
与
存储在
google
cloiud存储和d
浏览 40
提问于2019-12-03
得票数 2
2
回答
使用
NodeJS从
Google
Cloud
Storage
Bucket下载
文件
夹
、
、
我需要从我
的
谷歌云存储桶中下载带有NodeJS
的
文件
夹。我阅读了所有的文档,我只找到了下载
文件
的
方法,而不是
文件
夹。我需要获取/下载该
文件
夹,以提供用户
的
下载
文件
。 有人能帮帮我吗?
浏览 36
提问于2019-03-02
得票数 5
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券