首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >将数据从S3加载到dask数据帧

将数据从S3加载到dask数据帧
EN

Stack Overflow用户
提问于 2019-01-14 16:06:40
回答 3查看 4.8K关注 0票数 4

只有在公开文件后将"anon“参数更改为True时,才能加载数据。

代码语言:javascript
运行
复制
df = dd.read_csv('s3://mybucket/some-big.csv',  storage_options = {'anon':False})

由于显而易见的原因,不建议这样做。如何安全地从S3加载数据?

EN

Stack Overflow用户

发布于 2020-01-06 16:49:29

幕后的Dask使用boto3,所以你可以用boto3支持的所有方式来设置你的密钥,例如,基于角色的导出AWS_PROFILE=xxxx,或者通过你的环境变量显式地导出访问密钥和密钥。我建议不要硬编码你的密钥,至少你会因为一个错误而将你的代码暴露给公众。

代码语言:javascript
运行
复制
$ export AWS_PROFILE=your_aws_cli_profile_name

https://docs.aws.amazon.com/sdk-for-java/v1/developer-guide/setup-credentials.html

对于s3,您可以使用通配符匹配来获取多个分块文件

代码语言:javascript
运行
复制
import dask.dataframe as dd

# Given N number of csv files located inside s3 read and compute total record len

s3_url = 's3://<bucket_name>/dask-tutorial/data/accounts.*.csv'

df = dd.read_csv(s3_url)

print(df.head())

print(len(df))
票数 0
EN
查看全部 3 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54177687

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档