首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我们能否通过python将数据附加到存储在Azure blob存储中的现有csv文件中?

我们能否通过python将数据附加到存储在Azure blob存储中的现有csv文件中?
EN

Stack Overflow用户
提问于 2021-03-11 04:51:09
回答 1查看 1.2K关注 0票数 2

我有一个机器学习模型部署在蔚蓝设计师工作室。我需要通过python代码每天用新的数据重新训练它。我需要将现有的csv数据保存在blob存储中,并将更多的数据添加到现有的csv中,并对其进行再培训。如果我只使用新的数据对模型进行重新培训,那么旧的数据就会丢失,所以我需要通过在现有数据中添加新的数据来重新训练模型。有没有任何方法可以通过python编码来完成呢?

我也研究过附加的blob,但是它们只在blob的末尾添加。在文档中,他们提到我们不能更新或添加现有的blob。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-03-11 05:33:26

我不知道为什么它必须是一个csv文件。有许多基于Python的库用于处理分布在多个csvs上的数据集。

在所有示例中,您传递一个模式,它将匹配多个文件。此模式非常自然地适用于Azure ML数据集,您可以使用该数据集作为输入。请参阅上面docs链接中的摘录。

代码语言:javascript
运行
复制
from azureml.core import Workspace, Datastore, Dataset

datastore_name = 'your datastore name'

# get existing workspace
workspace = Workspace.from_config()
    
# retrieve an existing datastore in the workspace by name
datastore = Datastore.get(workspace, datastore_name)

# create a TabularDataset from 3 file paths in datastore
datastore_paths = [(datastore, 'weather/2018/11.csv'),
                   (datastore, 'weather/2018/12.csv'),
                   (datastore, 'weather/2019/*.csv')] # here's the glob pattern

weather_ds = Dataset.Tabular.from_delimited_files(path=datastore_paths)

假设所有csvs都可以放入内存中,则可以轻松地将这些数据集转换为pandas数据格式。你叫使用Azure ML数据集,

代码语言:javascript
运行
复制
# get the input dataset by name
dataset = Dataset.get_by_name(ws, name=dataset_name)
# load the TabularDataset to pandas DataFrame
df = dataset.to_pandas_dataframe()

使用Dataframe,这个GitHub问题说你可以打电话给

代码语言:javascript
运行
复制
df = my_dask_df.compute()

至于输出数据集,您可以通过将输出CSV中的数据读入数据集,将数据附加到输出数据集中,然后将其覆盖到相同的位置,从而控制这一点。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66576663

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档