文章/答案/技术大牛

发布

社区首页 >问答首页 >我们能否通过python将数据附加到存储在Azure blob存储中的现有csv文件中？

问我们能否通过python将数据附加到存储在Azure blob存储中的现有csv文件中？
EN

Stack Overflow用户

提问于 2021-03-11 04:51:09

回答 1查看 1.2K关注 0票数 2

我有一个机器学习模型部署在蔚蓝设计师工作室。我需要通过python代码每天用新的数据重新训练它。我需要将现有的csv数据保存在blob存储中，并将更多的数据添加到现有的csv中，并对其进行再培训。如果我只使用新的数据对模型进行重新培训，那么旧的数据就会丢失，所以我需要通过在现有数据中添加新的数据来重新训练模型。有没有任何方法可以通过python编码来完成呢？

我也研究过附加的blob，但是它们只在blob的末尾添加。在文档中，他们提到我们不能更新或添加现有的blob。

azure-blob-storage

azure-machine-learning-studio

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-03-11 05:33:26

我不知道为什么它必须是一个csv文件。有许多基于Python的库用于处理分布在多个csvs上的数据集。

在所有示例中，您传递一个模式，它将匹配多个文件。此模式非常自然地适用于Azure ML数据集，您可以使用该数据集作为输入。请参阅上面docs链接中的摘录。

from azureml.core import Workspace, Datastore, Dataset

datastore_name = 'your datastore name'

# get existing workspace
workspace = Workspace.from_config()
    
# retrieve an existing datastore in the workspace by name
datastore = Datastore.get(workspace, datastore_name)

# create a TabularDataset from 3 file paths in datastore
datastore_paths = [(datastore, 'weather/2018/11.csv'),
                   (datastore, 'weather/2018/12.csv'),
                   (datastore, 'weather/2019/*.csv')] # here's the glob pattern

weather_ds = Dataset.Tabular.from_delimited_files(path=datastore_paths)

假设所有csvs都可以放入内存中，则可以轻松地将这些数据集转换为pandas数据格式。你叫使用Azure ML数据集，

# get the input dataset by name
dataset = Dataset.get_by_name(ws, name=dataset_name)
# load the TabularDataset to pandas DataFrame
df = dataset.to_pandas_dataframe()

使用Dataframe，这个GitHub问题说你可以打电话给

df = my_dask_df.compute()

至于输出数据集，您可以通过将输出CSV中的数据读入数据集，将数据附加到输出数据集中，然后将其覆盖到相同的位置，从而控制这一点。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66576663

复制

相似问题

问我们能否通过python将数据附加到存储在Azure blob存储中的现有csv文件中？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我们能否通过python将数据附加到存储在Azure blob存储中的现有csv文件中？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我们能否通过python将数据附加到存储在Azure blob存储中的现有csv文件中？
EN