我有一个机器学习模型部署在蔚蓝设计师工作室。我需要通过python代码每天用新的数据重新训练它。我需要将现有的csv数据保存在blob存储中,并将更多的数据添加到现有的csv中,并对其进行再培训。如果我只使用新的数据对模型进行重新培训,那么旧的数据就会丢失,所以我需要通过在现有数据中添加新的数据来重新训练模型。有没有任何方法可以通过python编码来完成呢?
我也研究过附加的blob,但是它们只在blob的末尾添加。在文档中,他们提到我们不能更新或添加现有的blob。
发布于 2021-03-11 05:33:26
我不知道为什么它必须是一个csv文件。有许多基于Python的库用于处理分布在多个csvs上的数据集。
在所有示例中,您传递一个模式,它将匹配多个文件。此模式非常自然地适用于Azure ML数据集,您可以使用该数据集作为输入。请参阅上面docs链接中的摘录。
from azureml.core import Workspace, Datastore, Dataset
datastore_name = 'your datastore name'
# get existing workspace
workspace = Workspace.from_config()
# retrieve an existing datastore in the workspace by name
datastore = Datastore.get(workspace, datastore_name)
# create a TabularDataset from 3 file paths in datastore
datastore_paths = [(datastore, 'weather/2018/11.csv'),
(datastore, 'weather/2018/12.csv'),
(datastore, 'weather/2019/*.csv')] # here's the glob pattern
weather_ds = Dataset.Tabular.from_delimited_files(path=datastore_paths)假设所有csvs都可以放入内存中,则可以轻松地将这些数据集转换为pandas数据格式。你叫使用Azure ML数据集,
# get the input dataset by name
dataset = Dataset.get_by_name(ws, name=dataset_name)
# load the TabularDataset to pandas DataFrame
df = dataset.to_pandas_dataframe()使用Dataframe,这个GitHub问题说你可以打电话给
df = my_dask_df.compute()至于输出数据集,您可以通过将输出CSV中的数据读入数据集,将数据附加到输出数据集中,然后将其覆盖到相同的位置,从而控制这一点。
https://stackoverflow.com/questions/66576663
复制相似问题