我的数据集是巨大的。我正在使用Azure ML notebooks,并使用azureml.core读取日期集并转换为azureml.data.tabular_dataset.TabularDataset。无论如何,我会过滤tabularDataset中的数据,而不是转换为pandas数据帧。我使用下面的代码来读取数据。由于数据量巨大,pandas数据帧正在耗尽内存。我不需要将完整的
假设我有一个函数,它根据某个变量‘name’创建一个pd.DataFrame: ... ...return(DataFrame(name)) #parenthesis
#here only to show that the DataFrame我的问题是:我如何编写一个函数来为“name”的每个可能值编写一个.csv (具有唯一的名称)?
因此,数据与每个变量一起显示为它自己的列,而现象在它们同时出现时显示为重复值,如下所示: Begin Time End Time g-phasing apex syllableZE sujets H*
00:00:12.990 00:00:13.400 stroke ZE sujets 此数据集显示有两个笔画(一个从00:00:06.795到00:00:08.120,第二个笔画从00:00:12.396到00:00:13.400) 理想情况下