我的数据集是巨大的。我正在使用Azure ML notebooks,并使用azureml.core读取日期集并转换为azureml.data.tabular_dataset.TabularDataset。无论如何,我会过滤tabularDataset中的数据,而不是转换为pandas数据帧。我使用下面的代码来读取数据。由于数据量巨大,pandas数据帧正在耗尽内存。我不需要将完整的
import pandas as pdimport numpy as np
import pandas_datareader as web
from datetime import datetime
#I always get this error
#ValueError: Index contains dupl
我在pandas中有一个数据帧,如下所示:Snapshot of my pandas dataframe 现在我希望转换数据帧,如下所示,根据排序的日期值(%m/%d/%Y),使用分隔符为每个customerid日期较早的订单具有对应的客户id,其类别列在第一位。 Desired/Transformed data frame