我的数据集是巨大的。我正在使用Azure ML notebooks,并使用azureml.core读取日期集并转换为azureml.data.tabular_dataset.TabularDataset。无论如何,我会过滤tabularDataset中的数据,而不是转换为pandas数据帧。我使用下面的代码来读取数据。由于数据量巨大,pandas数据帧正在耗尽内存。我不需要将完整的数据加载到程序中。有没有办法在转换为pandas数据框之前过滤记录 de
我希望获得使用Tensorflow中的“嵌入列”创建的numpy向量。(sample_column1,columns=["A"])ds# A utility method tocreate a tf.data dataset from a Pandas Dataframe
def df_to_dataset(d
假设我希望使用xarray处理一些日常天气数据,其组织方式类似于xarray文档中的示例:但是,这些数据是以多个Excel文件的形式提供给我的,其中每个文件都包含一天的数据。%d')
df['Date'] = date
我可以用所有的数据(dfAll.append(df))制作一个大数据,并在数据和数据集(xr.Dataset.from_dataframe(df))之间进行转换<