我有一个非常大的csv文件(5GB),所以我不想将整个文件加载到内存中,我想删除它的一个或多个列。我尝试在blaze中使用以下代码,但它所做的只是将结果列附加到现有的csv文件中:
from blaze import Data, odo
d = Data("myfile.csv")
d = d[columns_I_want_to_keep]
odo(d, "myfile.csv")
有没有办法用熊猫或烈火只保留我想要的栏目,删除其他栏目呢?
假设我有一张汽车表格。我有品牌栏目,还有栏目模型。标记可以重复。我所做的是一个查询,它在模型中的一列和另一列中显示标记,并在另一列中为每个汽车品牌生成一个数字,该数字必须向上移动。在下面的示例中,显示我的查询结果应该是怎样的。
Brand Model Brand Number
--------------- ----------------------- ---------------------
Ford Ranger 1
Ford