我想直接过滤pandas groupBy的结果,而不必先将groupBy结果存储在变量中。title").agg({"counts":"sum"}) # I want to skip creating res
my_res = res.loc[res.counts >2] 在上面的例子中,在Spark/Scala中,这可以通过链接过滤器操作来实现,但在pandas中
我有一个来自等离子DataStore的RecordBatch,我可以将它读入pyarrow.RecordBatch或pyarrow.Table。我现在正在尝试在将其转换为pandas (to_pandas)之前过滤掉行。有没有办法在pyarrow.Table上使用新的Dataset API (可以在ParquetDataset上使用)中的filter方法?这将允许我使用这样的过滤器:
[[('date',