数据是以弹性方式存储的是父子关系,其中用户是父级,该用户可以有n个事件记录,其中有一个名为state的字段,该字段可以是已启动、正在转换、已完成 我想获取有超过5个事件处于已完成状态的用户,我为此使用了bucket_selector我试着在bucket_selector上使用bucket_sort,但是抛出了错误。user-details.user_id.keyword" "aggregations": {
"the
正如标题所述,我想通过使用pyarrow并写入几个拼图文件来按大小(或行组大小)对pyarrow表进行重新分区。 我已经查看了pyarrow文档,并确定了分区数据集章节,这似乎是一个方向。不幸的是,它表明可以按列内容进行分区,但不能按大小(或行组大小)进行分区。 那么,从一个表开始,我如何控制写入步骤,以便以受控的大小x MB写入多个文件?(或行组大小) import pandas as pdimport pyarrow as pa
file = 'example.parquet