我有一个字符串列作为分区,它有日期值。我的目标是将该列的最大值作为筛选器引用。这些值类似于2019年1月1日的2019-01-01。在这个查询中,我试图过滤到某个日期值(这是一个字符串数据类型),而Spark最终读取所有目录,而不仅仅是结果max(value)。我检查以确保源表和值中的模式都是字符串类型,并且还尝试将值转换为字符串以及cast( (select max(mypartitioncolumn) from myothertable) as string
我像往常一样写了一个pandas数据框来封装文件, 突然跳出一个异常pyarrow.lib.ArrowInvalid,如下所示: List child type string overflowed the capacity of a single chunk,
Conversion failed for column image_url with type object 我使用的是pyarrow 0.17.0,pandas 1.2.0我知道这些是旧版本,但我不知道发生了什么。 这“溢出单个块的容量”是什么意思? 所指示的列image_url是否可能包含破坏逻辑的数据?