我有一个表,在一个数据库中。有一列" id“,并且每个id都有多行。我想随机挑选10个I,然后用这些I加载所有行。下面的代码是有效的,并给出了一个包含10个随机ids的表。这很好。distinct_ids = spark.sql(f""" (SELECT DISTINCT id FROM {database_name}.{orig_table_cl_name
我有一个场景,通过where条件从同一个DataFrame中使用另一个列从DataFrame读取一列,这个值作为IN条件通过,从另一个DataFrame中选择相同的值,我如何在spark DataFrame中实现。在SQL中,它将类似于:
select distinct(A.date) from table A where A.key in (select B.key from table B wh