我有一个PySparkDataFrame,我尝试过许多示例,演示如何使用现有列创建一个基于操作的新列,但它们似乎都不起作用。1-为什么这段代码不能工作?()编辑:答案1
我找到了让这件事成功的方法。我必须使用本机Python函数。a.withColumn('my_sum', F.sum(a[col] for col in a.columns)).show</
我正在尝试做一个GraphFrame由顶点和边数据。在顶点dataframe中,我看到同一个顶点有两次,具有相同的id和值。为什么允许我们在dataframe中有两个id相同的顶点,以及在查询dataframe和使用它的Graphframe时会产生什么后果?注意:我使用顶点值作为id。"),], ["id", "value"])id n