我在pyspark中有一个数据框架,如下所示。camera| |我希望通过为每个column在device and model列中连接唯一值来创建id+---+-----------------------------------------------------------------------------+
但是我在结果中得到了重复的值如何避免在最终数据帧中填充重复值?
当我在conda base env上设置环境变量时,我在应该分配给变量的路径中犯了一个错误。我尝试在conda环境中设置$PYSPARK_PYTHON环境变量。当我通过执行以下操作检查env var列表时:conda env config vars list -n base 它显示了我设置的不正确的路径,但没有变量名,如下所示:= C:\\ProgramDataInvalidVariableReferenceWithDrive,Microsoft.PowerShell.Commands.