我有一个带有N列的表,我想将它们连接到一个string列中,然后在该列上执行一个散列。我想完全在Spark中完成这项工作,理想情况下,我已经尝试过HASH(*) as myhashcolumn,但是由于几个列有时为null,我无法像我所期望的那样使它工作。如果我必须创建一个UDF并注册它以实现这一点,我需要使用Python而不是Scala,因为我的所有其他代码都是用Python编写的。
有什么想法吗?
我试图使用随机森林进行多类分类,使用spark 2.1.1我有一个包含多个字符串类型列的dataframe。我已经用distinct().count()检查了我的所有列,以确保我没有太多的类别,等等。经过一些调试后,我了解到每当我开始对某些列建立索引时,我就会得到以下错误.打电话时: if (labelToIndex.contai