我的公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的,但是当我们切换到pyspark时,如果我们需要的东西还没有在pyspark中可用呢?而且,继续使用python可能更容易一些,因为我已经知道了python.So:
发布于 2017-08-30 16:29:15
Pyspark或多或少是一个可以在python之上使用的函数库。
spark中获益(因为您不会使用pyspark库、对象.)RDD、dataframes、datasets),因此您将无法像不能将pandas与其他东西混合一样混合操作。您将能够使用python创建UDF(用户定义函数),然后可以将其应用于RDD、dataframe的每一行(就像pandas中的map )。list、pandas dataframe、json.)当它小到足以把它带到司机的记忆里时。https://stackoverflow.com/questions/45965044
复制相似问题