我正在使用spark 3.1.2,并试图使用火星雨熊猫。然而,在尝试from pyspark import pandas as ps
时,我得到了以下错误:
ImportError: cannot import name 'pandas' from 'pyspark' (/databricks/spark/python/pyspark/__init__.py)
我如何利用这个包?(作为参考,我正在使用databricks)。
发布于 2022-05-08 15:22:11
有火花10.0.0+的pyspark-pandas
需要数据库运行时3.2+
发布于 2022-05-13 05:51:15
也许遵循Google dataproc版本中的以下步骤:如何在上运行Spark3.2.0?
我认为这里的解决方案是在Spark3.2于2021年10月发布之后,将Databricks升级到最新版本。
我正在使用EMR 6.5,它仍然没有星火3.2,因此我们还不能使用这一点。阅读添加Pandas支持的建议,可以看出还有其他的实现可能对我有用: Dask、Modin和考拉。请参阅建议这里。
https://stackoverflow.com/questions/72164380
复制相似问题