免责声明:我对pyspark非常陌生,这个问题可能不合适。where age = 22 in SQL
spark.sql("select id, age from swimmers where age = 22").show() 现在,我用以下代码尝试使用pyspark这可以在pyspark中实现吗? 注意:我在使用Pyspark笔记本的EMR集群上。
我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我知道我也可以使用Pandas将数据加载到Notebook中,但之后我需要将Panda DF转换为RDD。 我理想的解决方案应该是这样的,但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSchema", "true").option("url",source).load() 我也看过这个答案:reading a csv file from azure blob s