我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我知道我也可以使用Pandas将数据加载到Notebook中,但之后我需要将Panda DF转换为RDD。 我理想的解决方案应该是这样的,但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSchema", "true").option("url",source).load() 我也看过这个答案:reading a csv file from azure blob s
给定一个pyspark.sql.dataframe.DataFrame x:name day earnings revenue Oliver 1 100 44 Oliver415 54 John 3 33 10 John 4 82 82
是否可以根据名称列(作为索引)将表拆分为两个表,并将这两个表嵌套在同一个对象下我尝试过以下方法:dict(tuple(x.groupby('name'))),它在Pandas数据</em