在Google Colab中,我正在尝试让PySpark从S3存储桶中读取csv。这是我的代码: # Read in data from S3 Bucketsurl = "https://crypto-senti-nb.s3DataFrame
df.show() 这是我的回报: --------------
我目前正在使用这个数据集s3://commoncrawl/crawl-001/2008/06/19/1/。它的大小是24 S3,我正在尝试将其分离为文本/html请求,并将其保存在我的S3存储桶中。代码一切正常,但当我试图将它保存到存储桶中时,我的记忆出现了问题: Reason: Container killed by YARN for exce