后来的编辑2:我发现了问题,我通常应该删除这个问题,因为我犯的错误与我问的问题无关,问题的根源是其他地方。不过,这里面有一些宝贵的知识,所以我将离开它,除非社区决定将其删除。稍后编辑:所以,我不确定为什么我没有早点知道这一点,解决方案是使用dataframe.na.drop(" all ")来删除所有空行。我仍然想知道它们为什么会出现。其他过滤器不会创建这些空行。我将一个数据帧定义为基于多个conditions.Then过滤的另一个数据帧,并将其另存为csv:
var
dataframe['Text'] = dataframe['Text'].apply(lambda x : ' '.join([item for item in string.split(x.lower()) if item not in stopwords]))我使用了dropna(),但是它将删除整行,而在其他列中有数据。
如何在上述逻辑<
当使用Pyspark将JSON数据从S3加载到AWS上的Spark (v2.4.2)时,我注意到文件中的尾随行分隔符(\n)会导致在Dataframe的末尾创建一个空行。因此,包含10,000行的文件将生成一个10,001行的Dataframe,最后一行为空/all nulls。. <-- 9996 similar lines{line of JSON}\n
JSON本身中没有新行,也就是说,我不需要将JSON读