我有很多文档文件需要转换成Dataframe。我的文档文件无法直接转换,因为我收到一条错误消息:Test.doc' is not a Word file, content type is 'application/vnd.openxmlformats-officedocument.themeManager如果我将我的doc文件转换成docx,我就可以将数据提取到dataframe中。我更喜欢将docx数据存储在内存
从正式文档中可以看到,它首先将表加载到Spark中,然后使用.sql()执行查询。count. 'SELECT word, SUM(word_count) AS word_count FROM words GROUP BY word')word_count.printSchema()
我可以通过根据查询结