我正在做一个理解PySpark的小项目,我试图让PySpark对the文件中的单词执行以下操作;它应该“忽略”单词大小写的任何更改(例如,While vs while),并且应该“忽略”单词末尾可能存在的任何额外字符我相当确定需要某种lambda函数或正则表达式,但我不知道如何将其泛化到可以弹出任何类型的文本文件(如一本书),然后让它返回正确的分析。到目前为止,我的</em
我计划使用kafaka在pyspark中发送数据。通过搜索资料,我发现我需要对producer进行自定义序列化,以便可以广播该对象。但是我如何在pyspark中实现这个功能呢?spark==2.2.1public class KafkaProducer implements Serializable {
instance = new KafkaProducer