我在python/pyspark中有一个数据框架。这些列具有点(.)这样的特殊字符。空格括号(())和括号{}。以他们的名义。现在,我想重命名列名,如果有点和空格,用下划线替换它们,如果有()和{},那么从列名中删除它们。df1 = df.toDF(*(re.sub(r'[\.\s]+', '_', c) for c in df.columns))
这样,我就能够用下划线替换点和空格,而不能执行第二位,也
我在Hadoop中有一个表,其中包含70亿个字符串,这些字符串本身可以包含任何内容。我需要从包含字符串的列中删除每个名称。一个示例字符串是“John to to the park”,我需要将“John”从其中删除,理想情况下只需替换为“name”即可。为了支持这一点,我有一个最频繁出现的20k名称的有序列表。 我有权访问Hue (Hive,Impala)和Zeppelin (Spark,Python和库)来执行此操作