我使用了多种方法拆分和剥离我的pandas数据帧中的字符串,以删除所有‘\n’字符,但出于某种原因,它根本不想删除附加到其他单词的字符,即使我拆分了它们。我有一个熊猫数据框架,它有一个列,可以使用Beautifulsoup从网页中捕获文本。美汤已经清理了文本,但无法删除附加到其他字符的换行符。我的字符串看起来有点像这样:
“动手\n开发游戏。我们将学习与游戏\n相关的各种软件技术,包括编程语言、\n脚本语言、操作系统、文件系统、网络、模拟引擎和多媒体设计系统。我们还将\n研究一些来自计算机科学的基本科学概念和相关领域,包括\n”
有没有一种简单的python方法来删除这些"\n“字符?
提前感谢!
发布于 2017-05-28 21:22:26
编辑:正确的答案是:
df = df.replace(r'\n',' ', regex=True)
我觉得你需要replace
df = df.replace('\n','', regex=True)
或者:
df = df.replace('\n',' ', regex=True)
或者:
df = df.replace(r'\\n',' ', regex=True)
示例:
text = '''hands-on\ndev nologies\nrelevant scripting\nlang
'''
df = pd.DataFrame({'A':[text]})
print (df)
A
0 hands-on\ndev nologies\nrelevant scripting\nla...
df = df.replace('\n',' ', regex=True)
print (df)
A
0 hands-on dev nologies relevant scripting lang
发布于 2020-08-01 05:29:26
df.replace(to_replace=[r"\\t|\\n|\\r", "\t|\n|\r"], value=["",""], regex=True, inplace=True)
对我很管用。
来源:
https://gist.github.com/smram/d6ded3c9028272360eb65bcab564a18a
发布于 2017-10-29 20:31:44
在乱七八糟的数据中,删除所有空格df.replace(r'\s', '', regex = True, inplace = True)
可能是个好主意。
https://stackoverflow.com/questions/44227748
复制相似问题