使用python和re清理文本

文章/答案/技术大牛

发布

3回答

、、、

我需要清理一些文本，如以下代码所示： import re text = text.lower() text = re.sub(r"she's","she is",text) text = re.sub(

浏览 57提问于2019-03-16得票数 1

回答已采纳

3回答

用Python编写一个新的.txt文件？

、、

我正在处理一个需要导入文本文件、清理数据和写入新文本文件的项目。最后一步我需要帮助。我的Python程序如下所示： for line in file: if search_result: p

浏览 13提问于2022-06-18得票数 0

回答已采纳

2回答

正则表达式<.*?>

、

我是Python的新手，并且一直在研究文本清理示例，例如Kaggle上的，并且对词干和停用词部分有一些疑问。>') sentence = re.sub(r'[?|!|\'|"|#]',r'',sentence) sentence = re<

浏览 2提问于2019-12-09得票数 0

3回答

text = " ABCD-10630Re: Alert: abc.server.com/kafka stauts Status,ABCD-10629Re: Alert: db01.server.com/Replication lag,ABCD-10601Re: Alert: web-app.server.com/apache service downcheck,ABCD-10571Re: Alert: slave01.serve

浏览 0提问于2015-01-10得票数 0

1回答

无法清除python中的csv文件

、、

我正在尝试将CSV文件加载到python中并清理文本。但是我一直收到一个错误。我将CSV文件保存在一个名为data_file的变量中，下面的函数清理文本并返回干净的data_file。import pandas as pdimport re df = pd.read_csv("/yoshithKotla/Desktop/janTweet.csv

浏览 7提问于2021-06-02得票数 0

2回答

将多个正则表达式操作组合在一起

、、、

我正在做一个使用python进行文本处理的NLP项目，在这个项目中，我需要在特征提取之前进行数据清理。我使用正则表达式操作清理特殊字符和带有字符的数字分隔符，但我在许多操作中分别执行所有这些操作，这会使速度变慢。我想让它在尽可能少的操作或更快的方式。if type(x) is str: x = x.replace('-', ' ').replace('(', ',').rep

浏览 80提问于2020-04-03得票数 1

2回答

文本文件中的克拉Z符号

、、、、

有人知道文本文件中的^Z符号代表什么，以及我如何清理它(regex/python)。示例字符串：如何使用vim中的regex或修改下面的pythondf['col1'].apply(lambda x: re.sub('[^a-zA-Z]', '', x))

浏览 4提问于2015-10-30得票数 2

回答已采纳

1回答

用下划线代替空格，但不是全部

、

我对Python非常陌生，但我们正在清理一些文本文件，除其他外，我需要做以下工作:用下划线替换空格，但只在某些情况下。情况是这样的:开始用/2标记，结尾用/1标记。我知道如何进行通用的替换(使用python或regex)，也知道如何进行与所有/2...../1表达式匹配的regex搜索。但无法理解如何将它们组合起来:只在找到表达式时替换，而不使用文本的其余部分。人们不断地要求我提供我的代码和/或指向我基

浏览 3提问于2020-07-06得票数 2

回答已采纳

1回答

从文件读取未正确编码的文本，缺少空格，字符错误

、、、、

我正在清理.txt文件的文本。然而，在阅读文件后，我发现文本缺少空格，只有一些单词之间有错误的字符。我使用的是Python 3，文本是越南语。当我使用re删除所有特殊字符时 In[2]: import re read_text Out[

浏览 13提问于2019-05-24得票数 0

5回答

如何清除python中文本文件中的非阿拉伯字母？

、、

更新-非常新的python，如何清理文本从所有的东西，除了阿拉伯字母。我使用了regex函数，但没有成功。Notebooks/ArabicKidsStories.txt'text = file.read()import retext = re.sub('([@A-Za-z0-9_]+)|[^\w\s]|#|http\S+', '

浏览 0提问于2021-09-29得票数 2

回答已采纳

3回答

在Python中使用多个正则表达式或更大的正则表达式进行替换

、

我最近切换到了Python，我有兴趣通过删除一些特定的标签或其他字符串模式来清理大量的网页(大约12k) (但也可以被认为是简单的文本文件)。为此，我使用re.sub(..)Python中的函数。我的问题是(从效率的角度)是创建一个大的正则表达式来匹配更多的模式，还是使用更小、更简单的正则表达式多次调用函数更好。举个例子，是不是使用下面这样的东西更好？re.sub(r"<[^<>]*>",

浏览 0提问于2012-09-24得票数 6

回答已采纳

3回答

在for循环中为Python中的每个句子清除文本

、、

我正在尝试在Python中进行一些文本清理，以便进行情感分析。但是，我不想把所有的文本放在一起并将它们分开，而是希望按每句话来清理文本。为此，我在函数中使用了for循环，但问题是它只返回数据帧中的1个句子。[In] data = pd.read_csv('twitter_AC.csv') 2 We're<

浏览 39提问于2018-02-25得票数 1

2回答

Python:使用regex和一个循环来清理多个文本文件

、、、

我在清理保存在分开的文本文件中的报纸文章。m = re.match('(.*LOAD-DATE:)', line) line = m.group(1) li

浏览 1提问于2017-09-19得票数 0

回答已采纳

1回答

Python -使用re.sub清理字符串

、

我在使用regex sub从字符串中删除数字时遇到了一些问题。years commencing on 25th December 1996" 我想要做的是删除数字和单词'years' --我还在使用DateFinder解析日期字符串，但是DateFinder将数字解释为日期--因此我要删除该数字。对regex表达式中删除数字和单词'years'的任何想法

浏览 1提问于2018-08-23得票数 0

回答已采纳

3回答

字符串清洗

、、

我用Python编写了以下代码来“清理”我的字符串：现在我把“1.2.1Hello”(文本)变成了"Hello“(TextCleaning)。我现在想做的是->将"1.2.1“保存在自己的列中。

浏览 0提问于2019-05-22得票数 0

2回答

如何在Python中获取字符位置列表？

、

我正在尝试编写一个函数来清理web应用程序中的unicode输入，目前我正在尝试在此页面的末尾重现PHP函数：我正在寻找一个与python中PHP的preg_match_all等价物。RE函数findall返回没有位置的匹配项，而search只返回第一个匹配项。有没有什么函数可以在每次匹配的时候都返回给我，以及文本中的相关位置？使用字符串abcdefa和模式a|c，我希望得到类似于[('a',0),('c',2),('a',6

浏览 0提问于2011-03-07得票数 1

回答已采纳

1回答

删除文本中的标记链接

、

我在清理Reddit的短信。当您在Reddit自文本中包含一个链接时，您会这样做：[the text you read](https://website.com/to/go/to)。我想使用regex删除超链接(例如https://website.com/to/go/to)，但保留the text you read。我如何使用Python的re库来完成这个任务？什么是合适的正则表达式？

浏览 0提问于2018-12-30得票数 4

回答已采纳

3回答

使用re模块输出soup.findall()作为进一步文本操作的输入

、、、

尝试使用BeautifulSoup从网页中提取文本。希望将soup.findall()的输出作为输入传递，以便使用re模块进一步清理数据纯文本输入正常工作，但如果传递soup.findall()的输出，它将引发以下错误。回溯(最近一次调用)：文件“scpe2.py”，第18行，在url = re.search( '，univ) File "/usr/lib/python2.7/re<

浏览 6提问于2013-11-24得票数 0

回答已采纳

1回答

删除Python输出中的换行符

、、

我正在清理一个文本文件，并编写了以下代码以删除不需要的字符。我的问题是，当我希望最后的输出作为一个文本组成时，它会显示为一个单词列表。Step4 = re.sub(r"(\n)"," ",Step3)完整代码如下： f=open("/Applications/Python 3.9/cleaningData = re.split(r" ",raw)

浏览 0提问于2021-09-24得票数 0

回答已采纳

1回答

Python:删除字符串中的反斜杠

、

这里是Python的新手，正在尝试掌握正则表达式的诀窍。我知道还有其他关于这个主题的帖子，我已经尝试了结果推荐，.replace("\"，"")和.replacePS -无关，但有没有可能像使用</em

浏览 0提问于2017-11-27得票数 3

点击加载更多