如何拆分正则表达式的结果列表由新行后，词干和删除标点符号？

、、、、

结果文件是两个非常长的单元素列表，其中所有处理的文本放在一起。我尝试将list.append命令移到if else语句下，得到了一个非常大的列表，其中每几个单词都被集中在一起，后面跟着相同的前几个单词和一些新单词，直到我得到一个完整的句子，然后它开始在下一个匹配中执行相同的操作我相信可以用更好的循环来解决这个问题。我也试图处理生成的文件，但效率非常低，因为我不再有

浏览 12提问于2021-06-15得票数 1

回答已采纳

1回答

如何避免在循环后为列表中的每个字母创建新行？

、

我试图找出如何解决为每个字母创建新行的问题，以便在这一次Python练习中显示列表中的完整单词。file_handle = open('romeo_juliet.txt'

浏览 2提问于2022-02-16得票数 1

回答已采纳

1回答

我写了这个正则表达式(在Python3中)：(?<![\u0410-\u042F])([.!?])(?=(\s)?(\s)?[0-9])它用西里尔语拆分句子。它们是由\n分隔的。因此，它应该拆分以下内容： Мамлекеттик айыптоочу Биринчи май райондук сотуна берген бул сунушун диний кастыкты ырбатпоо但是由于某些原因，句点(最后一

浏览 0提问于2012-12-29得票数 0

回答已采纳

1回答

使用Re.Findall提取所有长度为2的字符串

、

我想用正则表达式从文本中提取所有两个字母的字符串，例如：会让我得到ju, us, st, te, es, st非常感谢您的帮助。

浏览 8提问于2017-02-27得票数 1

3回答

从字符串中出现的单词中删除标点符号

它创建一个出现在字符串$commentstring中的单词列表，按出现次数排序。它省略了$blacklist中的数字和任何内容。它将以标点符号结尾的单词视为唯一的。因此，american、american.和american,都被认为是不同的。无论单词是否以标点符号结尾，我如何才能使它们保持一致？

浏览 0提问于2012-02-07得票数 0

回答已采纳

1回答

使用dataframe删除标记化nltk中的标点符号(python)

、、、

我有一些我能够处理的文本，从停用词，链接，表情符号等。在标记我的数据帧后，我得到了一个不太好的图片。有许多额外的标点符号，它们被标识为单独的单词，并出现在处理后的文本中。添加镜像 ? ，问题马上就弹出来了，为什么不在标记化之前去掉标点符号呢？关键是文本中有我需要的十进制值。在标记化之前删除标点符号会将它们拆分为两个单词，这是不正确的</

浏览 59提问于2021-11-04得票数 0

1回答

科学学习- TfidfVectorizer -如何使用自定义分析器，并仍然使用token_pattern

下面是我想要的管道：stemmer = SnowballStemmer('english') 如果我包括analyzer=processed_words，那么我就失去了删除数字、下划线以及正则表达式中指定的任何其他无效字符序列

浏览 0提问于2018-03-22得票数 3

2回答

删除某些空白

、

如何更改文本字符串至我不知道如何删除不在两个单词之间的某些空格

浏览 0提问于2011-10-17得票数 2

回答已采纳

1回答

从文本文件生成libsvm格式的数据

、、

我在寻找libsvm格式的WebKB数据。后来，在互联网上搜索了很多次后，我偶然发现了这些数据，这些数据是经过词干提取和停用词删除后获得的。格式如下：如何将这样的文本文件转换为lib-svm格式？

浏览 2提问于2013-02-16得票数 0

3回答

移除标点符号和降低字符串

、、、

作为赋值的一部分，我编写了以下代码来删除字符串中的标点符号并将其转换为小写。string.punctuation);lower = new.lower(); 然而，这对我来说似乎很粗糙，我觉得我可以用更少的函数调用/更少的代码来完成我的任务。

浏览 0提问于2015-11-11得票数 2

回答已采纳

1回答

在python中删除情感分析中的标点符号

、

它工作得很好，但当我添加带有逗号、句号等的句子时，会出现问题。我研究过，可以将strip()视为修复它的潜在选项？我看不到在哪里添加它，并且已经尝试过了，但是错误之后又出错了！

浏览 2提问于2016-04-16得票数 1

2回答

有人愿意从数据库的角度来解释一下“标记化的字段”吗？

、、、、

我正在阅读有关SOLR的文章，并将MySQL数据库索引到SOLR中。当字段被“规范化”时，这意味着什么？谢谢

浏览 1提问于2010-01-22得票数 3

回答已采纳

3回答

Python编写一个创建新单词列表的循环，使用字符串方法从列表中删除单词。

问题4.编写一个创建新单词列表的循环，使用字符串方法从问题3中创建的列表中去掉所有前导和尾随标点符号。提示:上面导入的字符串库包含一个名为标点符号的常量。三行代码。好的，我已经完成了如下代码：text = ("There once was a man in Idaho, he invented the potato.") listW

浏览 3提问于2015-02-27得票数 0

回答已采纳

2回答

在Python中，如何接收字符串文本，并返回包含字符串列表的列表？

、、、

此函数接受一个字符串文本，并返回一个包含字符串列表的列表，该列表为字符串文本中的每个句子提供一个列表。最令人困惑的部分是如何</

浏览 14提问于2014-11-06得票数 0

2回答

Lucene分析仪的比较

、

有人能解释一下Lucene中不同分析器之间的区别吗？我得到了一个maxClauseCount异常，我知道我可以通过使用KeywordAnalyzer来避免这种情况，但我不想在不了解围绕分析器的问题的情况下更改StandardAnalyzer。

浏览 0提问于2011-03-30得票数 109

回答已采纳

3回答

删除标点符号问题

我试着移除标点符号，但是它似乎没有效果。我是不是漏掉了什么？这是我使用的代码行：s.replaceAll(“(a +)？key + " has been found " + counter + " times.");通过使用s = s.replaceAll("\W"，“”)，我设法找到了一个解决方案(尽管可能不是理想的)；谢谢大家关于如何解决这个问题的指导。

浏览 6提问于2013-03-25得票数 0

回答已采纳

3回答

Python替换单引号，撇号除外

、、、

我正在对单词列表执行以下操作。我从Project Gutenberg文本文件中读取行，将每行用空格拆分，执行一般的标点符号替换，然后将每个单词和标点符号打印到各自的行中，以便以后进一步处理。我不确定如何将每个单引号替换为标记或排除所有撇号。我当前的方法是使用已编译的正则表达式： apo = re.compile("[A-Za-z]'[A-Za-

浏览 110提问于2018-06-10得票数 2

回答已采纳

1回答

Java Lucene:搜索包含非字母数字字符的术语

、

我需要能够使用termDocs和term的返回结果。当我使用标准分析器时，我不会返回任何结果，其他分析器上的任何想法都可以执行与标准分析器相同的操作，并使用以下术语返回结果(example term- #define)： hits = td.freq();然而，当我尝试使用queryparser而不是termdocs时，我确实得到了结果

浏览 1提问于2011-05-24得票数 0

回答已采纳

3回答

从列表中删除非字母字词a的正则表达式(例外)

、、

我试图从包含非alpha字符的字符串列表中删除单词，例如：["The",

浏览 9提问于2015-11-30得票数 2

回答已采纳

1回答

如何在一次使用Amazon时添加相同类型的多个插槽？

、、

我想要的是用户在一次发言中添加多个相同类型的插槽。 I need {Service} and {Service}我需要咨询和治疗对于意图"FindService“，插槽" {Service}”在"I需要{Service}、{Se

浏览 2提问于2018-09-23得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何避免在循环后为列表中的每个字母创建新行？

正则表达式拆分不止一次

使用Re.Findall提取所有长度为2的字符串

从字符串中出现的单词中删除标点符号

使用dataframe删除标记化nltk中的标点符号(python)

科学学习- TfidfVectorizer -如何使用自定义分析器，并仍然使用token_pattern

删除某些空白

从文本文件生成libsvm格式的数据

移除标点符号和降低字符串

在python中删除情感分析中的标点符号

有人愿意从数据库的角度来解释一下“标记化的字段”吗？

Python编写一个创建新单词列表的循环，使用字符串方法从列表中删除单词。

在Python中，如何接收字符串文本，并返回包含字符串列表的列表？

Lucene分析仪的比较

删除标点符号问题

Python替换单引号，撇号除外

Java Lucene:搜索包含非字母数字字符的术语

从列表中删除非字母字词a的正则表达式(例外)

如何在一次使用Amazon时添加相同类型的多个插槽？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐