如何在单个句号之间提取所有文本(即忽略`…`)使用re2正则表达式？

要在单个句号之间提取所有文本（即忽略…），可以使用正则表达式来实现。以下是一个使用Python和re2库的示例代码：

import re2 as re

def extract_text(text):
    # 定义正则表达式模式
    pattern = r'(?<!\.)\.(?!\.)'
    
    # 使用re2库进行匹配
    matches = re.findall(pattern, text)
    
    # 提取匹配结果之间的文本
    extracted_texts = []
    start = 0
    for match in matches:
        index = text.find(match, start)
        if index != -1:
            extracted_texts.append(text[start:index].strip())
            start = index + 1
    extracted_texts.append(text[start:].strip())
    
    return extracted_texts

# 示例文本
text = "这是一个示例文本.这是另一个示例文本…还有一个示例文本."

# 提取文本
extracted_texts = extract_text(text)
print(extracted_texts)

解释

正则表达式模式：
- (?<!\.)\.(?!\.)：这个模式使用了负向前瞻和负向后瞻来确保匹配的句号前后没有其他句号。
  - (?<!\.)：负向后瞻，确保句号前面没有其他句号。
  - \.：匹配句号。
  - (?!\.)：负向前瞻，确保句号后面没有其他句号。

匹配和提取文本：
- 使用re.findall找到所有匹配的句号。
- 遍历匹配结果，提取每个句号之间的文本。

应用场景

这个方法适用于需要从文本中提取句子的场景，特别是在处理包含省略号（…）的文本时，能够正确地分割句子。

参考链接

re2库文档

通过这种方法，你可以有效地在单个句号之间提取所有文本，忽略省略号的影响。

页面内容是否对你有帮助？

有帮助

没帮助

如何在单个句号之间提取所有文本(即忽略`…`)使用re2正则表达式？

、、、

如何在单个句号之间提取所有文本(即忽略...)使用re2正则表达式？我正在使用REGEXP_EXTRACT_ALLBigQuery中的函数，该函数使用 https://github.com/google/re2/wiki/Syntax.。我想要提取查询

浏览 50提问于2021-02-25得票数 1

回答已采纳

1回答

使用正则表达式提取两个相似模式之间的文本

、

我有一个文本文件，我想从其中提取所有标题之间的文本。可以通过以下链接访问文本文件的一小部分：我想提取标题之间的文本，如3.0保证金/留存金和4.0动员预付款之间

浏览 13提问于2020-03-02得票数 0

1回答

Javascript正则表达式用于匹配冒号和以点结尾的句子之间的文本

、、

句子总是以句号结尾。跨越多条线。短语还可以包含“以双引号括起来的文本”或“单引号中的文本”。这是正则表达式不应该匹配的孤立短语。我试过使用:.*，但是它可以处理所有的行。

浏览 4提问于2022-03-02得票数 0

回答已采纳

2回答

在功能体中查找特定单词的正则表达式

、

我想写一个正则表达式来查找$body->后面的单词 function deviceUpdate($<=body ->\s)\S+编辑:我使用正则表达式~function\s*(.+?)(~查找函数的名称( deviceupdate)，使用~\$body\s*->\s*(\w+)~查找body -&

浏览 0提问于2016-02-13得票数 1

回答已采纳

1回答

具有固定开始和重复块的字符串的Java正则表达式

、、、

考虑一行文本，如上面的行有一个固定的开始"ab，然后它重复类似的块(即逗号，后面是2个双引号，后面是0或更多的非引号，后面是2个引号)，有可能出现空块(即4个连续引号""&quo

浏览 2提问于2016-01-11得票数 0

回答已采纳

2回答

匹配方法内容的正则表达式

、

为了开发Java代码解析器，我希望将java源文件的方法内容提取为字符串。但问题是，我无法通过获取{和}之间的值来匹配正则表达式中的内容，因为有些方法在方法中包含{和}。try{ } return args;如果我像这样使用正则表达式=})");如何在<

浏览 2提问于2011-09-17得票数 5

回答已采纳

1回答

正则表达式忽略单词

、

[file "/var/log"] [line "29"] [td "90"] [msg "wel done"]^\[[^][]*[+][0-9]{4}]如何忽略日期和消息之间的所有单词，以便只使用单个匹配来获取它们？

浏览 0提问于2016-11-16得票数 1

2回答

PDMiner缺失周期

、、、

/ESET_Okrum_and_Ketrican.pdf'但在摘录的文本中，缺少了一些句号字符：是一个被认为是以中国为威胁组织的威胁组织这真的让我很恼火，因为我正在对提取出来的文本进行自然语言处理，没有句号，整个文档被认为是一个大句子。我读过，它说每当PDF的/ToUnicode映射不好时，就没有办法不做OCR就正确地提取其文本。但我也一直在使用和PDFiu

浏览 9提问于2020-07-18得票数 1

回答已采纳

2回答

正则表达式匹配

、

start123start123start567endstart789endforeach (Match m in re.Matches(text)) dosomething();问题是我不知道需要提取多少开始和结束格式的文本我希望我的正则表达式能

浏览 6提问于2014-07-15得票数 3

回答已采纳

1回答

提取子字符串的正则表达式

、、

我的输入字符串的结构如下：我感兴趣的是使用单个正则表达式提取字符串'AC107‘。我知道如何使用其他PHP字符串函数来完成这个任务，但是我必须使用正则表达式来完成这个任务。我需要的是提取第三和第四连字符之间的所有数据。每个部分的结构不是固定的(即66可以是8798709,2141可以是38)。保证连字符数目的存在(即总有四个连字符)

浏览 4提问于2014-02-13得票数 2

回答已采纳

1回答

trible双引号和换行符之间的Regex提取

、

例如，我希望解析python文件，其中包含三个双引号之间的文本，并从这个文本生成html表。列Tested against:和\n if new line is empty或Requirement:和\n if new line is empty之间的所有内容列4 column end和\n

浏览 1提问于2017-04-16得票数 1

回答已采纳

2回答

在具有有限字符的href标记之间获取数据的正则表达式模式，忽略数字

在具有有限字符的href标记之间获取数据的正则表达式模式，忽略数字我需要一个正则表达式模式来匹配任何文本之间的： <a href="https://website.com">Health & Beauty在这种情况下，我想提取：美容与时尚我被建议使用以下模式： (?<=&|>)([^&\r\n]{4,10}(?=&|<\/a>))

浏览 35提问于2019-09-07得票数 0

2回答

使用RegEx提取自由文本块中的所有URL

、

我正在尝试检测自由文本块中列出的所有URL。我正在使用.nets Regex.Matches调用..使用以下正则表达式：(http|https)://[^\s "']{4,} here is a link [http:请注意最后一个条目上的句号。如何更新我的正则表达式，使其显示“如果末尾有一个句号，请忽略它？” 另外，请注意，“URL”与我的问题无关

浏览 3提问于2014-05-16得票数 0

2回答

将所有匹配提取到Google中的相邻列单元格中。

、、、

问题：查找Google正则表达式，该正则表达式捕获[t- ]之间字符串的所有实例，并以数组的形式输出到相邻的列单元格，或匹配之间的其他分隔符。对于下面的字符串，我试图提取[t- ]之间的所有文本实例。B1：或者输出可以是

浏览 0提问于2019-02-03得票数 0

回答已采纳

3回答

如何编写正则表达式以获取引用中的所有内容

、

有人知道如何在python中使用正则表达式来获取引号之间的所有内容吗？文本的长度不同，有些还包含标点符号和数字。如何编写正则表达式来提取所有信息？我希望在编译器中看到的是：这里有一些文本，这里有更多的文本，还有一些数字-

浏览 0提问于2012-02-27得票数 0

1回答

如何实现基于模式的字符串匹配

、、

示例：将匹配：20 stuff t c括号表示可选值。{1: 20 }是一个间隔；我必须检查令牌是否为数字，是否介于1和20之间。现在，我用正则表达式实现了这一点，而间隔部分的实现是很痛苦的。

浏览 0提问于2012-10-19得票数 1

回答已采纳

2回答

正则表达式来提取unix中大括号之间的所有内容。

、、、

我试图从文本文件中提取大括号之间的所有内容，并将输出写入另一个文本文件。我能够构造一个正则表达式来匹配{}和它之间的所有内容(我编写了一个简单的java程序来测试它)，但是我在unix中不是很强，因此不知道如何在unix中使用这个正则表达式。下面的正则表达式匹配{}之间的所有内容(在jedit中工作)我试过下面的命令，

浏览 2提问于2013-06-20得票数 2

回答已采纳

2回答

从java的文本文件中提取包含两个单词的句子

、

我试图从文本文件中提取包含两个单词的句子。我使用了regex，如下面的代码所示。我要句子(句号是句号，后面跟着空格)，加上单词“he”和“‘milan”，即第三个句子(顺序不是important.any语句，两个单词都需要)。我尝试了上面的regex模式和许多其他的请建议使用regex或java中的任何其他方法完成此任务的方法。(我正在提取两个实体<

浏览 5提问于2013-05-09得票数 1

回答已采纳

2回答

寻找健壮的HTML DOM方法来正确提取包含单个撇号的属性的文本值

、、、、

作为数据迁移任务的一部分，我正在从一些html中提取一些数据，即使用PHP元素的alt和title属性中的值。html的一个例子是：如您所见，在源html中，alt和title属性的值的开始和结束(容器字符)由单个撇号'表示，但在<em

浏览 0提问于2013-11-18得票数 2

1回答

正则表达式.Net搜索字符串在字符串中的位置

、

如何在c#.net中搜索字符串中的字符串？例如，我需要找到字符串"aa b bb aa bbb c“中的所有匹配项(第一个和最后一个符号的位置)字符串" aa”(这是简化，即aa是实词，如"zebra“或"big")。我想正确的方式是使用类正则表达式，即则regex.Matches(text)[0].Index是第一个字符串的

浏览 0提问于2013-02-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在单个句号之间提取所有文本(即忽略`…`)使用re2正则表达式？

解释

应用场景

参考链接

相关·内容

如何在单个句号之间提取所有文本(即忽略`…`)使用re2正则表达式？

使用正则表达式提取两个相似模式之间的文本

Javascript正则表达式用于匹配冒号和以点结尾的句子之间的文本

在功能体中查找特定单词的正则表达式

具有固定开始和重复块的字符串的Java正则表达式

匹配方法内容的正则表达式

正则表达式忽略单词

PDMiner缺失周期

正则表达式匹配

提取子字符串的正则表达式

trible双引号和换行符之间的Regex提取

在具有有限字符的href标记之间获取数据的正则表达式模式，忽略数字

使用RegEx提取自由文本块中的所有URL

将所有匹配提取到Google中的相邻列单元格中。

如何编写正则表达式以获取引用中的所有内容

如何实现基于模式的字符串匹配

正则表达式来提取unix中大括号之间的所有内容。

从java的文本文件中提取包含两个单词的句子

寻找健壮的HTML DOM方法来正确提取包含单个撇号的属性的文本值

正则表达式.Net搜索字符串在字符串中的位置

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐