开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python Regex:在稍微相似的文本上查找匹配项，并返回字典(或字典列表)

Python Regex是Python中的正则表达式模块，用于在文本中查找匹配项。正则表达式是一种强大的模式匹配工具，可以用于在字符串中搜索、替换、分割等操作。

使用Python Regex可以实现在稍微相似的文本上查找匹配项，并返回字典或字典列表。下面是一个示例代码：

import re

def find_matches(text):
    pattern = r'(\w+): (\w+)'
    matches = re.findall(pattern, text)
    
    result = []
    for match in matches:
        result.append({match[0]: match[1]})
    
    return result

text = "name: John, age: 25, city: New York"
matches = find_matches(text)
print(matches)

上述代码中，我们定义了一个正则表达式模式(\w+): (\w+)，该模式用于匹配形如key: value的文本。然后使用re.findall()函数在文本中查找所有匹配项，并将结果存储在列表matches中。

接着，我们遍历matches列表，将每个匹配项转换为字典，并添加到结果列表result中。

最后，我们返回结果列表result，其中包含了所有匹配项的字典。

这样，对于输入的文本"name: John, age: 25, city: New York"，函数将返回一个包含三个字典的列表，每个字典表示一个匹配项，例如[{'name': 'John'}, {'age': '25'}, {'city': 'New York'}]。

推荐的腾讯云相关产品：腾讯云函数（云函数是一种事件驱动的无服务器计算服务，可以在云端运行代码），产品介绍链接地址：https://cloud.tencent.com/product/scf

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

正则表达式太慢？这里有一个提速100倍的方案（附代码）

FlashText是GitHub上的一个开源Python库，正如之前所提到的，它在提取关键字和替换关键字任务上有着极高的性能。在使用FlashText时，你首先要给它一个关键词列表。...这份列表将用于在内部建立一个单词查找树的字典（Trie dictionary）。然后你将一个字符串传递给它，并告诉它是要执行替换还是搜索。对于替换，它将用替换关键字创建一个新字符串。...对于搜索，它将返回字符串中找到的关键字列表。这些任务都只需要遍历字符串一遍。 FlashText为什么这么快？举个例子吧。...它的工作方式是：首先根据语料库创建一个单词查找树字典（Trie data structure）。如下图： start和EOT（End Of Term）表示单词边界，可以是空格，句号或换行符。...关键字只有在它的两边有单词边界时才能被匹配。这样可以防止apple和pineapple的匹配。接下来，我们将输入一个字符串I like Python，并且一个字符一个字符搜索他、它。

2.5K4 0

GitMAD：用于发现Github上的敏感信息和数据泄漏的工具

GitMAD是一个用于发现Github上的敏感信息和数据泄漏的工具。通过给定关键字或域，GitMAD便会搜索Github上托管的代码，以查找是否存在匹配项。...Discovery模式将在每次运行时提取并搜索新结果。Monitor模式则会首先下载给定关键字/域的所有匹配项搜索它们，然后继续搜索新结果。...配置文件 regex_matches.py 这是将关键字和正则表达式放在存储库内容中进行搜索的位置，只需在下面的列表中添加字典即可： to_match = [ {'match_regex': r'password...只需在下面的列表中添加字典即可： r_whitelist = [{'regex':r'\b[A-Za-z][a-z]+([A-Z][a-z]*)+\b'}] # Camel Case 输出 GitMAD...它还插入了匹配的字符串和匹配的行。这些结果可通过邮件警报，数据库和Web应用获得。当前状态该项目正在积极开发中。安装 GitMAD最初是在Windows上用Python3.6编写的。

1.5K1 0

数据科学入门必读：如何使用正则表达式？

每个名称都输出显示在方括号中，因为 re.findall 以列表形式返回匹配结果。如果我们想得到电子邮箱地址呢？...re.search() re.findall() 匹配的是一个模式在一个字符串中的所有实例然后以列表的形式返回它们，而 re.search() 匹配的是一个模式在一个字符串中的第一个实例，然后以 re...接下来我们创建一个空列表 emails，用来存储字典。每个字典都将包含每封电子邮件的细节。我们经常把代码的结果显示在屏幕上，以了解代码正确或出错的位置。...我们创建了一个字典 emails_dict，其中有每封邮件的所有细节，比如发件人的地址和名称。实际上，这就是我们首先要查找的项。这是一个三步式的过程。首先从查找 From: 字段开始。...在第 2 步中，我们使用了与之前类似的正则表达式模式 \w\S*@.*\w 来匹配电子邮箱地址。我们使用了不同的策略来匹配名称。

3.6K10 0

Ansible 如何使用 Filter 插件转换数据

关于Jinja2，是基于python的模板引擎,类似Java的Freemarker，在Python Web 中也经常使用，比如Flask常常结合Jinja2 实现前后端不分离的小型Web项目具体的过滤器列表...」字典（映射或散列）是将字符串键链接到值以进行直接访问的结构，键括在方括号中来访问字典中的项： $ ansible-playbook var_demo.yaml PLAY [var demo] *...如果列表中包含数字，可以使用max、min 或 sum来查找所有列表项的最大数、最小数和总和： $ ansible servera -m debug -a 'msg={{ [2,3,4,5,3,1,6...」 regex_search过滤器，查找所有出现的子字符串，匹配行中第一个项目，并返回一个列表值。...regex_findall过滤器，查找所有出现的子字符串，匹配行中所有项目，并返回一个列表值。 replace过滤器，换输入字符串中所有出现的子字符串，不支持正则表达式。

4.3K1 0

嘀~正则表达式快速上手指南（下篇）

我们创建一个字典， emails_dict,这将保存每个电子邮件的所有细节，如发件人的地址和姓名。事实上，这些是我们要寻找的第一项信息。这个过程总共有 3 步，首先是找到 From: 字段 ?...然后我们将匹配对象转换为字符串并添加至字典中去。 ? 因为From: 和 To: 字段具有相同的结构，因此我们可以对两者使用相同的代码，但对其他字段来说，我们需要定制稍微不同的代码。...在正则表达式里，在+ 的左侧来匹配一个或多个模式实例。用\d+ 来匹配可以不用考虑日期的具体天数是一位还是两位数字。之后的一个空格可以通过寻找空白字符的 \s 来解析。...[\s\S]* 用来查找空格或非空格字符，所以用于大段的文本、数字，以及标点符号。...我们已经打印出了emails 列表的第一项, 它是由键和键值对组成的字典. 由于使用了 for 循环，因此每个字典拥有相同的键，但键值不同。

4K1 0

正则表达式入门 — 一个通过例子来说明的备忘单

正则表达式（regex 或 regexp）在通过搜索特定搜索模式的一个或多个匹配（即 ASCII 或 unicode 字符的特定序列）从任何文本中提取信息时非常有用。...在末尾我们可以规定一个标志使用以下的值（我们也可以将它们相互结合）： g(全局的) 在第一匹配之后不会立即返回，从前面匹配之后继续搜索 m (多行的) 当使用 ^ 以及 $ 的时候将会匹配行首和行尾而不是整个字符串...，我们将能够使用匹配结果检索组值，如字典，其中字典的名称就是刚才添加的名称。...(https://regex101.com/r/cO8lqs/26) 返回引用— \1 ([abc])\1 使用 `\1` 将会匹配与第一个捕获分组相同的文本 -> [试一下!...(https://regex101.com/r/cO8lqs/21) 总结正如你所见，正则表达式的应用程序字段可以是多个，我确信你已经认识到在开发人员职业生涯中看到的这些任务中的至少一个，这里有一个快速列表

1.8K2 0

Python正则表达式指南

如果表达式中有量词或边界，这个过程会稍微有一些不同，但也是很好理解的，看下图中的示例以及自己多使用几次就能明白。下图列出了Python支持的正则表达式元字符和语法： ? 1.2....数量词的贪婪模式与非贪婪模式正则表达式通常用于在文本中查找匹配的字符串。...Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。...使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得匹配结果（一个Match实例），最后使用Match实例获得信息，进行其他的操作。 ?...另外，你也可以在regex字符串中指定模式，比如re.compile('pattern'， re.I | re.M)与re.compile('(？im)pattern')是等价的。

1.1K5 0

资源 | 十五分钟完成Regex五天任务：FastText，语料库数据快速清理利器

本文介绍的 FastText 是一个开源 Python 库，可用于快速进行大规模语料库的文本搜索与替换。...FlashText 是我在 GitHub 上开源的一个 Python 库，它能高效地提取和替换关键词。...在替换时，它会创建一个新字符串来替换关键词。在搜索时，它会返回一个关键词列表。这一切都将在输入字符串上进行。有的用户是这样评价FastText的： ?...如果每次取出语料库中的一个单词，并检查其在句子中是否出现，这需要四次操作。 is 'Python' in sentence? is 'Java' in sentence? ......Python出现在字典中。由于这是一个字符匹配过程，我们可以轻易地在进行到l 的时候跳过整个like，因为 start 并没有和 l 相连。这使得跳过缺失单词的过程变得非常快。

1.5K11 0

黑科技 | 用Python只花十五分钟完成正则表达式五天任务量

数据清理是很多机器学习任务上我们遇到的首要问题。本文介绍的 FastText 是一个开源 Python 库，可用于快速进行大规模语料库的文本搜索与替换。...FlashText 是我在 GitHub 上开源的一个 Python 库，它能高效地提取和替换关键词。...在替换时，它会创建一个新字符串来替换关键词。在搜索时，它会返回一个关键词列表。这一切都将在输入字符串上进行。...如果每次取出语料库中的一个单词，并检查其在句子中是否出现，这需要四次操作。 is 'Python' in sentence? is 'Java' in sentence......Yes Python出现在字典中。由于这是一个字符匹配过程，我们可以轻易地在进行到l 的时候跳过整个like，因为 start 并没有和 l 相连。这使得跳过缺失单词的过程变得非常快。

1.5K9 0

如何用Python检测视频真伪？

我之前从来没有用Python处理过视频，所以这对我来说有点难度。首次尝试看一个视频就像是在快速地翻看图片，这也是使用python读取视频数据的方式。我们看到的每个"图片"都是视频的一个帧。...如果没有，则把这一帧添加到我已看过的帧字典中（见下面的seenframes）。如果以前看过这一帧，则将它添加到另一个字典（dupframes）的列表中，这个字典包含了其他一模一样的帧。...如果这是第一次看到这一帧，则保存到seen_frames中 seen_frames[hashed] = x dup_frames[hashed] = [x] # 返回重复帧列表的列表...为了找到适合我们的分辨率，我试着在两段类似的视频中通过设置一系列不同的分辨率来寻找匹配项。...返回的匹配项将出现在以下输出中： [8,108] [9,109] [10,11,110,111] 上述的解释是，第8帧和第108帧相同。第9帧和第109帧相同，但不同于8、108。

1.5K3 0

Python爬虫基础知识：Python中的正则表达式教程

3.如果表达式中有量词或边界，这个过程会稍微有一些不同。下图列出了Python支持的正则表达式元字符和语法： 1.2....数量词的贪婪模式与非贪婪模式正则表达式通常用于在文本中查找匹配的字符串。贪婪模式，总是尝试匹配尽可能多的字符；非贪婪模式则相反，总是尝试匹配尽可能少的字符。...Step2：然后使用Pattern实例处理文本并获得匹配结果（一个Match实例）。 Step3：最后使用Match实例获得信息，进行其他的操作。...Pattern Pattern对象是一个编译好的正则表达式，通过Pattern提供的一系列方法可以对文本进行匹配查找。...match()函数只检测re是不是在string的开始位置匹配， search()会扫描整个string查找匹配， match（）只有在0位置匹配成功的话才有返回，如果不是开始位置匹配成功的话，match

8796 0

为了边看美剧边学英语，我写了个字幕处理脚本

观察文本特点，撰写相应的正则表达式。虽然在 Python 中使用正则表达式有几个步骤，但每一步都相当简单。用import re导入正则表达式模块。...用re.compile()函数创建一个Regex对象（记得使用原始字符串）。向Regex对象的search()方法传入想查找的字符串。它返回一个Match对象。...调用Match对象的group()方法，返回实际匹配文本的字符串。常用的匹配规则： ?匹配零次或一次前面的分组。 *匹配零次或多次前面的分组。 +匹配一次或多次前面的分组。...{n}匹配 n 次前面的分组。 {n,}匹配 n 次或更多前面的分组。 {,m}匹配零次到 m 次前面的分组。 {n,m}匹配至少 n 次、至多 m 次前面的分组。 {n,m}?或*?或+?...他和我们很多读者一样，学习 python 的时间并不长，但已经把 python 应用到自己的日常学习生活中，并整理成文投稿给我们，这很值得肯定。在实践中应用和向他人讲解都是非常好的学习方式。

1.3K2 0

Python操作MongoDB看这一篇就够了

在这一节中，我们就来看看Python 3下MongoDB的存储操作。 1. 准备工作在开始之前，请确保已经安装好了MongoDB并启动了其服务，并且安装好了Python的PyMongo库。..._id的集合： [ObjectId('5932a80115c2606a59e8a048'), ObjectId('5932a80115c2606a59e8a049')] 实际上，在PyMongo 3.x...查询插入数据后，我们可以利用find_one()或find()方法进行查询，其中find_one()查询得到的是单个结果，find()则返回一个生成器对象。...例如，查询名字以M开头的学生数据，示例如下： results = collection.find({'name': {'$regex': '^M.*'}}) 这里使用$regex来指定正则匹配，^M....符号含义示例示例含义 $regex 匹配正则表达式 {'name': {'$regex': '^M.*'}} name以M开头 $exists 属性是否存在 {'name': {'$exists'

22.9K36 31

27 个问题，告诉你Python为什么这么设计

Python 的标准实现 CPython 使用引用计数来检测不可访问的对象，并使用另一种机制来收集引用循环，定期执行循环检测算法来查找不可访问的循环并删除所涉及的对象。...虽然列表和元组在许多方面是相似的，但它们的使用方式通常是完全不同的。可以认为元组类似于Pascal记录或C结构；它们是相关数据的小集合，可以是不同类型的数据，可以作为一个组进行操作。...这使得索引列表 a[i] 的操作成本与列表的大小或索引的值无关。当添加或插入项时，将调整引用数组的大小。...并采用了一些巧妙的方法来提高重复添加项的性能; 当数组必须增长时，会分配一些额外的空间，以便在接下来的几次中不需要实际调整大小。字典如何在CPython中实现？...此函数从提供的可迭代列表中创建新列表，对其进行排序并返回。例如，下面是如何迭代遍历字典并按keys排序: for key in sorted(mydict): ...

6.7K1 1

使用 Python 对相似的开始和结束字符单词进行分组

在 Python 中，我们可以使用字典和循环等方法、利用正则表达式和实现列表推导等方法对具有相似统计和结束字符的单词进行分组。该任务涉及分析单词集合并识别共享共同开始和结束字符的单词组。...这在各种自然语言处理应用程序中可能是一种有用的技术，例如文本分类、信息检索和拼写检查。在本文中，我们将探讨这些方法，以在 Python 中对相似的开始和结束字符单词进行分组。...否则，我们将创建一个新列表，将当前单词作为其第一个元素。最后，我们返回生成的组字典。...该函数返回基于指定模式的拆分操作产生的子字符串列表。例在下面的方法中，我们利用 re-module 使用正则表达式匹配每个单词的开头和结尾字符。...如果找到匹配项，我们分别使用 match.group（1）和 match.group（3）提取开始和结束字符。然后，我们按照与方法 1 中类似的过程，根据单词的开头和结尾字符对单词进行分组。

1661 0

django 1.8 官方文档翻译： 1-2-3 编写你的第一个Django应用，第3部分

投票功能 – 为一项给定的民意调查处理投票选项。在 Django 中，网页及其他内容是由视图来展现的。而每个视图就是一个简单的 Python 函数（或方法，对于基于类的视图情况下）。...url() 参数: regex regex 是 regular expression 的简写，这是字符串中的模式匹配的一种语法，在 Django 中就是是 url 匹配模式。...但是，实际上，你并不需要成为一个正则表达式的专家，仅仅需要知道如何捕获简单的模式。事实上，复杂的正则表达式会降低查找性能，因此你不能完全依赖正则表达式的功能。...以下是当用户访问 “/polls/34/” 路径时系统中将发生的事： Django 将寻找 ‘^polls/’ 的匹配接着，Django 截取匹配文本 (“polls/”) 后剩余的文本 – “34/...若返回的是空列表将抛出 Http404 异常。编写一个 404 ( 页面未找到 ) 视图当你在视图中抛出 Http404 时，Django 将载入一个特定的视图来处理 404 错误。

1.8K5 0

使用 Ruby 或 Python 在文件中查找

对于经常使用爬虫的我来说，在大多数文本编辑器都会有“在文件中查找”功能，主要是方便快捷的查找自己说需要的内容，那我有咩有可能用Ruby 或 Python实现类似的查找功能？这些功能又能怎么实现？...问题背景许多流行的文本编辑器都具有“在文件中查找”功能，该功能可以在一个对话框中打开，其中包含以下选项：查找：指定要查找的文本。文件筛选器：指定要搜索的文件类型。开始位置：指定要开始搜索的目录。...有人希望使用 Python 或 Ruby 类来实现类似的功能，以便可以在任何支持 Python 或 Ruby 的平台上从脚本运行此操作。...解决方案Python以下代码提供了在指定目录中搜索特定文本的 Python 脚本示例：import osimport redef find_in_files(search_text, file_filter...regex_search：指定是否使用正则表达式进行搜索。脚本将返回一个包含所有匹配文件的文件名列表，或者如果指定了报告文件名选项，则返回一个包含所有匹配文件的文件名和行号的列表。

991 0

Python 3 中 PyMongo 的用法

MongoDB存储在这里我们来看一下Python3下MongoDB的存储操作，在本节开始之前请确保你已经安装好了MongoDB并启动了其服务，另外安装好了Python的PyMongo库。..._id的集合，运行结果： [ObjectId('5932a80115c2606a59e8a048'), ObjectId('5932a80115c2606a59e8a049')] 实际上在PyMongo...M开头的学生数据，示例如下： results = collection.find({'name': {'$regex': '^M.*'}}) 在这里使用了$regex来指定正则匹配，^M....在这里将一些功能符号再归类如下： | 符号 | 含义 | 示例 | 示例含义 | | --- | ---- | --- | --- | | $regex | 匹配正则 | {'name': {'$regex...，而是需要使用{'$set': student}这样的形式，其返回结果是UpdateResult类型，然后调用matched_count和modified_count属性分别可以获得匹配的数据条数和影响的数据条数

6.3K2 0

高阶实战 | 如何用Python检测伪造的视频

我之前从来没有用Python处理过视频，所以这对我来说有点难度。首次尝试看一个视频就像是在快速地翻看图片，这也是使用python读取视频数据的方式。我们看到的每个“图片”都是视频的一个帧。...如果没有，则把这一帧添加到我已看过的帧字典中(见下面的seen_frames)。如果以前看过这一帧，则将它添加到另一个字典(dup_frames)的列表中，这个字典包含了其他一模一样的帧。...代码如下：这段代码在我的macbook pro上跑了大约一个小时。...为了找到适合我们的分辨率，我试着在两段类似的视频中通过设置一系列不同的分辨率来寻找匹配项。...返回的匹配项将出现在以下输出中： [8,108] [9,109] [10,11,110,111] 上述的解释是，第8帧和第108帧相同。第9帧和第109帧相同，但不同于8、108。

1.4K5 0

Python官方二十七问，你知道个啥？

在 C++ 中，可以通过缺少局部变量声明来判断（假设全局变量很少见或容易识别） —— 但是在 Python 中没有局部变量声明，所以必须查找类定义才能确定。...为什么有单独的元组和列表数据类型？虽然列表和元组在许多方面是相似的，但它们的使用方式通常是完全不同的。...这使得索引列表 a[i] 的操作成本与列表的大小或索引的值无关。当添加或插入项时，将调整引用数组的大小。...并采用了一些巧妙的方法来提高重复添加项的性能; 当数组必须增长时，会分配一些额外的空间，以便在接下来的几次中不需要实际调整大小。 19. 字典如何在 CPython 中实现？...此函数从提供的可迭代列表中创建新列表，对其进行排序并返回。例如，下面是如何迭代遍历字典并按 keys 排序: for key in sorted(mydict): ...

2.5K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭