首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自然语言处理指南(第1部分)

你想要 你要看 将类似的词分组以搜索 词干提取;分词;文档分析 查找具有相似含义的词语以搜索 潜在语义分析 生成名称 词汇拆分 估计阅读文本需要多长时间 阅读时间 估计一段文本阅读的难度 文本可读性 识别文本的语言...本指南的结构 我们按要完成的任务组织文章结构 ——这意味着工具及其解释按照它们所适用的任务进行分组。例如,有一节是关于度量文本某种属性(比如它的难度)的。...这是很有用的,因为如果用户搜索包含“朋友(friend)”这个词的文档,他们很可能也包含“友谊(friendship)”、“交友(friended)”和“好友(friends)”的文档感兴趣。...举例: confrontational的 R1 区域为-frontational R1 区完全包含了-tional confrontational变成了confrontation 波特词干提取器是纯算法的...一般而言,你搜索项进行上述处理,然后比较输入的 n 元模型与文档中的某个词二者的出现次数。

1.6K80

正则表达式入门 — 一个通过例子来说明的备忘单

正则表达式(regex 或 regexp)在通过搜索特定搜索模式的一个或多个匹配(即 ASCII 或 unicode 字符的特定序列)从任何文本中提取信息时非常有用。...如果我们选择为组添加名称(使用( ? ...)),我们将能够使用匹配结果检索组值,如字典,其中字典的名称就是刚才添加的名称。....)捕获分组相同的文本 -> [试一下!]...(https://regex101.com/r/cO8lqs/15) (?[abc])\k 我们将分组名称命名为`foo` 并随后使用 `(\k)` 来进行引用。...: 数据验证 (比如检查一个时间字符串 i 的格式是正确的) 数据抓取(特别是网页抓取,最终按特定顺序查找包含特定单词集的所有页面) 数据转换(将数据从“原始”转换为另一种格式) 字符串解析(例如捕获所有

1.8K20
您找到你想要的搜索结果了吗?
是的
没有找到

UNIX 高手的 10 个习惯

6、在列表中命令分组。 7、在 find 之外使用 xargs。 8、了解何时 grep 应该执行计数——何时应该绕过。 9、匹配输出中的某些字段,而不只是进行匹配。...类似地,如果您直接在字母数字文本后面使用变量名称,则还要确保将该变量名称包括在方括号 ([]) 中,以使其与周围的文本区分开来。...这些计数方法仅提供包含匹配模式的行数——如果那就是您要查找的结果,这没什么问题。但是在行中具有某个特定模式的多个实例的情况下,这些方法无法为您提供实际匹配实例数量 的真实计数。...Dec 14 14:26 archive.tar ~/tmp $ 在此示例中,grep 进行筛选,并输出修改日期和名称中带 Dec 的所有文件。...为了匹配特定字段中的模式,最好使用 awk,其中的一个关系运算符确切的字段进行匹配,如以下示例所示: 清单 20.

1.1K90

Python正则re模块学习笔记

君子论迹不论心,论心世上无完人 ---- re正则处理 正则定义 正则表达式是字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”...,如果分隔符中有捕获组并且它在字符串的开头或者结尾匹配,结果将以空字符串开头。...\d*") match对象 match.group([ group1,… ] ) 返回匹配的一个或多个子组,如果只有一个参数,结果为单个字符串; 如果有多个参数,结果是一个元组,每个参数有一个项目。...>>> s.group(1)'hello'>>> s.group(2)'world'>>> s.group(1,0) ('hello', 'hello world') 如果分组太多,我们可以对分组进行命名...3 match.lastgroup 最后匹配到的分组名称,没有命名组返回空 >>> m=re.match(r'(\w+) (?

58240

pandas基础:使用Python pandas Groupby函数汇总数据,获得对数据更好地理解

import pandas as pd df =pd.read_csv(r'D:\cc_statement.csv', parse_dates=['Transaction Date']) 如果我们现在不指定这个...在下面的示例中,我们首先按星期几对数据进行分组,然后指定要查看的列——“Debit(借方)”,最后对分组数据的“Debit”列执行操作:计数或求和。...如果只是将其打印出来,很难想象该对象是什么: 图9 好消息是,我们可以迭代GroupBy对象来查看其中的内容。完整的输出太长,所以这里只显示其中一些: 图10 注意到这个项目周围的括号了吗?...在元组中,第一个元素是类别名称,第二个元素是属于特定类别的子集数据。因此,这是拆分步骤。 我们也可以使用内置属性或方法访问拆分的数据集,而不是进行迭代。...然而,.loc方法一次只执行一个操作,而groupby方法自动每个组应用相同的操作。 图15 如果我们要使用.loc方法复制split&apply过程,如下所示。

4.3K50

Linux操作的10个好习惯

在列表中命令分组。  在 find 之外使用 xargs。  了解何时 grep 应该执行计数——何时应该绕过。  匹配输出中的某些字段,而不只是进行匹配。 ...类似地,如果您直接在字母数字文本后面使用变量名称,则还要确保将该变量名称包括在方括号 ([]) 中,以使其与周围的文本区分开来。...这些计数方法仅提供包含匹配模式的行数——如果那就是您要查找的结果,这没什么问题。但是在行中具有某个特定模式的多个实例的情况下,这些方法无法为您提供实际匹配实例数量 的真实计数。...Dec 14 14:26 archive.tar ~/tmp $ 在此示例中,grep 进行筛选,并输出修改日期和名称中带 Dec 的所有文件。...为了匹配特定字段中的模式,最好使用 awk,其中的一个关系运算符确切的字段进行匹配,如以下示例所示: 清单 20.

99730

代码之美,正则之道

如果中括号中包含元字符, 元字符降级为普通字符, 不再具有元字符的功能, 如 [+.?] 匹配 加号, 点号或问号. 排除性字符组 [^…] 匹配任何未列出的字符,....比如匹配一个配对出现的div, 方案一可能会匹配到很多的div标签, 而方案二只会匹配一个div标签....捕获性分组会创建反向引用, 每个反向引用都由一个编号或名称来标识, js中主要是通过 $+编号 或者 \+编号 表示法进行引用. 如下便是一个捕获性分组的例子....…) 命名分组也是捕获性分组, 它将匹配的字符串捕获到一个组名称或编号名称中, 在获得匹配结果后, 可通过分组进行获取. 如下是一个python的命名分组的例子....如果该对象是Number类型, 那么将返回该数值的按照特定符号分割的字符串形式.

1.2K30

代码之美,正则之道

如果中括号中包含元字符, 元字符降级为普通字符, 不再具有元字符的功能, 如 [+.?] 匹配 加号, 点号或问号. 排除性字符组 [^…] 匹配任何未列出的字符,....捕获性分组会创建反向引用, 每个反向引用都由一个编号或名称来标识, js中主要是通过 $+编号 或者 \+编号 表示法进行引用....…) 命名分组也是捕获性分组, 它将匹配的字符串捕获到一个组名称或编号名称中, 在获得匹配结果后, 可通过分组进行获取....(如果是捕获性分组, python通过”\g”表示法进行引用) 与python不同的是, javaScript 中并不支持命名分组. 固化分组 固化分组, 又叫原子组. 语法: (?...如果该对象是Number类型, 那么将返回该数值的按照特定符号分割的字符串形式.

1.8K20

PDF Explained(翻译)第七章 文档元数据和导航

XML元数据: 流数据,包含特定格式的XML文件,一些与文档信息字典相同的元数据,以及其他字段。 文件附件:允许像电子邮件附件那将将整个文件封装在文档中。...每个条目由文本和用来描述跳转链接的定位构成。 定位(Destinations) 定位定义了PDF文档中的一个位置,由三部分组成,包括页码,页内位置以及显示缩放比率。...定位可以被精确的定义,也可以通过名称引用进行定义。书签通常显示在文档旁边。 定位是使用数组对象定义的,内容取决于定位的类型。...如果存在任何文档大纲条目,必需 /Last 间接引用字典 文档大纲中最后一个顶级项的大纲项字典。如果存在任何文档大纲条目,必需 /Count 整数 打开的大纲条目数。...键 值类型 值 /Type 名称 如果存在,必须是/Annot /Subtype* 名称 该注释的类型 /Rect* 矩形 注释的位置和大小,默认用户空间单位 /Contents 文本字串 此注释的文本内容

1K20

正则表达式必知必会 - 反向引用

二、反向引用匹配         先来看一个比较简单的例子,这个问题如果不使用反向引用,根本无法解决。假设你有一段文本,想把这段文本里所有连续重复出现的单词找出来。...理解反向引用的最好方法就是看看它的实际应用,下面这段文本包含 3 组重复的单词。...该子表达式并不是用来进行重复匹配的,它只是模式分组,将其标识出来以备后用。模式最后一部分是 \1,这是前面那个子表达式的反向引用,\1 匹配的内容与第一个分组匹配的内容一样。...[1-6]) [1-6] 的分组命名为 n ,然后可以用 \k 再次使用该分组,MySQL 只支持 \k 这一种重用捕获分组的语法。...在一个正则表达式中不能使用 ${分组名} 进行引用。 三、替换操作         搜索,也就是在一段文本里查找特定的内容,可能是正则表达式最常干的事,但并不是它的全部功能。

29950

前端进阶必须知道的正则表达式知识

简介 正则表达式(Regular Expression) 是字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达字符串的一种过滤逻辑...如果不希望捕获某些分组,在分组内加上 ?...举个栗子,密码应用以下限制:长度必须介于 4 到 8 个字符之间,并且必须至少包含一个数字,正则是 /^(?=....数组索引1,2..n:括号中的分组捕获 index:属性是匹配文本的第一个字符的位置 input:存放被检索的字符串 要注意的是: exec()永远只返回一个匹配项(指匹配整个正则的) 如果设置了g修饰符...g匹配出所有匹配的数组,如果不是,出第一个匹配的字符串,以及相应的捕获内容 String.prototype. replace (reg, str | num | function) 找到匹配并替换

68820

【AI工具】 一款多SOTA模型集成的高精度自动标注工具(直接安装使用,附源码)

简介 X-AnyLabeling 是一款全新的交互式自动标注工具,基于AnyLabeling进行构建和二次开发,在此基础上扩展并支持了许多的模型和功能,并借助Segment Anything和YOLO...使用 11M 图像和 1B 分割掩码进行训练,它可以在不针对特定对象进行训练的情况下分割图像中的对象。...第一个版本支持以下标签工具: 图像文本标签 用户可以切换到编辑模式并更新图像的文本——可以是图像名称或图像描述。...文本检测标签 当用户创建新对象并切换到编辑模式时,可以更新对象的文本文本分组 想象一下,当使用 KIE(键信息提取)时,需要将文本分组到不同的字段中,包含标题和值。...我们主要讲解下如何加载自定义模型,这将使你能够使用自己的模型进行自动标记。如果你有一个已根据自己的数据训练过的自定义模型并希望将其用于自动标记,这将非常有用。

64230

C++ 与正则表达式

如果是想使用这两个字符本身,需要对它们进行转义。 在[]内部,通过[:xxx:]来描述字符类的名称。 []中可以通过^表示否定,即:字符类的反面。...该函数遍历字符串,每次取出一个字符然后用正则表达式进行匹配,如果匹配上,输出该字符。逐个遍历字符串的方式并不是非常好,在后文中我们将看到更好的方法。...我们将这段文字保存在名称为content.txt的文本文件中。下面几个示例会在这个文本上操作。...依次读取文本文件中的每一行 通过正则表达式迭代器从文本行的逐个匹配 迭代器的末尾 迭代器遍历 每遇到一个匹配进行一次计数 如果需要,可以输出匹配的内容 这段代码输出如下: It contains 153...锚点 锚点是一类特殊的标记,它们不会匹配任何文本内容,而是寻找特定的标记。你可以简单理解为它是原先表达式的基础上增加了新的匹配条件。如果条件不满足,则无法完成匹配。

2.6K20

正则表达式Python_python正则表达式匹配字符串

替换 查找字符串中符合正则表达式的文本,并用相应的字符串替换 分割 使用正则表达式字符串进行分割。...(三)正则表达式对象的常用方法 rx.findall(s,start, end): 返回一个列表,如果正则表达式中没有分组列表中包含的是所有匹配的内容, 如果正则表达式中有分组列表中的每个元素是一个元组...,元组中包含分组中匹配到的内容,但是没有返回整个正则表达式匹配的内容 rx.finditer(s, start, end): 返回一个可迭代对象 可迭代对象进行迭代,每一次返回一个匹配对象...rx.split(s, m): 分割字符串,返回一个列表,用正则表达式匹配到的内容字符串进行分割 如果正则表达式中存在分组分组匹配到的内容放在列表中每两个分割的中间作为列表的一部分,如:...包含所有捕获到内容的子分组,从1开始,如果指定了default值,这个值作为那些没有捕获到内容的组的值 m.lastgroup() 匹配到内容的编号最高的捕获组的名称如果没有或者没有使用名称返回

1.1K30

python3正则表达式的几个高级用法

例如,采用爬虫技术取得网页后,网页内任何数据进行提取分析 2、 各类配置文件 可能是属性文件,读取属性文件中的键值...10个,这个人属于贪婪,就是在不犯错时,每次取最多 如果有的人每次都领取1个,这个人属于不贪婪,就是在不犯错时,每次取最少 2、 正则表达式的贪婪与非贪婪定义...,所以本段内容匹配、消耗、不捕获 3) mypattern有无分组,即圆括号,结果是一样的 4) 实际测试时,如果mypattern有圆括号,此时的前置颠到效果与加入(?...=)",str) #前置与后置颠倒时,只匹配、不捕获,可以理解为后置己经参与前面一个正则的捕获了,而前置放在后面,前面来说,不捕获结果 #结果是:['学习大数据bigData...:pattern)不参与分组,但后面无分组时,参与消耗 s1 = re.findall(r"(?:)(?P.+?)(?

1.2K00

网络爬虫 | 正则表达式

如果字符串中没有找到该正则表达式模式,search()方法将返回None。如果找到了该模式,search()方法将返回一个match。...(\d\d\d)-(\d\d\d-\d\d\d\d),然后可以使用group()匹配对象方法,从一个分组中获取匹配的文本。第一括号是第1组。第二括号是第2组。...例如,正则表达式r'Jim|云朵'将匹配'Jim'或'云朵'。如果都出现在被查找的字符串中,匹配第一次出现的文本。...+(加号)意味着"匹配一次或多次"。星号不要求分组出现在匹配的字符串中,但加号不同,加号前面的分组必须"至少出现一次"。...如果想要一个分组重复特定次数,就在正则表达式中该分组的后面,跟上花括号包围的数字。

1.2K30

Golang(四)正则表达式使用

等的含义 (默认为 false) 1.5 位置标记  ^ 如果标记 m=true 匹配行首,否则匹配整个文本的开头(m 默认为 false)...$ 如果标记 m=true 匹配行尾,否则匹配整个文本的结尾(m 默认为 false) \A 匹配整个文本的开头,忽略 m 标记...所匹配的子串 // pattern:要查找的正则表达式 // r:要在其中进行查找的 RuneReader 接口 // matched:返回是否找到匹配项 // err:返回查找过程中遇到的任何错误...------------------ // 判断在 s 中能否找到正则表达式 pattern 所匹配的子串 // pattern:要查找的正则表达式 // r:要在其中进行查找的字符串 // matched...,未命名的分组返回空字符串 // 返回值[0] 为整个正则表达式的名称 // 返回值[1] 是分组 1 的名称 // 返回值[2] 是分组 2 的名称 // …… func (re *Regexp) SubexpNames

3.2K30

一篇搞定Python正则表达式

获取正则表达式来提取字符串中符合要求的文本     3. 替换查找字符串中符合正则表达式的文本,并用相应的字符串替换     4. 分割使用正则表达式字符串进行分割。...2.3 正则表达式对象的常用方法     1. rx.findall(s,start, end):       返回一个列表,如果正则表达式中没有分组列表中包含的是所有匹配的内容,       如果正则表达式中有分组...模块方法re.sub(r, x, s, m)中的x可以使用一个函数。此时我们就可以对捕获到的内容推过这个函数进行处理后再替换匹配到的文本。     ...7. rx.split(s, m):分割字符串       返回一个列表       用正则表达式匹配到的内容字符串进行分割       如果正则表达式中存在分组分组匹配到的内容放在列表中每两个分割的中间作为列表的一部分...包含所有捕获到内容的子分组,从1开始,如果指定了default值,这个值作为那些没有捕获到内容的组的值     04. m.lastgroup()       匹配到内容的编号最高的捕获组的名称如果没有或者没有使用名称返回

73731

Python正则表达式很难?一篇文章搞定他,不是我吹!

获取正则表达式来提取字符串中符合要求的文本 3. 替换查找字符串中符合正则表达式的文本,并用相应的字符串替换 4. 分割使用正则表达式字符串进行分割。...2.3 正则表达式对象的常用方法 1. rx.findall(s,start, end): 返回一个列表,如果正则表达式中没有分组列表中包含的是所有匹配的内容, 如果正则表达式中有分组列表中的每个元素是一个元组...,元组中包含分组中匹配到的内容,但是没有返回整个正则表达式匹配的内容 2. rx.finditer(s, start, end): 返回一个可迭代对象 可迭代对象进行迭代,每一次返回一个匹配对象,可以调用匹配对象的...7. rx.split(s, m):分割字符串 返回一个列表 用正则表达式匹配到的内容字符串进行分割 如果正则表达式中存在分组分组匹配到的内容放在列表中每两个分割的中间作为列表的一部分,如: rx...包含所有捕获到内容的子分组,从1开始,如果指定了default值,这个值作为那些没有捕获到内容的组的值 04. m.lastgroup() 匹配到内容的编号最高的捕获组的名称如果没有或者没有使用名称返回

11610
领券