首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

hanlp自然语言处理包的人名识别代码解析

袁义达在《中国的三大姓氏是如何统计出来的》文献中指出:当代中国100个常见姓氏中,集中了全国人口的87%,根据这一数据我们只保留nr.txt中的100个常见词语的姓氏角色,其他词语去掉其姓氏角色状态。...,各命名实体识别准确率 nr 33% ns 83% nt 43% 姓氏过滤后,各命名实体识别准确率 nr 36% ns 83% nt 81% 这里没有开层叠隐马预测机构名地名,nt上升原因估计是由于很多不是人名的词语没被标为人名...错误识别的人名,100个常用姓氏的不多,很多恐怕是HanLP里其他词表干预进来的。 隐马一般用于分词词性标注是比较好的,为什么通常的序列标注方法也就是BIEO方法直接用到实体识别不合适呢。...但是到了实体识别则不一定,拿人名来说,除了姓氏以外,名字词语部分可以填充的词语是任意的,也就是说任何词语都有可能出现在中间位置,此时发射矩阵中的某些词实际上就没有太大意义了,因为它可能等可能的由BIEO...因此,我们通过引入角色标记,实际上这就引入了先验知识,比如某些字只能由姓氏标记产生,某些字一般情况都充当名字首字,某些字一般情况都充当名字末字,通过给这些不同情况下的字集按照其出现的位置的分布其语法意义做角色定义

88330

自然语言处理工具HanLP-基于层叠HMM地名识别

只有HanLP识别出的人名 除了特别常用姓氏名字识别正确,其他的都识别错误。举例如下: [1] 纳溪区副区长李明带队到“花田酒地”景区检查节前安全工作 “花田酒”被被识别为人名。...非常用姓氏识别出的人名基本错误。...[1] 房产高管薪酬大起底 万科郁亮年薪1189.9万仅排第二 [2] 生生不息 南通支云发布汶川地震十周年海报呼吁赛前默哀 [3] 为什么伊郎不能有he wu qi,而美国有he wu qi?...如果时间不充裕的话,比如我现在的情况,那就只保留常用姓氏,以及特别需要关注的人名了。...不同的实体有不同的角色标注,实际就是特征,这些特征需要有语言学的知识,实际上就是你的阅读量,通过你大量阅读总结经验,比如姓氏可以作为名字的一个特征(张、王、李、赵),常用地名的后缀可以作为一个特征(省、

55150

我用 Python 偷偷查到暗恋女生的名字

下面我们用 Python 实现一个手机号码获取妹子名字的功能。 2 编 写 代 码 首先,我们需要爬取国内最常用的一些姓氏,以百度百科 - 中国姓氏为例。 ?...如果是非好友关系,转账界面对方显示的名字不完全,可以点击「验证按钮」,输入对方的姓氏就能进行确认。 所以,可以遍历上面获取到的姓氏,一个个地去验证。...3 结 果 结 论 拿常用姓氏去一个个验证姓名即可拿到妹子的完整名字。...但是由于支付宝对接口的限制,一个账号每天只能有 10+ 次试错的机会;因此,如果妹子的姓氏不是那么常见,可以需要试错多次才能拿到妹子的名字。 如果你觉得文章还不错,请大家点赞分享下。...你的肯定是我最大的鼓励支持。

4.5K10

我用 Python 偷偷查到暗恋女生的名字

下面我们用 Python 实现一个手机号码获取妹子名字的功能。 2 编 写 代 码 首先,我们需要爬取国内最常用的一些姓氏,以百度百科 - 中国姓氏为例。 ?...如果是非好友关系,转账界面对方显示的名字不完全,可以点击「验证按钮」,输入对方的姓氏就能进行确认。 所以,可以遍历上面获取到的姓氏,一个个地去验证。...'com.alipay.mobile.antui:id/message', text=u'姓名账户不匹配,为避免转错账,请核对') btn_ensure = self.poco('com.alipay.mobile.antui...3 结 果 结 论 拿常用姓氏去一个个验证姓名即可拿到妹子的完整名字。...但是由于支付宝对接口的限制,一个账号每天只能有 10+ 次试错的机会;因此,如果妹子的姓氏不是那么常见,可以需要试错多次才能拿到妹子的名字

57920

我用 Python 偷偷查到暗恋女生的名字

下面我们用 Python 实现一个手机号码获取妹子名字的功能。 2 编 写 代 码 首先,我们需要爬取国内最常用的一些姓氏,以百度百科 - 中国姓氏为例。 ?...如果是非好友关系,转账界面对方显示的名字不完全,可以点击「验证按钮」,输入对方的姓氏就能进行确认。 所以,可以遍历上面获取到的姓氏,一个个地去验证。...3 结 果 结 论 拿常用姓氏去一个个验证姓名即可拿到妹子的完整名字。...但是由于支付宝对接口的限制,一个账号每天只能有 10+ 次试错的机会;因此,如果妹子的姓氏不是那么常见,可以需要试错多次才能拿到妹子的名字。 如果你觉得文章还不错,请大家点赞分享下。...你的肯定是我最大的鼓励支持。 我已经将全部源码上传到后台上,关注公众号后回复「你的名字」即可获得下载链接。

58430

数据揭秘:中国姓氏排行榜

先来看覃(qin,第二声):“覃”的本意为有盖的酒坛,最早的“覃”人以酿酒制作酒具形成氏族。...但从迁徙图上来看,大概是四川太过“安逸”,何姓族人较少从四川迁出;而广东长三角地区的何姓则活跃得多。 以上涉及到的姓氏,廉、朴、覃、麦等,都是一些自带逼格的小姓。...于是,我们设计了第四个指数: 4.装逼指数 装逼指数=名字长度在4字或以上的人口数量占该姓氏人口数量的比例。 严格来说,装逼指数最高的其实是“欧阳”“诸葛”。...但考虑到复姓少数民族姓氏的逼格并不是装出来的,我们只好排除掉这些本来就很有逼格的姓氏,只看单字大姓TOP20的装逼情况: 显然,“马”姓的装逼指数甩第二名的“高”“周”一大截,这大概归功于马姓有天然的装逼优势...5.风雅指数 风雅指数=名字中不包括“取名用字频率TOP1000”的人数占该姓氏总人数的比例。 风雅指数最高的10个姓为: 的确,“程”姓有不少非常风雅的名字:程灵素、程蝶衣。

1.9K100

JAVA - 面向对象

你有名字姓氏。你所有的朋友都认识他们但他们没有能力更改您的名字姓氏。我们可以说,这样做的过程是由法院系统"封装"的:你只能通过法院书记员更改你的姓,只有你能做到。...其他"用户"可以"仅读"访问您的姓名姓氏:)另一个说明性的例子是家里存放的现金。把它放在房间中间的视线中不是个好主意。任何"用户"(来你家的人)都可以改变你的钱,即他们可以拿走你的钱。...创建一个带有单种方法两个子类的类-。 现在,我们将尝试声明一个参考变量并分配一个对象。 你认为什么方法会被称为? 或?班里的方法叫:*狼!*我们创建了一个参考,但对象的行为就像一个。...为什么***OOP***甚至会作为一个新的编程概念出现?程序员有功能的工具,如程序语言。是什么促使他们发明了一些全新的东西?最重要的是,他们面临的任务的复杂性。...也就是说,使用类对象来描述它是很容易的。显然,我们需要几个类:游戏,跟踪者,结束,玩家决定,游戏事件,等等。换句话说,即使没有开始解决问题,我们也可以很容易地"勾勒"我们头脑中的解决方案。

57810

中国姓氏大数据,看看你本家的牛逼指数抱团指数

先来看覃(qin,第二声):“覃”的本意为有盖的酒坛,最早的“覃”人以酿酒制作酒具形成氏族。...但从迁徙图上来看,大概是四川太过“安逸”,何姓族人较少从四川迁出;而广东长三角地区的何姓则活跃得多。 以上涉及到的姓氏,廉、朴、覃、麦等,都是一些自带逼格的小姓。...于是,我们设计了第四个指数: 4、装逼指数 装逼指数=名字长度在4字或以上的人口数量占该姓氏人口数量的比例。 严格来说,装逼指数最高的其实是“欧阳”“诸葛”。...但考虑到复姓少数民族姓氏的逼格并不是装出来的,我们只好排除掉这些本来就很有逼格的姓氏,只看单字大姓TOP20的装逼情况: 显然,“马”姓的装逼指数甩第二名的“高”“周”一大截,这大概归功于马姓有天然的装逼优势...5、风雅指数 风雅指数=名字中不包括“取名用字频率TOP1000”的人数占该姓氏总人数的比例。 风雅指数最高的10个姓为: 的确,“程”姓有不少非常风雅的名字:程灵素、程蝶衣。

1.2K30

我用 Python 偷偷查到暗恋女生的名字

1 目 标 场 景 不知道你有没有经历过这样一个场景,好不容易拿到一个妹子的手机号,但是又不好意思去搭讪,问一下对方的名字。...下面我们用 Python 实现一个手机号码获取妹子名字的功能。 2 编 写 代 码 首先,我们需要爬取国内最常用的一些姓氏,以百度百科 - 中国姓氏为例。 ?...如果是非好友关系,转账界面对方显示的名字不完全,可以点击「验证按钮」,输入对方的姓氏就能进行确认。 所以,可以遍历上面获取到的姓氏,一个个地去验证。...# 点击确认按钮,开始验证 self.poco('com.alipay.mobile.antui:id/ensure').click() 另外,转账页面可以先利用界面元素拿到妹子不包含姓氏名字...'com.alipay.mobile.antui:id/message', text=u'姓名账户不匹配,为避免转错账,请核对') btn_ensure = self.poco('com.alipay.mobile.antui

48820

从邮件地址中提取姓名,我的超级公式,有这么复杂么?

标签:Excel公式练习 这是一个有趣的题目,假设电子邮件地址的格式如下: 名字任何非字母.字符姓氏@email.com 说明: 1.假设姓名中只有英文字母。...2.电子邮件地址只包含名字_分隔符_姓氏,没有中间名或其他前缀或后缀等。 3.电子邮件地址在单元格A1中。...5.在单元格C1D1中,是需要提取的名字姓氏。 示例数据如下图1所示。 图1 注:示例数据来源于chandoo.org。...利用提取出的名字,去掉前面的名字部分,然后按相同的思路,提取姓氏。...假设上面提取名字的公式在单元格I12,则提取姓氏的公式为: =TRIM(MID(MID(B4,LEN(I12)+1,FIND("@",B4)-LEN(I12)-1),MATCH(1,(CODE(MID(

1.9K30

Java之面向对象思想

你有名字姓氏。你所有的朋友都认识他们但他们没有能力更改您的名字姓氏。我们可以说,这样做的过程是由法院系统"封装"的:你只能通过法院书记员更改你的姓,只有你能做到。...其他"用户"可以"仅读"访问您的姓名姓氏:)另一个说明性的例子是家里存放的现金。把它放在房间中间的视线中不是个好主意。任何"用户"(来你家的人)都可以改变你的钱,即他们可以拿走你的钱。...创建一个带有单种方法两个子类的类-。 现在,我们将尝试声明一个参考变量并分配一个对象。 你认为什么方法会被称为? 或?班里的方法叫:_狼!_我们创建了一个参考,但对象的行为就像一个。...为什么_OOP_甚至会作为一个新的编程概念出现?程序员有功能的工具,如程序语言。是什么促使他们发明了一些全新的东西?最重要的是,他们面临的任务的复杂性。...也就是说,使用类对象来描述它是很容易的。显然,我们需要几个类:游戏,跟踪者,结束,玩家决定,游戏事件,等等。换句话说,即使没有开始解决问题,我们也可以很容易地"勾勒"我们头脑中的解决方案。

25620

Java之面向对象思想

你有名字姓氏。你所有的朋友都认识他们但他们没有能力更改您的名字姓氏。我们可以说,这样做的过程是由法院系统"封装"的:你只能通过法院书记员更改你的姓,只有你能做到。...其他"用户"可以"仅读"访问您的姓名姓氏:)另一个说明性的例子是家里存放的现金。把它放在房间中间的视线中不是个好主意。任何"用户"(来你家的人)都可以改变你的钱,即他们可以拿走你的钱。...创建一个带有单种方法两个子类的类-。 现在,我们将尝试声明一个参考变量并分配一个对象。 你认为什么方法会被称为? 或?班里的方法叫:狼!我们创建了一个参考,但对象的行为就像一个。...为什么OOP甚至会作为一个新的编程概念出现?程序员有功能的工具,如程序语言。是什么促使他们发明了一些全新的东西?最重要的是,他们面临的任务的复杂性。...也就是说,使用类对象来描述它是很容易的。显然,我们需要几个类:游戏,跟踪者,结束,玩家决定,游戏事件,等等。换句话说,即使没有开始解决问题,我们也可以很容易地"勾勒"我们头脑中的解决方案。

32500

单列文本拆分为多列,Python可以自动化

示例文件包含两列,一个人的姓名出生日期。 图2 我们的任务如下: 1.把名字姓氏分开 2.将出生日期拆分为年、月日 让我们将数据加载到Python中。...后续我们会讨论为什么它要快得多。 一旦我们将Excel表加载到pandas中,整个表将成为pandas数据框架,“出生日期”列将成为pandas系列。...我们可以使用Python字符串切片来获取年、月日。字符串本质上类似于元组,我们可以对字符串使用相同的列表切片技术。看看下面的例子。...让我们在“姓名”列中尝试一下,以获得名字姓氏。 图7 拆分是成功的,但是当我们检查数据类型时,它似乎是一个pandas系列,每行是包含两个单词的列表。...现在,我们可以轻松地将文本拆分为不同的列: df['名字'] = df['姓名'].str.split(',',expand=True)[1] df['姓氏'] = df['姓名'].str.split

6.9K10

jq tmpl输出编码html,jQuery tmpl 讲解「建议收藏」

jQuery的一个类库 (2)一个轻量级的前端模板引擎(vue.js也是一种前端模板引擎) (3)可以在模板中实现逻辑运算 2、jQuery-tmpl的语法 (1)占位:${变量}或{ {= 变量}} 注:=变量之间一定要有空格...(2)循环 { {each(i,obj) objs}}…{ {/each}} (3)选择 { {if 条件}}… { {else 条件}}… { {else}}… { {/if}} 3、为什么选择...2.名字中含生僻字可直接输入拼音代替。例:“王鬳”可输入为“王 yan”或者“王-yan”。 3.姓名中不可含有称谓等词语,如:小姐、先生、太太、夫人等。...3.英文名字的长度不可超过 26 个字符,如名字过长请使用缩写,乘客的姓氏不能缩写,名可以缩写。姓氏中如包括空格请在输入时删掉空格。 4.英文姓名不可少于 2 个英文单词。

1.5K20

Pytorch | RNN分类姓氏

Author:By Runsen 原文:https://maoli.blog.csdn.net/article/details/104436267 11.2 Pytorch 11.2.5 RNN分类姓氏...(name),我们将建立训练一个基本的字符级RNN进行分类单词,最后的预测作为输出,即判断哪里姓氏属于哪个国家。...,我们需要从Unicode转换为ASCII码,构造category_lines字典,key储存国家名字,value储存姓氏,all_categories列表储存数据集中的所有国家名字。..., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]) torch.Size([6, 1, 52]) 建立模型,2个Linear线性层,在输入隐藏状态下运行...同时将 train函数返回输出损失,打印其猜测并绘制损失 import time import math n_iters = 100000 #迭代次数 print_every = 5000 #每隔5000

86111

第一胎都还没有,我就用Python早早的帮第三胎起好名了

当然这不是我们想要的,直接用name方法生成的姓名不分性别、姓氏的,所以要用到其它方法。 first_name_male()为男性名,first_name_female()为女性名。...这两个方法它只生成名,不生成姓,所以使用时加上姓氏即可: fk.first_name_male() fk.first_name_female() ?...chinesename chinesename库是专门为了生成中文名而出现的,所以功能比较完善,而用法也很简单;其中里面包含有《百家姓》姓氏504个,常用于名字的汉字2812个名字汉字中含有大量《楚辞》...,为数值类型;char_count为名字长度,为数值类型,按照法律,姓名要在两个汉字以上、六个汉字以下,如果真正起名的时候要注意输入的数字;lastname为姓氏,为字符串类型;sex为性别,只包含boy...girl为字符串类型。

79640
领券