一、前言 终于做出这张图时,我突然有点感慨,这就是2017年我的日记中提到过或记录过的一个个人名,当然为避免引起不必要的麻烦,隐去了许多亲人朋友的名字。...2018年已经过去了一周,很多人该总结、该回顾2017年的想来也都总结回顾了,没有总结习惯的就继续过自己新的一年。...二、提取人名 首先为了获取文本中出现的人名,根据这篇文章《从天龙八部小说衍生出的google语义分析与gephi社交网络》里提供的思路,用jieba中文分词Python库尝试从日记文本中提取出TF/IDF...实现的代码可参考提取《釜山行》人物关系的代码,可根据自己的需求进行更改。 ? 运用到自己的文本上,并生成后续用于gephi可视化的“节点”和“边”文件,同样需要剔除非人名的数据。节点格式如下: ?...在大部分较常规的联系之中,存在着“贺龙”与“贺知章”这一蛮奇特的关联,思索了几秒后,才想起曾有人询问取名、赐名的一桩旧事,倒也有趣,不过说来至今不知道贺姓名人还有哪些,大看到的小伙伴可以说说,并试着为贺姓小男孩取个你觉得不错的名字呗
, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗, 限制手机号码位数等等。...hidden_size self.input_size = input_size self.output_size = output_size # RNN的输入数据通常被组织为形状为...category = random.choice(all_categories) # 然后在通过category_lines字典取category类别对应的名字列表 # 之后再从列表中随机取一个名字...current_loss += loss # 如果迭代数能够整除打印间隔 if iter % print_every == 0: # 取该迭代步上的...: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗
对英文字幕中的每个句子进行转换和分解,分解成词汇,然后用分解出的词汇和用户词汇表进行比对,如果发现是用户认识的单词,那么就忽略,如果是用户不认识的单词,那么就查询字典(默认采用的是维科英汉词典10W词汇,基本满足日常词汇需要),得到该单词的中文解释...2.如何知道一个词是人名/地名。 在美剧中必然会大量的出现人名地名啥的,如果人名本身没有其他意义那还好说系统会忽略,但是如果人名有其他意义就会对整个句子的意思造成影响。...3.对于一词多性多义,怎么判断取哪个意义。 有些单词既可以做动词用,也可以做名词用,当名词时和动词时的意思完全不一样,这是一个问题。...一个是看是否变形,如果是booking或者booked,那么这是动词的变形,所以必然取动词的解释:预定。 二是看前后单词的词性,如果book的前面是adj.那么这里的book就是名词。...4.对于一词多义,而且词性还相同,那怎么取。 这个有难度,我程序没办法解决,把每个意义都列出来,让用户根据上下文,自己选择。
示例数据 如图2所示,在列A中输入人名,在列B中输入随机数。即在单元格B2中输入: =RAND() 向下拖拉至数据末尾单元格。 图2 将数据转换成表,并命名为:tblNames。...将表中列A命名为:listNames(即,=tblNames[姓名]);列B命名为:listRandnum(即,=tblNames[随机数])。...该公式根据输入的数量生成连续序号。...该公式很好理解,即根据列D中的数字查找相应的随机数位置,从而在人名列提取相应的名字。
在 Demo 环境下可以使用 Stanford 系统,在大规模数据环境下不适合使用该系统。 GPWS 系统 GPWS 是北京语言大学语言信息处理研究所研发的分词系统,2001 年对外发布。...GPWS 可以实现中文人名、外国人名、日本人名的识别,其它分词系统几乎都没有做到这个程度;对通用领域的文本切分效果较好,支持自定义词典;很少出现切分“离谱”的情况。该系统适合大规模数据处理的场景。...歧义问题在分词中不是罪严重的问题,仅占分词错误数的 10% 左右。...图3.jpg 分词错误的主要来源 未登录词 - 不在词典中的词,该问题在文本中出现频度远远高于歧义。 未登录词的类型包括:人名、地名、机构名、公司名、数字、日期、专业术语、新词、产品名等。...理论解决方案的问题 训练数据规模有限 北大人民日报的原始语料的词语数为 2800 万;CTB9.0 词语数为 200 万;国家语委数据为 5000 万字。 标注语料是一个非常消耗人力的事情。
进而,在接下来的运营推广中,可以根据排名进行曝光资源、推广资源的灵活调度。...该技术为本文弹幕分析中,选手热度排名分析依赖的核心算法模块。 既然是标注,很容易想到基于规则,对人工标注库进行匹配的方法。...基于该假设,通过命名实体识别标注出弹幕中的人名后,计算各个人名共同出现的频率,并把弹幕点赞数作为人物关系值加权。将这样的关系链用图数据库进行可视化展示,相关的联系便可一目了然。 3. ...3.2 节目高潮和低谷分析 同样以明子第三期为例,统计汇总各5分钟时段的弹幕数,可得到该期节目的弹幕数量随视频进度变化的分布图。 ?...3.6 热门关系链话题分析 从“人名在同一条弹幕文本中被提及,则认为存在关系链话题”这一假设出发,提取弹幕中的人名共同出现次数,及对应弹幕累积点赞数,并将相关信息进行可视化。最终效果呈现如下。 ?
如图1所示,查找表在单元格区域F1:G6,根据列C中的成绩查找相应的等级。 ? 图1 单元格D2中的公式为: =VLOOKUP(C2,F2:G6,2,TRUE) 向下复制至单元格D5。...示例2:查找列按升序排列且执行精确查找 如下图2所示,列表中有一系列日期相对应的人名,现在想要选择日期后获取该日期对应的人名。 ?...如下图4所示,这是一列杂乱无章的数据,其中包含数字、错误、文本和空白单元格。 ?...图4 示例中列C最后一个数字是123,下面的公式会找到该数: =VLOOKUP(BIGNUM,C:C,1,TRUE) 如下图5所示。 ?...图5 公式中,BIGNUM是关键,它必须比该列中可能出现的数都要大。
提出的 “人名 - 描述问答” 数据集,该数据集使用 GPT-4 编造了若干人名和对应的描述,人名和描述都是独一无二的。...prompt 模型训练集 “NameToDescription” 部分涉及到的描述,让模型回答相应的人名 该研究在此数据集上对 Llama 和 GLM 按照各自的预训练目标(Llama 用 NTP 目标...该研究提出的解决方法非常简单,规定: 当 时,无需对内积计算做任何修改;当 n > m,通过引入一个新的旋转矩阵 来计算。 是将旋转矩阵中所有的 sin 项都取相反数得到的。这样,就有 。...在同样微调十个 epoch 的情况下,在上述人名描述数据集上,与正常 NTP 微调的表现对比如下: 可以看到该研究的方法对于逆转诅咒有一定的缓解。...研究者推测这一现象的原因:尽管数据集中的人名及其对应描述由 GPT 编造以减少预训练数据对测试的干扰,但由于预训练模型具备一定程度的常识理解能力,比如认知到人名与描述之间通常存在一对多的关联。
如果用Python来抽取的话,一般会用到标准库中的random模块,该模块实现了各种分布的伪随机数生成器,以及和随机数相关的各种实用函数。...] random.randint(0,len(name_list)-1) name_list[random.randint(0,len(name_list)-1)] 这里我们设置了randint随机数范围是待抽取人名的列表长度...这样就随机抽取了一个人名,如果想一次性抽取多个人名呢?...这里需要改两个地方,先将for循环改为while循环结构,判断条件为len(my_list1) < 5。然后再增加一个条件判断语句,用来防止多次生成的随机数中有重复值出现。...random.sample(name_list,5) 非常简单,就从列表name_list中抽取了5个不重复的数据。 ?
该方法主要用来过滤; process_request:回调函数,也可以是回调函数的字符串名。用来过滤 Request ,该规则提取到每个 Request 时都会调用该函数。...一、案例 这个案例我们爬取的是名人名言网站,我们需要做的是提取名言内容、作者姓名和标签,然后通过作者链接进入到作者介绍的页面,最后我们爬取的作者的详细信息。...}) 上述代码中 Rule(LinkExtractor(allow='/page/\d+'), callback='parse_quotes', follow=True),代码段定义了爬取所有名人名言页的规则...,即只要符合 /page/\d+的所有链接就被视为名人名言页,然后我们调用 parse_quotes 方法提取相关数据。...)代码段中我们定义了爬取作者信息页的规则,即只要符合/author/\w+_```的所有链接就被视为作者信息页,之后我们调用 parse_author 方法提取相关数据。
也就是在1月24日该剧迎来了大结局,我们爬取腾讯视频全23集共31.79万条弹幕,看看大家都在聊什么!...数据预览 2. 各集弹幕数 3. 弹幕词云 3.1. 全部弹幕词云 3.2. 去掉人名后的弹幕词云 3.3. 主要角色关联词云 4. 弹幕情感分析 4.1. 弹幕抽样情感分析 4.2....数据预览 爬虫部分代码较多,我们放在最后哈。完整代码及弹幕数据文件大家亦可 在公众号 后台 回复 山海情 获取。...预览数据中,相关字段说明如下: commentid :弹幕唯一id content :弹幕内容 upcount :点赞数 timepoint :所属集对应弹幕发送时间(s) opername :弹幕 用户昵称...去掉人名后的弹幕词云 我们去掉人名(将剧中的人名添加到停用词)的弹幕分词后绘制词云(以宁夏省行政区域为背景)如下图所示,可以发现 大家都觉得该剧特别的真实。
【PYTHON】圆面积的计算#输入输出数值计算 题目描述 根据圆半径计算圆面积,结果保留两位小数。...eval(input()) pi=3.1415 print("{:.2f}".format(r*r*pi)) 【PYTHON】说句心里话#输入输出 题目描述 分两次从控制台接收用户的两个输入:第一个内容为"...人名",第二个内容为"心里话"。...) 输入 人名 心里话 输出 (人名),我想对你说,(心里话) 样例输入 李安...#数值计算 题目描述 编程从键盘读入3个数,输出它们的和与平均值。
命名实体根据其特点可以分为两大类,一类是可以根据构词法规则及上下文语境识别出来的,比如人名、地名、机构名;另外一类是可以穷举的垂直类实体,比如影视名,小说名,游戏名等。...二.人名识别 人名识别是命名实体识别中比较典型的一类问题,目前业界主要采用的方法是基于统计的。我们可以把人名识别问题看成是一个序列标注的问题,即根据观察序列预测最优隐含状态序列。...我们把标记定义为:姓用字 B,名中字用字I,名尾字用字E,其他用字O,那么下图的例子中,人名识别的问题可以转化为在已知输入文本“去看谭咏麟演出”,找到一条最大概率的标注序列,即“OOBIEOO”。...于是我们添加了一个是否为姓名常用字的特征,这个特征可以解决当该名字没有在语料中出现过的时候,也可以根据他的用字特点把新人名识别出来。...Boosting的方法主要思想就是先用n个基分类器,然后把他们进行加权融合,产生一个最后的结果分类器,在这n个基分类器中,每个单个的分类器的识别率不一定很高,但他们联合后的结果有很高的识别率,这样便提高了该弱分类算法的识别率
在本文,作者提出了一个用于训练该任务的新数据集,Who’s Waldo 。作者还提出了一个Transformer-based的方法用于解决该问题,且性能明显优于其他baseline方法。...传统的Visual Grounding能够根据Object的表达来进行物体的定位,但是如果在PVG任务中也采用这种方式就会产生一定的问题:根据人名来定位会产生一定的偏置(比如性别等)。...因此,作者使用 neural coreference resolution模型,将多个人名实体聚类为一个人名。...Wikimedia Commons提供了文字中的人名和图片中人脸的对应。然后作者可以根据关键点和检测模型生成对应的检测框,作者将置信度大于0.46的检测框作为文本中对应人的检测框。...本文的方法在这项任务上取得非常不错的性能,此外作者也证明了目前的ground方法在本文提出的数据集上性能下降都比较明显,说明只根据上下文对于传统方法来说很难进行准确的定位。
一般命名实体有分:人名、地名、组织名、机构名等等之分,根据不同的任务有不同的划分。...例如,对于人名识别的任务来说,我们把每个字分类为三类:O,B-PER,I-PER。...其中“周恩来”是一个人名,于是这三个词被标注为B-PER I-PER I-PER。 同理“马骏”也是一个人名。 做了这个处理以后,这个任务就简单的多了。...Bi-LSTM+最大熵 解法 Bi-LSTM+最大熵 解法是特别简单粗暴的一种解法,它的核心思想是通过一个Bi-LSTM计算得到某个词标注为各类标签的势能(其实就可以理解为概率)分布,然后取这些标签里面...数据处理模块主要是为了实现两个函数:next_train_batch和next_valid_batch,用于从训练集和预测集获取一个batch的数据,注意这里的batch不是随机的,而是序惯的。
Map阶段 以人名wordcount为例: maptask输入 k-v 代表 偏移量-行数据。 maptask输出 k-v 代表 人名-1。...,合并临时文件是将上面进行分组和聚合,生成一个新文件; 按k分组,这里并不是真实的数组,而是迭代器: 张三 [1,1] 李四 [1,1,1] 王五 [1] 赵六 [1] reduce输入 k-v :人名...阶段 /* 继承Mapper类,只要输入的是文字,泛型中有固定的数据类型: k-LongWritable == L v-Text == String 不固定的是输出的 k-v,在该示例中...LongWritable key, Text value, Context context) throws IOException, InterruptedException { //Mapper类根据每个逻辑切片中的数据行数...设置输入路径和输出路径 // TextInputFormat读取hdfs中的文件,根据文件大小和个数对其split逻辑切片 // MapReduce根据切片多少,启动对应的MapTask任务
用户词典干预根据是否进行全切分有两种不同方法:当配置变量indexMode>0时,即系统处于全切分模式时,对应方法为 List combineByCustomDictionary(List...从调用的方法我们不难看出,全切分时系统会根据CustomDictionary.txt添加分词路径。而普通切分时,系统会根据CustomDictionary.txt合并路径。...数字识别 如果配置变量numberQuantifierRecognize为true,则在粗分结果的基础上进行数字合并操作,否则直接跳过该步。...实体识别 配置变量ner为true时,则需要进行各种实体的识别,继续向下执行。需要注意该变量受其他实体识别变量影响,只要其他任意实体配置变量为true,则ner就会为true。...(3)日本人名识别 执行此步,配置变量japaneseNameRecognize必须为true。
学习目标 了解有关人名分类问题和有关数据 掌握使用RNN构建人名分类器实现过程 案例介绍 关于人名分类问题: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名...人名分类数据: 数据下载地址: https://download.pytorch.org/tutorial/data.zip 数据文件预览: # 数据集在虚拟机/root/data/names下...category = random.choice(all_categories) # 然后在通过category_lines字典取category类别对应的名字列表 # 之后再从列表中随机取一个名字...current_loss += loss # 如果迭代数能够整除打印间隔 if iter % print_every == 0: # 取该迭代步上的...: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗
命名实体识别简介 如果你还不熟悉NER,请查看维基百科上的定义: 命名实体识别(也称(命名)实体标识,实体片取或实体提取)是用于信息提取的自然语言处理子任务,旨在将非结构化文本中提到的命名实体定位并分到预定义的类别...现在,我们已经为NER微调了属于自己的一个基于BERT的最优效果 (state-of-the-art)模型。 让我们看看该模型在独立测试集上的表现(通过F1得分评估)。...(正确地)将“ Cristiano Ronaldo”(足球运动员)标识为人名,并将“ Juventus FC”(足球俱乐部)标识为组织机构名。...为了微调NER中丹麦语的transformer,我们可以利用DaNE数据集,该数据集由带有NER注释的丹麦语句子组成。...你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
是一个为了爬取网站数据、提取结构性数据而编写的应用框架,我们只需要编写少量的代码,就能够快速抓取。...网站中的名人名言,包括文本、作者、标签这些信息。.../ 在pycharm中打开创建的项目,Scrapy已经自动为我们创建了很多内容 3.明确目标(items.py) 打开items.py文件 Item定义结构化数据字段,用来保存爬取到的数据,类似...selector选择器: Response.css 根据css表达式来"选择" Response.xpath 根据XPath表达式做"选择" 本例中用的是Response.css...在pipeline中处理的数据为Item类型,所以需要把提取的数据封装成Item对象。
领取专属 10元无门槛券
手把手带您无忧上云