先取人名，根据该人名取数为对外数据 - 腾讯云开发者社区

一、前言终于做出这张图时，我突然有点感慨，这就是2017年我的日记中提到过或记录过的一个个人名，当然为避免引起不必要的麻烦，隐去了许多亲人朋友的名字。...2018年已经过去了一周，很多人该总结、该回顾2017年的想来也都总结回顾了，没有总结习惯的就继续过自己新的一年。...二、提取人名首先为了获取文本中出现的人名，根据这篇文章《从天龙八部小说衍生出的google语义分析与gephi社交网络》里提供的思路，用jieba中文分词Python库尝试从日记文本中提取出TF/IDF...实现的代码可参考提取《釜山行》人物关系的代码，可根据自己的需求进行更改。 ? 运用到自己的文本上，并生成后续用于gephi可视化的“节点”和“边”文件，同样需要剔除非人名的数据。节点格式如下： ?...在大部分较常规的联系之中，存在着“贺龙”与“贺知章”这一蛮奇特的关联，思索了几秒后，才想起曾有人询问取名、赐名的一桩旧事，倒也有趣，不过说来至今不知道贺姓名人还有哪些，大看到的小伙伴可以说说，并试着为贺姓小男孩取个你觉得不错的名字呗

4142 0

RNN、LSTM、GRU神经网络构建人名分类器

, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗, 限制手机号码位数等等。...hidden_size self.input_size = input_size self.output_size = output_size # RNN的输入数据通常被组织为形状为...category = random.choice(all_categories) # 然后在通过category_lines字典取category类别对应的名字列表 # 之后再从列表中随机取一个名字...current_loss += loss # 如果迭代数能够整除打印间隔 if iter % print_every == 0: # 取该迭代步上的...: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗

941 0

您找到你想要的搜索结果了吗？

是的

没有找到

看美剧英文字幕学英语的利器——“深蓝英文字幕助手”简介

对英文字幕中的每个句子进行转换和分解，分解成词汇，然后用分解出的词汇和用户词汇表进行比对，如果发现是用户认识的单词，那么就忽略，如果是用户不认识的单词，那么就查询字典（默认采用的是维科英汉词典10W词汇，基本满足日常词汇需要），得到该单词的中文解释...2.如何知道一个词是人名/地名。在美剧中必然会大量的出现人名地名啥的，如果人名本身没有其他意义那还好说系统会忽略，但是如果人名有其他意义就会对整个句子的意思造成影响。...3.对于一词多性多义，怎么判断取哪个意义。有些单词既可以做动词用，也可以做名词用，当名词时和动词时的意思完全不一样，这是一个问题。...一个是看是否变形，如果是booking或者booked，那么这是动词的变形，所以必然取动词的解释：预定。二是看前后单词的词性，如果book的前面是adj.那么这里的book就是名词。...4.对于一词多义，而且词性还相同，那怎么取。这个有难度，我程序没办法解决，把每个意义都列出来，让用户根据上下文，自己选择。

6322 0

随机点名，RAND函数应用示例

示例数据如图2所示，在列A中输入人名，在列B中输入随机数。即在单元格B2中输入： =RAND() 向下拖拉至数据末尾单元格。图2 将数据转换成表，并命名为：tblNames。...将表中列A命名为：listNames（即，=tblNames[姓名]）；列B命名为：listRandnum（即，=tblNames[随机数]）。...该公式根据输入的数量生成连续序号。...该公式很好理解，即根据列D中的数字查找相应的随机数位置，从而在人名列提取相应的名字。

2.3K3 0

自然语言处理中的分词问题总结

在 Demo 环境下可以使用 Stanford 系统，在大规模数据环境下不适合使用该系统。 GPWS 系统 GPWS 是北京语言大学语言信息处理研究所研发的分词系统，2001 年对外发布。...GPWS 可以实现中文人名、外国人名、日本人名的识别，其它分词系统几乎都没有做到这个程度；对通用领域的文本切分效果较好，支持自定义词典；很少出现切分“离谱”的情况。该系统适合大规模数据处理的场景。...歧义问题在分词中不是罪严重的问题，仅占分词错误数的 10% 左右。...图3.jpg 分词错误的主要来源未登录词 - 不在词典中的词，该问题在文本中出现频度远远高于歧义。未登录词的类型包括：人名、地名、机构名、公司名、数字、日期、专业术语、新词、产品名等。...理论解决方案的问题训练数据规模有限北大人民日报的原始语料的词语数为 2800 万；CTB9.0 词语数为 200 万；国家语委数据为 5000 万字。标注语料是一个非常消耗人力的事情。

1.3K0 0

弹幕挖掘在综艺节目热点分析中的应用初探

进而，在接下来的运营推广中，可以根据排名进行曝光资源、推广资源的灵活调度。...该技术为本文弹幕分析中，选手热度排名分析依赖的核心算法模块。既然是标注，很容易想到基于规则，对人工标注库进行匹配的方法。...基于该假设，通过命名实体识别标注出弹幕中的人名后，计算各个人名共同出现的频率，并把弹幕点赞数作为人物关系值加权。将这样的关系链用图数据库进行可视化展示，相关的联系便可一目了然。 3. ...3.2 节目高潮和低谷分析同样以明子第三期为例，统计汇总各5分钟时段的弹幕数，可得到该期节目的弹幕数量随视频进度变化的分布图。 ?...3.6 热门关系链话题分析从“人名在同一条弹幕文本中被提及，则认为存在关系链话题”这一假设出发，提取弹幕中的人名共同出现次数，及对应弹幕累积点赞数，并将相关信息进行可视化。最终效果呈现如下。 ?

1.6K2 1

Excel公式技巧83：使用VLOOKUP进行二分查找

如图1所示，查找表在单元格区域F1:G6，根据列C中的成绩查找相应的等级。 ? 图1 单元格D2中的公式为： =VLOOKUP(C2,F2:G6,2,TRUE) 向下复制至单元格D5。...示例2：查找列按升序排列且执行精确查找如下图2所示，列表中有一系列日期相对应的人名，现在想要选择日期后获取该日期对应的人名。 ?...如下图4所示，这是一列杂乱无章的数据，其中包含数字、错误、文本和空白单元格。 ?...图4 示例中列C最后一个数字是123，下面的公式会找到该数： =VLOOKUP(BIGNUM,C:C,1,TRUE) 如下图5所示。 ?...图5 公式中，BIGNUM是关键，它必须比该列中可能出现的数都要大。

2.5K3 0

GPT、Llama等大模型存在「逆转诅咒」，这个bug该如何缓解？

提出的 “人名 - 描述问答” 数据集，该数据集使用 GPT-4 编造了若干人名和对应的描述，人名和描述都是独一无二的。...prompt 模型训练集 “NameToDescription” 部分涉及到的描述，让模型回答相应的人名该研究在此数据集上对 Llama 和 GLM 按照各自的预训练目标（Llama 用 NTP 目标...该研究提出的解决方法非常简单，规定：当时，无需对内积计算做任何修改；当 n > m，通过引入一个新的旋转矩阵来计算。是将旋转矩阵中所有的 sin 项都取相反数得到的。这样，就有。...在同样微调十个 epoch 的情况下，在上述人名描述数据集上，与正常 NTP 微调的表现对比如下：可以看到该研究的方法对于逆转诅咒有一定的缓解。...研究者推测这一现象的原因：尽管数据集中的人名及其对应描述由 GPT 编造以减少预训练数据对测试的干扰，但由于预训练模型具备一定程度的常识理解能力，比如认知到人名与描述之间通常存在一对多的关联。

1681 0

用Python来抽奖？真挺简单的！

如果用Python来抽取的话，一般会用到标准库中的random模块，该模块实现了各种分布的伪随机数生成器，以及和随机数相关的各种实用函数。...] random.randint(0,len(name_list)-1) name_list[random.randint(0,len(name_list)-1)] 这里我们设置了randint随机数范围是待抽取人名的列表长度...这样就随机抽取了一个人名，如果想一次性抽取多个人名呢？...这里需要改两个地方，先将for循环改为while循环结构，判断条件为len(my_list1) < 5。然后再增加一个条件判断语句，用来防止多次生成的随机数中有重复值出现。...random.sample(name_list,5) 非常简单，就从列表name_list中抽取了5个不重复的数据。 ?

2.1K2 0

Scrapy 爬虫模板--CrawlSpider

该方法主要用来过滤； process_request：回调函数，也可以是回调函数的字符串名。用来过滤 Request ，该规则提取到每个 Request 时都会调用该函数。...一、案例这个案例我们爬取的是名人名言网站，我们需要做的是提取名言内容、作者姓名和标签，然后通过作者链接进入到作者介绍的页面，最后我们爬取的作者的详细信息。...}) 上述代码中 Rule(LinkExtractor(allow='/page/\d+'), callback='parse_quotes', follow=True),代码段定义了爬取所有名人名言页的规则...，即只要符合 /page/\d+的所有链接就被视为名人名言页，然后我们调用 parse_quotes 方法提取相关数据。...)代码段中我们定义了爬取作者信息页的规则，即只要符合/author/\w+_```的所有链接就被视为作者信息页，之后我们调用 parse_author 方法提取相关数据。

8451 0

31万弹幕大军都推荐你去看的《山海情》,是怎样一部最搞笑最土味的扶贫剧！？

也就是在1月24日该剧迎来了大结局，我们爬取腾讯视频全23集共31.79万条弹幕，看看大家都在聊什么！...数据预览 2. 各集弹幕数 3. 弹幕词云 3.1. 全部弹幕词云 3.2. 去掉人名后的弹幕词云 3.3. 主要角色关联词云 4. 弹幕情感分析 4.1. 弹幕抽样情感分析 4.2....数据预览爬虫部分代码较多，我们放在最后哈。完整代码及弹幕数据文件大家亦可在公众号后台回复山海情获取。...预览数据中，相关字段说明如下： commentid ：弹幕唯一id content ：弹幕内容 upcount ：点赞数 timepoint ：所属集对应弹幕发送时间(s) opername ：弹幕用户昵称...去掉人名后的弹幕词云我们去掉人名（将剧中的人名添加到停用词）的弹幕分词后绘制词云（以宁夏省行政区域为背景）如下图所示，可以发现大家都觉得该剧特别的真实。

3682 0

【Python】学习笔记week3-1 输出-输入-计算

56.7K15 7

【文智背后的奥秘】系列篇：基于 CRF 的人名识别

命名实体根据其特点可以分为两大类，一类是可以根据构词法规则及上下文语境识别出来的，比如人名、地名、机构名；另外一类是可以穷举的垂直类实体，比如影视名，小说名，游戏名等。...二.人名识别人名识别是命名实体识别中比较典型的一类问题，目前业界主要采用的方法是基于统计的。我们可以把人名识别问题看成是一个序列标注的问题，即根据观察序列预测最优隐含状态序列。...我们把标记定义为：姓用字 B，名中字用字I，名尾字用字E，其他用字O，那么下图的例子中，人名识别的问题可以转化为在已知输入文本“去看谭咏麟演出”，找到一条最大概率的标注序列，即“OOBIEOO”。...于是我们添加了一个是否为姓名常用字的特征，这个特征可以解决当该名字没有在语料中出现过的时候，也可以根据他的用字特点把新人名识别出来。...Boosting的方法主要思想就是先用n个基分类器，然后把他们进行加权融合,产生一个最后的结果分类器，在这n个基分类器中,每个单个的分类器的识别率不一定很高,但他们联合后的结果有很高的识别率,这样便提高了该弱分类算法的识别率

3.9K3 1

新数据集！康奈尔大学提出了类似VG但又不是VG的PVG任务

在本文，作者提出了一个用于训练该任务的新数据集，Who’s Waldo 。作者还提出了一个Transformer-based的方法用于解决该问题，且性能明显优于其他baseline方法。...传统的Visual Grounding能够根据Object的表达来进行物体的定位，但是如果在PVG任务中也采用这种方式就会产生一定的问题：根据人名来定位会产生一定的偏置（比如性别等）。...因此，作者使用 neural coreference resolution模型，将多个人名实体聚类为一个人名。...Wikimedia Commons提供了文字中的人名和图片中人脸的对应。然后作者可以根据关键点和检测模型生成对应的检测框，作者将置信度大于0.46的检测框作为文本中对应人的检测框。...本文的方法在这项任务上取得非常不错的性能，此外作者也证明了目前的ground方法在本文提出的数据集上性能下降都比较明显，说明只根据上下文对于传统方法来说很难进行准确的定位。

1K3 0

Bi-LSTM+CRF模型实现命名实体识别

一般命名实体有分：人名、地名、组织名、机构名等等之分，根据不同的任务有不同的划分。...例如，对于人名识别的任务来说，我们把每个字分类为三类：O,B-PER,I-PER。...其中“周恩来”是一个人名，于是这三个词被标注为B-PER I-PER I-PER。同理“马骏”也是一个人名。做了这个处理以后，这个任务就简单的多了。...Bi-LSTM+最大熵解法 Bi-LSTM+最大熵解法是特别简单粗暴的一种解法，它的核心思想是通过一个Bi-LSTM计算得到某个词标注为各类标签的势能（其实就可以理解为概率）分布，然后取这些标签里面...数据处理模块主要是为了实现两个函数：next_train_batch和next_valid_batch，用于从训练集和预测集获取一个batch的数据,注意这里的batch不是随机的，而是序惯的。

2.6K1 0

MapReduce-WorldCount编程思路

Map阶段以人名wordcount为例： maptask输入 k-v 代表偏移量-行数据。 maptask输出 k-v 代表人名-1。...，合并临时文件是将上面进行分组和聚合，生成一个新文件；按k分组，这里并不是真实的数组，而是迭代器：张三 [1,1] 李四 [1,1,1] 王五 [1] 赵六 [1] reduce输入 k-v ：人名...阶段 /* 继承Mapper类，只要输入的是文字，泛型中有固定的数据类型： k-LongWritable == L v-Text == String 不固定的是输出的 k-v，在该示例中...LongWritable key, Text value, Context context) throws IOException, InterruptedException { //Mapper类根据每个逻辑切片中的数据行数...设置输入路径和输出路径 // TextInputFormat读取hdfs中的文件，根据文件大小和个数对其split逻辑切片 // MapReduce根据切片多少，启动对应的MapTask任务

701 0

HanLP分词工具中的ViterbiSegment分词流程

用户词典干预根据是否进行全切分有两种不同方法：当配置变量indexMode>0时，即系统处于全切分模式时，对应方法为 List combineByCustomDictionary(List...从调用的方法我们不难看出，全切分时系统会根据CustomDictionary.txt添加分词路径。而普通切分时，系统会根据CustomDictionary.txt合并路径。...数字识别如果配置变量numberQuantifierRecognize为true，则在粗分结果的基础上进行数字合并操作，否则直接跳过该步。...实体识别配置变量ner为true时，则需要进行各种实体的识别，继续向下执行。需要注意该变量受其他实体识别变量影响，只要其他任意实体配置变量为true，则ner就会为true。...（3）日本人名识别执行此步，配置变量japaneseNameRecognize必须为true。

1.1K3 1

【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例：构建人名分类器

学习目标了解有关人名分类问题和有关数据掌握使用RNN构建人名分类器实现过程案例介绍关于人名分类问题: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名...人名分类数据: 数据下载地址: https://download.pytorch.org/tutorial/data.zip 数据文件预览: # 数据集在虚拟机/root/data/names下...category = random.choice(all_categories) # 然后在通过category_lines字典取category类别对应的名字列表 # 之后再从列表中随机取一个名字...current_loss += loss # 如果迭代数能够整除打印间隔 if iter % print_every == 0: # 取该迭代步上的...: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗

1741 0

独家 | 轻松上手，通过微调Transformers完成命名实体识别任务

命名实体识别简介如果你还不熟悉NER，请查看维基百科上的定义：命名实体识别（也称（命名）实体标识，实体片取或实体提取）是用于信息提取的自然语言处理子任务，旨在将非结构化文本中提到的命名实体定位并分到预定义的类别...现在，我们已经为NER微调了属于自己的一个基于BERT的最优效果 (state-of-the-art)模型。让我们看看该模型在独立测试集上的表现（通过F1得分评估）。...（正确地）将“ Cristiano Ronaldo”（足球运动员）标识为人名，并将“ Juventus FC”（足球俱乐部）标识为组织机构名。...为了微调NER中丹麦语的transformer，我们可以利用DaNE数据集，该数据集由带有NER注释的丹麦语句子组成。...你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

1.1K3 0

项目实战 | Python爬虫概述与实践（三）

是一个为了爬取网站数据、提取结构性数据而编写的应用框架，我们只需要编写少量的代码，就能够快速抓取。...网站中的名人名言，包括文本、作者、标签这些信息。.../ 在pycharm中打开创建的项目，Scrapy已经自动为我们创建了很多内容 3.明确目标(items.py) 打开items.py文件 Item定义结构化数据字段，用来保存爬取到的数据，类似...selector选择器： Response.css 根据css表达式来"选择" Response.xpath 根据XPath表达式做"选择" 本例中用的是Response.css...在pipeline中处理的数据为Item类型，所以需要把提取的数据封装成Item对象。

5372 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

2017，那些出现在日记中的人：简单的文本挖掘

RNN、LSTM、GRU神经网络构建人名分类器

看美剧英文字幕学英语的利器——“深蓝英文字幕助手”简介

随机点名，RAND函数应用示例

自然语言处理中的分词问题总结

弹幕挖掘在综艺节目热点分析中的应用初探

Excel公式技巧83：使用VLOOKUP进行二分查找

GPT、Llama等大模型存在「逆转诅咒」，这个bug该如何缓解？

用Python来抽奖？真挺简单的！

Scrapy 爬虫模板--CrawlSpider

31万弹幕大军都推荐你去看的《山海情》,是怎样一部最搞笑最土味的扶贫剧！？

【Python】学习笔记week3-1 输出-输入-计算

【文智背后的奥秘】系列篇：基于 CRF 的人名识别

新数据集！康奈尔大学提出了类似VG但又不是VG的PVG任务

Bi-LSTM+CRF模型实现命名实体识别

MapReduce-WorldCount编程思路

HanLP分词工具中的ViterbiSegment分词流程

【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例：构建人名分类器

独家 | 轻松上手，通过微调Transformers完成命名实体识别任务

项目实战 | Python爬虫概述与实践（三）

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐