首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

玩转字词句魔法:打造超强样本集的数据增强策略,句式变换揭秘同义句生成与回译在数据增强中的创新应用

董振东和董强先生父子将此思想付诸实践,耗时近30年构建了HowNet(知网),通过预定义的2000多个义原为20多万个由中英文词语所表示的概念进行了标注。...每个概念由中英文词语及其词性、情感倾向、例句、义原标注等信息组成。...Sense:HowNet中的概念类,封装用于描述概念的中英文词语及其词性、义原标注等信息。...Sememe:HowNet中的义原类,封装用于描述义原的中英文词语、义原的出现频率以及义原间关系等信息。...synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。

13610

玩转字词句魔法:打造超强样本集的数据增强策略,句式变换揭秘同义句生成与回译在数据增强中的创新应用

董振东和董强先生父子将此思想付诸实践,耗时近30年构建了HowNet(知网),通过预定义的2000多个义原为20多万个由中英文词语所表示的概念进行了标注。...每个概念由中英文词语及其词性、情感倾向、例句、义原标注等信息组成。...Sense:HowNet中的概念类,封装用于描述概念的中英文词语及其词性、义原标注等信息。Sememe:HowNet中的义原类,封装用于描述义原的中英文词语、义原的出现频率以及义原间关系等信息。...apple|苹果, No.244398|IPHONE|苹果, No.244399|apple|苹果, No.244400|iphone|苹果]通过每个Sense实例,可以得到每个概念的详细信息(包括概念编号,中英文词语...synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。

12910

NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)

参考:自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取) 2、TF 词频有两类:在本文档的词频以及单词在所有文档的词频。...(图片来源:文档中词语权重方案一览) —————————————————————————————————————————————— 二、词语词语间 1、点间互信息(PMI) 点间互信息(PMI)主要用于计算词语间的语义相似度...3、★MI进化版——左右信息熵★ (参考于:基于互信息和左右信息熵的短语提取识别) 熵这个术语表示随机变量不确定性的量度。...详情看:自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取) —————————————————————————————————————————————— 五、一些案例摘要 1、利用点间互信息...逐点互信息(pmi)的计算公式 滑动窗口 可以看出,如果我们提取固定搭配不限制距离,会使后面偶然出现某个词的概率增大,降低该统计的稳定性。

4.4K20

你说“神马”?非正式汉语数据集资源上线,帮你训练网络语言处理

晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI NLP是个好东西,但是汉语文化实在是博大精深,连长辈都看不懂网络词语,想让机器理解它们就更难了。...作者从Chiphell中选取了几个主题的回帖,其中有大量的网络用语,甚至还有中英文混用。 “辣鸡”当然不是辣味的鸡,“木有”也不是说木头。如果用正经训练集得到的模型去识别它们,结果恐怕会惨不忍睹。...据统计,这个数据集中非正式用语的比例远远高于一般其他数据集,在7.5亿词语中,非正式用语出现了62万次。比例远高于人民日报这样的官方媒体。 ?...如果使用从正式汉语语料库中提取的向量表示作为单词嵌入,可能导致不良的表现。 所以,如果你需要训练模型去识别网络语言,那一定要尝试一下这个数据集。

59520

分词 – Tokenization

本文将介绍分词的原因,中英文分词的3个区别,中文分词的3大难点,分词的3种典型方法。最后将介绍中文分词和英文分词常用的工具。 什么是分词? 分词是 自然语言理解 – NLP 的重要步骤。...如:关键词提取、命名实体识别等。 中英文分的3个典型区别 ? 区别1:分词方式不同,中文更难 英文有天然的空格作为分隔符,但是中文没有。...基于词典匹配 基于统计 基于深度学习 给予词典匹配的分词方式 优点:速度快、成本低 缺点:适应性不强,不同领域效果差异大 基本思想是基于词典匹配,将待分词的中文文本根据一定规则切分和调整,然后跟词典中的词语进行匹配...以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。...分词的原因: 将复杂问题转化为数学问题 词是一个比较合适的粒度 深度学习时代,部分任务中也可以「分字」 中英文分词的3个典型区别: 分词方式不同,中文更难 英文单词有多种形态,需要词性还原和词干提取 中文分词需要考虑粒度问题

1.3K31

自然语言处理的中文语义分析模式介绍

词语的解析包括对词义,词之间关系的解析,这些是中文语义分析的基础,也是进行信息抽取、机器翻译等应用的基础问题。...对篇章级别的语义分析,主要是提取文本的主题和类别方面,进而实现对大规模文本的管理和挖掘。 中文语义分析不仅包括事物的本质,还包括事物之间的关系。...互联网时代,数据量大幅度增加,面对数据时代的海量文本数据,信息提取,信息分类等技术都需要不断的提升。 在对中文语义分析时也会面临技术难点。...现NLPIR大数据语义分析系统能够全方位多角度完成对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析

3.2K30
领券