首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

资源 | HowNet)知识库的简单调用指南

机器之心整理 参与:蒋思源 机器之心曾采访过语科技的董强先生,在那一篇文章中,我们详细讨论了基于知识库的 NLP 解决方案。...基于HowNet)知识库的方法在实践和研究中确实大大提升了 NLP 的性能。...概念的表征 还着力要反映概念之间和概念的属性之间的关系。知识网络体系明确地提供给了计算机,因此我们可以输入形式化的知识而构建计算机系统来实现自然语言处理任务。...关于更多信息请查看:http://www.keenage.com/zhiwang/c_zhiwang.html 下面,我们将开始介绍知识库的 API 参数与调用过程,此外这一部分还提供了调用案例...,读者可根据该实例尝试调用知识库。

3.4K50

专栏 | 清华大学刘远:在深度学习时代用HowNet搞事情

在 WordNet、同义词词林等知识库中,每个词的词义是通过同义词集(synset)和定义(gloss)来间接体现的,具体每个词义到底什么意义,缺少细粒度的精准刻画,缺少显式定量的信息,无法更好为计算机所用...机器之心以前也关注过 HowNet,在语科技董强老师的专访中,我们向读者展现了知识库的结构、概念的表征方法以及如何应用到分词与相似度的计算中。...此外,语也向我们介绍了如何简单地调用知识库以帮助开发者与研究者实现更好的性能。...潜心30年,知识系统如何从概念层次上计算自然语言 HowNet)知识库的简单调用指南 参考文献: 官方介绍:http://www.keenage.com/zhiwang/c_zhiwang.html...基于《》的词汇语义相似度计算. 中文计算语言学 7, no. 2 (2002): 59-76. 朱嫣岚, 闵锦, 周雅倩, 黄萱菁, 吴立德. 基于 HowNet 的词汇语义倾向计算.

939100
您找到你想要的搜索结果了吗?
是的
没有找到

清华刘远:教你用HowNet在深度学习时代搞事情(附论文下载)

来源:乎 作者:刘远 本文共3539字,建议阅读11分钟。 本文为大家解读什么是HowNet,并且可以用HowNet在深度学习时代做些什么。...#2 DEF={location|位置:belong={angular|角},modifier={dot|点}} 在NLP领域知识库资源一直扮演着重要角色,在英语世界中最具知名度的是WordNet,采用同义词集...中国期刊(CNKI)统计HowNet学术关注度变化趋势 Semantic Scholar统计WordNet相关论文变化趋势 那么是不是说,深度学习时代以WordNet、HowNet为代表的语言知识库就毫无用处了呢...在WordNet、同义词词林等知识库中,每个词的词义是通过同义词集(synset)和定义(gloss)来间接体现的,具体每个词义到底什么意义,缺少细粒度的精准刻画,缺少显式定量的信息,无法更好为计算机所用...官方介绍。 2. 刘群, 李素建. 基于《 》 的词汇语义相似度计算. 中文计算语言学 7, no. 2 (2002): 59-76. 3. 朱嫣岚, 闵锦, 周雅倩, 黄萱菁, 吴立德.

3.8K80

学界 | 在深度学习时代用 HowNet 搞事情

DEF={location|位置:belong={angular|角},modifier={dot|点}} 在 NLP 领域知识库资源一直扮演着重要角色,在英语世界中最具知名度的是 WordNet,采用同义词集...也正因为如此,近年来无论是 HowNet 还是 WordNet 的学术关注度都有显著下降,如以下两图所示。 ? 中国期刊(CNKI)统计 HowNet 学术关注度变化趋势 ?...在 WordNet、同义词词林等知识库中,每个词的词义是通过同义词集(synset)和定义(gloss)来间接体现的,具体每个词义到底什么意义,缺少细粒度的精准刻画,缺少显式定量的信息,无法更好为计算机所用...然而,对 HowNet 逐渐深入理解,以及最近我们在 HowNet 与深度学习模型融合的成功尝试,让我开始坚信,HowNet 语言知识体系与思想必将在深度学习时代大放异彩。...参考文献 官方介绍。 刘群, 李素建. 基于《 》 的词汇语义相似度计算. 中文计算语言学 7, no. 2 (2002): 59-76. 朱嫣岚, 闵锦, 周雅倩, 黄萱菁, 吴立德.

1.2K100

Python 文本挖掘:使用情感词典进行情感分析(算法及程序设计)

一、基础情感词典:Hownet)情感词典 + 中国台湾大学简体中文情感极性词典(NTSUSD) 基础情感词典包括了一些被广泛认同的情感词,比如”好“,”漂亮“,”差“,”烂“这些词。...一个是著名的Hownet)情感词典,还有一个是中国台湾大学简体中文情感极性词典。...的情感词典包含如下内容: 值得注意的是,Hownet)里面的情感词有很多是莫名其妙的,比如”噲“、”媢“、”媢嫉“、”忺“这些都不知道从哪里冒出来的词,是需要人工判断手动删除的。...中国台湾大学简体中文情感极性词典要简洁得多: 把Hownet)里面的正面评价词语、正面情感词语和ntusd的positive词典消重之后组合在一起,成为基础积极情感词典。...把的负面评价词语、负面情感词语和ntusd的negative词典消重之后组合在一起,成为基础消极情感词典。 另外需要对Hownet)里面的程度级别词语进行权值的设置。

19.9K156

中文情感词典的构建与使用_文本情感识别

目前网上开源的情感词典包含有:HowNet)情感词典、台湾大学(NTSUSD)简体中文情感极性词典、大连理工大学情感词汇本体。...前两个都可以在网上找到,第三个需要到其学校官申请,说明完用途即可获得。 2.通用情感词典的扩展 上述情感词典年代都已经比较久远,所以我们可以采取一定方法对其扩展。...这里我们采用的方法是将词典的同义词添加到词典里。 我们通过使用哈工大整理的同义词词林来获取词典的同义词,需要一提的是第一版的同义词林年代较为久远,现在也有哈工大整理的同义词林扩展版。...使用的链接在这里:哈工大同义词林扩展版 使用代码编写时也可以利用Python的Synonyms库来获取同义词

1.8K30

中国爬虫

中国爬虫 一、介绍 提起中国,如果你曾经写过论文,那么基本上都会与中国打交道,因为写一篇论文必然面临着各种查重,当然翟博士除外。...三、反爬虫机制 常见的反爬虫机制一般有两种: 第一种是请求头反爬虫,这个也是最简单的,如果你不给定请求头,对方服务器就不会理你。...毫无疑问,对于数据非常金贵的中国来说,肯定使用了以上两种反爬方式,并且中国的js接口非常复杂,虽说复杂,但是只要你的内功要是足够强的话,还是能够分析得出来,但是对于不懂js以及web开发的朋友来说...,实际上,iframe比较常见的一种反爬虫机制,不过,如果你不知道这个东西,那么你就基本上无缘爬取中国了。... Python伊甸园 3.看一下中国的源码,发现果然存在一个iframe,所以这个就是中国的第三种反爬虫机制。

2.5K10

NLP泰斗董振东老师与他的 | 纪念

整理 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 昨晚,我们通过中国中文信息学会发布的讣告得知,我国著名中文信息处理专家、《》(HowNet)发明人董振东教授,于 2019 年...https://openhownet.thunlp.org/about_hownet 这也将我们拉回到了董振东教授与他毕三十年之功建立的《》(HowNet)。...欢迎来到《》的页面:(需要强调的是,此《》并非我们之前所说的中国“CNKI”。) ? 该网站是研究知识处理和多语言 NLP 的基础。重点是对 NLP 的深入研究以及语言基础设施的建设。...2017 年,语科技公司,基于《》的语义分析技术,作为一个输出自然语言理解技术的平台开始成立。 在这个网站上,我们看到了《》上线以来的所有动态: ?...http://www.keenage.com/html/news/news.html 刘远曾在一篇文章《在深度学习时代用 HowNet 搞事情》中简谈过对 HowNet 的看法,他表示:“HowNet

1.1K20

不超过 20 行,搞定关键词屏蔽功能!

举例来说,英文方面比较有代表性有 WordNet, FrameNet, MindNet等;在汉语方面,有同义词词林、“”(HowNet)、“中文概念词典”(CCD: Chinese Concept...词语相似度 02 《》是一部比较详尽的语义知识词典。不过,由于《》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦。...而在《》中,是用“概念”来对汉语中的每一个词语进行描述和定义的,而构成这种概念描述语言的核心词汇就是“义原”。...鉴于之前提到的原因,的相似度计算方法有所不同。在该种方法下,词语的相似度体现为描述词语的概念之间的相似度。...02 代码: ? 结果: ? 03 字面编辑距离法 代码: ? 结果: ? 代码都很简单,赶紧动手用起来吧!

3.4K41

,被罚8760万

这是市场监管总局依法对垄断论文数据库,作出的行政处罚决定。 12月26日,国家市场监管总局依法对涉嫌垄断行为做出行政处罚决定。...责令停止违法行为,并处以其2021年中国境内销售额17.52亿元5%的罚款,计8760万元。 市场监管总局方面表示,2014年以来,滥用支配地位实施垄断行为。...在收到《国家市场监督管理总局行政处罚决定书》后,通过微信公众号“CNKI”表示诚恳接受并坚决服从。...九旬教授赵德馨回应“被罚8760万”:「我觉得我的主张被接受了」 针对被处巨额罚款的消息,曾因维权与对簿公堂并胜诉,被坊间称为「撬动第一人」的中南财经政法大学退休教授赵德馨也第一时间做出了回应...此前,曾先后三次与他和妻子周秀鸾沟通,赵德馨向提出的最核心的诉求就是,希望由一个具有垄断性地位的暴利企业改革为服务型的知识交流平台。

46020

又火了!传中科院停用,近千万续订费太贵了

传中科院停用数据库」的话题一时间上了乎热榜。 就这样,真的不用了吗? 中科院和「断交」? 搞研究的没人不知道,甚至本科生的论文写作都少不了系统。...当有一天,中科院和停止合作,转向其它论文平台,这很难称不上一件大新闻。 我们先来了解一下,中科院为什么会有停用的可能。 其实不外乎就是,真的太太太贵了。...2021年底,人民曾发新闻称,因收费太贵,10年6高校停用。 例如,2012年底,南京师范大学就宣布停用,改用万方和维普。 看来,真是「天下苦久矣」啊。...为此,还有政协委员在人大会议上提出提案,建议免费放开。 但是,众所周知,免费的才是最贵的。有知乎网友表示,如果彻底放开,那么最终会走向「大而不能倒」的垄断地位。...因为那样会使的用户量一下子飙升到全国十几亿人口的量级,那时,想再限制就真的难了。

45770

专访 | 潜心30年,知识系统如何从概念层次上计算自然语言

深耕 30 多年 NLU 的HowNet)如今正以语科技创业公司的形象走进公众的视野。 ?...我们用它和关系做结合,去描述所有的概念,所以 HowNet 是一个网状结构。 概念的表征 还着力要反映概念之间和概念的属性之间的关系。...那相关性比如说同义词、同类词、反义词等,这一类是词语本身在概念的定义上就能体现出相关性。...酒香也怕巷子深,HowNet)30 年来仅仅是为学术界提供研究工具,累计授权的国际院校和科研机构超过 200 多家,但是宣传较少。...如今,HowNet)正以语科技创业公司的形象走进公众的视野。 语科技 NLP 技术平台刚刚上线,它是目前国内为数不多的,能够提供全面 NLP 工具的技术平台。

82660

Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索

Manhattan Distance)等 语义模型 CoSENT文本匹配模型【推荐】 BERT模型(文本向量表征) SentenceBERT文本匹配模型 字面模型 Word2Vec文本浅层语义表征【推荐】 同义词词林...Hownet义原匹配 BM25、RankBM25 TFIDF SimHash 2.图像相似度计算(图像匹配) 语义模型 CLIP(Contrastive Language-Image Pre-Training...10.14 78.90 41.99 2371 Text2vec 31.93 42.67 70.16 17.21 79.30 48.25 2572 结果值使用spearman系数 Model: Cilin Hownet...基于字面的文本相似度计算和匹配搜索 支持同义词词林(Cilin)、Hownet、词向量(WordEmbedding)、Tfidf、SimHash、BM25等算法的相似度计算和字面匹配搜索,常用于文本匹配冷启动

1.6K20

涉嫌垄断被立案调查

又双叒叕闹出了个大动静。 近日,市场监管总局根据前期核查,依法对涉嫌实施垄断行为立案调查。 也许是因为最近声名在外,终于被监管局“注意”到。...它出圈不是因为毕业季提及频率高,而是因为又一位作家起诉侵权,运营方表示,再这样下去真的要“赔不起了”,这可是1200亿! 即使只按200元/千字来算,全部在库作品也要赔1200亿元。...在的规则下,学术发表少不了要和中国打交道。 1 师生苦久矣 来回顾下事件导火索。 2021年12月,89岁的中南财经政法大学退休教授赵德馨以侵害作品信息网络传播权为由起诉中国。...正是此时,坐不住了,开始在网上哭穷,运营方表示陈应松提出的赔偿标准过高。 2 一年赚多少钱? 随之而来的一个问题,真的没钱吗? 对于这个问题,我们不妨从网上已公布的数据来着手扒一扒。...3 的运营经 ,本质上是一个资料库或者数据库。

44720

涉嫌垄断,被立案调查

机器之心报道 编辑:蛋酱 「一家独大」的时代可能要过去了。 持续了数月的「声讨」风波,终于迎来了重要的一步进展。...据最新的中国数据库数据显示,中国囊括中国学术期刊、中国学术辑刊全文数据库、中国博士学位论文全文数据库、中国重要会议论文全文数据库、国际会议论文全文数据库、中国年鉴网络出版总库等多个单库。...此外,还是我国唯一经国家批准能正式出版博士学位论文的学术电子期刊单位,博硕士论文均要上传进行查重。...购买中国信息服务的主要是高校及省市图书馆、科研机构、政府机关、大型企事业单位的研究所或图书情报部门,单位用户是稳定的收入来源,个人用户在的收入中,只占很小的部分。...今年 4 月中旬,乎社区上一则「中国科学院因近千万的续订费用停用 CNKI 数据库」的热帖重新引发了网友对运营模式的广泛讨论。 随后,中科院和都对此事进行了回应。

40710

中科院因近千万续订费用停用刚刚回应了

上周日,乎一则热帖传言「中国科学院因近千万的续订费用停用 CNKI 数据库」引发了网友对运营模式的广泛讨论。 这周一,中科院和都对此事进行了初步回应。...中科院表示,停用消息属实,并将用万方、维普替代方面最初只简单回应了消息「不属实」。经过了几天的发酵,关于中科院与的相关讨论仍然在乎热榜上。...以下为回应全文: 长期以来,中国与中国科学院文献情报中心紧密合作,共同致力于文献信息保障服务。为回应社会关切,现就双方合作服务情况作如下说明。...2008 年起,与中科院文献情报中心深入合作,由中科院文献情报中心统一集中采购期刊、博硕士论文等数据库,服务于中科院所属各院所。...针对的回应,网友半调侃半提问:「如果中科院一直不续订的话,会不会停用中科院的权限?」 部分网友也呼吁,「其他院校不跟吗?」

33320
领券