首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

资源 | Synonyms:一个开源的中文近义词工具包

机器之心整理 参与:蒋思源 近日,Hai Liang Wang 和胡小夕在 GitHub 开放了一个中文近义词工具包 Synonyms,它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取...该工具包目前能搜索近义词和比较语句相似度等任务,且词汇量达到了 125,792。机器之心也尝试使用 Synonyms 搜索一段中文的近义词,并有非常不错的反馈。...项目地址:https://github.com/huyingxi/Synonyms 该中文近义词工具包采用的基本技术是 Word2vec,因此在介绍该工具的同时我们会简要介绍词嵌入方法。...该工具包兼容 Python 2 和 Python 3,且目前的稳定版为 v2.0,以下是使用 Synonyms 工具的效果: ?...以友好的方式打印近义词,方便调试,display 调用了 synonyms#nearby 方法: >>> synonyms.display("飞机") '飞机'近义词: 1.

1.6K80
您找到你想要的搜索结果了吗?
是的
没有找到

自然语言处理(NLP)数据增强,改善NLP任务的性能

以下是对每种方法的详细解释,以及附带的Python代码示例: 同义词增强(Synonym Augmentation): 同义词增强是一种数据增强技巧,旨在通过将文本中的某些词汇替换为其同义词来生成更多的训练样本...synonym) return text augmented_text = synonym_augmentation(text) print("同义词增强结果:", augmented_text) 近义词增强...(Near-Synonym Augmentation): 近义词增强类似于同义词增强,但是它涉及替换原始词汇为在含义上更接近的近义词。...new_text += " " return new_text.strip() augmented_text = near_synonym_augmentation(text) print("近义词增强结果...:", augmented_text) 等价词替换(Paraphrase Augmentation): 等价词替换是一种更广泛的数据增强技巧,它不仅包括同义词和近义词,还包括具有相似语义的句子或短语的替换

611140

目前常用的自然语言处理开源项目开发包大汇总

英文的开源NLP工具主要参见StackoverFlow-java or python for nlp 相关问题&文章: (1)如何用 Python 中的 NLTK 对中文进行分析和处理?...一个高效的中文词法分析工具包 开发机构:清华大学自然语言处理与社会人文计算实验室 协议:研究目的免费开放源代码,商用目的需洽谈许可证 功能:中文分词和词性标注 感谢石墨用户@hain 的补充 Synonyms: 中文近义词工具包...开发语言:Python 开发机构:个人 协议:MIT 功能:获取近义词集合,句子相似度计算 性能:见网站 活跃度:~1k Star 结巴分词:Python中文分词组件 开发语言:Python 网址:fxsjy...library for advanced Natural Language Processing in Python and Cython....,可以阅读官方文档了解更多信息https://spacy.io/usage/),号称是工业级强度的Python NLP工具包,区别于学术性质更浓的Python NLTK 活跃度:star 超过7千,近期

2.9K20

Python 处理中文的 4 个轮子

这里记录 Python相关的值得分享的内容,每周五发布。由于微信不允许外部链接,点击阅读原文可访问文中的链接。 ?...我们中文博大精深,但在程序处理时会往往遇到麻烦,怎么判断近义词,怎么分词,怎么做情感分析,怎么获取汉字的拼音,不要急于动手就去写代码,使用别人造好的轮子,节省人生中宝贵的时间,是非常明智的。...本文分享 Python 中文相关的几个轮子,请按需使用。 1、近义词工具包 Synonyms。...最好的中文近义词工具包 https://github.com/huyingxi/Synonyms,可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要...(完) 专注于Python技术分享 欢迎订阅、在看、转发

91520

NLP︱词向量经验总结(功能作用、高维可视化、R语言实现、大规模语料、延伸拓展)

———————————————————————————————— 二、词向量表示精度 不同的词向量表达方式也有着不同的优劣势, 1、NLP︱高级词向量表达(一)——GloVe(理论、相关测评结果、R&python...sense2vec的demo网站 6、近义词属性 词向量通过求近似,可以获得很好的一个性质,除了可加性,就是近似性。...可以将附近的近义词进行聚合,当然词向量的质量取决于训练语料的好坏。同时,近义词之中,反义词是否能够识别出来,也还是一个值得研究的话题。...一般来说用python的gensim和spark的mlib比较好。...但是笔者在使用过程中出现的情况是: python的gensim好像只有cbow版本, R语言,word2vec和glove好像都不能输出txt格式,只有bin文件。

2.4K10

程序员的数学笔记3--迭代法

Python 实现这个计算麦子的代码如下所示: def get_number_of_wheat(grid): ''' \计算放到给定格子数量需要的麦子数量 :param grid...这里老师给的例子是在自然语言处理中,处理同义词或者近义词的扩展问题。这时,你是会有一个词典,用于记录每个单词的同义词或者近义词。...对于一个待查找单词,我们需要在字典找到这个单词,以及对应的所有同义词和近义词,然后进行拓展,例如对于单词--西红柿,它的同义词包括了番茄和tomato。...词典如下表格所示: 词条 同义词1 同义词2 同义词3 西红柿 番茄 tomato … … … … … 当处理文章的时候,遇到“西红柿”这个单词,就在字典里查找,返回“番茄”和“tomato"等同义词或者近义词...,并添加到文章作为同义词/近义词的拓展。

67940

玩转字词句魔法:打造超强样本集的数据增强策略,句式变换揭秘同义句生成与回译在数据增强中的创新应用

WordSimilarity这是一个基于哈工大同义词词林扩展版的单词相似度计算方法的python实现,参考论文如下:pip install WordSimilarityfrom word_similarity...OpenHowNet通过 Github 安装git clone https://github.com/thunlp/OpenHowNet/cd OpenHowNetpython setup.py install运行要求Python...#为“苹果”所属的每个Sense找出5个最相近的近义词>>> hownet_dict_advanced.get_nearest_words('苹果', language='zh',K=5){No.244396...synonyms#display(word , size = 10)以友好的方式打印近义词,方便调试,display(WORD , SIZE)调用了 synonyms#nearby 方法。...>>> synonyms.display("飞机")'飞机'近义词: 1. 飞机:1.0 2. 直升机:0.8423391 3. 客机:0.8393003 4.

13210

西西成语接龙小助手

介绍 代码地址:https://github.com/taishan1994/chinese_chengyujielong 读完该文,你可以收获: python爬虫的简单使用。...爬虫模块 首先展示下我们最终获得的成语的数据: ,成语,拼音,成语解释,典故出处,近义词,反义词,常用程度,感情色彩,语法用法,成语结构,产生年代,英文翻译,成语谜面 0,阿匼取容,ē ǎn qǔ róng...多用于比喻句,偏正式,现代,an ignorant and incapable man ,刘禅 每条成语包含以下属性:成语,拼音,成语解释,典故出处,近义词...近义词:袖手旁观、充耳不闻、漠然置之 反义词:nan 常用程度:一般 感情色彩:褒义词 语法用法:作谓语、定语;用于处事 成语结构:联合式 产生年代:近代 英文翻译:nan 成语谜面:nan =====

62420
领券