前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >自然语言处理常用资源笔记分享

自然语言处理常用资源笔记分享

作者头像
UM_CC
发布2022-09-22 15:03:24
6650
发布2022-09-22 15:03:24
举报
文章被收录于专栏:春天和爱情の樱花

声明:个人笔记&观点,持续更新……

个人收集的自用及备用的自然语言处理相关资源,仅供学术交流 项目地址:https://github.com/junchaoIU/ChineseNLP_ResourceNote Author:🍧 Wu, Junchao

开源Python库

项目

地址

简介

jieba分词

中文分词库

中文信息抽取工具

从中文文本数据中抽取出结构化的信息,如时间、手机号、运营商、邮箱、地址、人名、身份证

LTP(Language Technology Platform)

提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作

中文地址提取工具

支持中国三级区划地址(省、市、区)提取和级联映射,支持地址目的地热力图绘制。适配python2和python3

中文公司名称分词工具

支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取

汉字数字(中文数字)-阿拉伯数字转换工具

是一个将中文数字(大写数字) 转化为阿拉伯数字的工具

HarvestText

是一个专注无(弱)监督方法,能够整合领域知识(如类型,别名)对特定领域文本进行简单高效地处理和分析的库。适用于许多文本预处理和初步探索性分析任务,在小说分析,网络文本,专业文献等领域都有潜在应用价值

知识图谱相关

项目

地址

简介

文档图谱信息可视化

输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。

京东GoodsKG

基于京东网站的商品上下级概念,商品品牌之间关系,商品描述维度等知识库,基于该知识库可以支持商品属性库构建,商品销售问答,品牌物品生产等知识查询服务,也可用于情感分析等下游应用.

思知知识图谱

史上最大规模1.4亿中文知识图谱开源下载,知识图谱,通用知识图谱,融合了两千五百多万的实体,拥有亿级别的实体属性关系。

stock-knowledge-graph

(neo4j)利用网络上公开的数据构建一个小型的证券知识图谱/知识库

事件三元组抽取

基于依存句法与语义角色标注的事件三元组抽取,可用于文本理解如文档主题链,事件线等应用。内置LTP、百度DDParser和规则模版的三种抽取方式

中文人物知识图谱构建

中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用.

awesome-knowledge-graph

整理知识图谱相关学习资料,提供系统化的知识图谱学习路径。

语料&数据集

项目

地址

简介

ChineseNlpCorpus

搜集、整理、发布 中文 自然语言处理 语料/数据集, 包含情感/观点/评论 倾向性分析、中文命名实体识别、推荐系统、FAQ 问答系统多个领域的数据集

公司名语料库(Company-Names-Corpus)

公司名语料库。机构名语料库。公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。

微信公众号语料库

部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。

百度知道问答语料库

百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。

多语言音频数据

多种语言音频数据,包括来自42,000名贡献者超过1,400小时的语音样本,涵github

中文突发事件语料库

中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

dh_msra

下载地址

5 万多条中文命名实体识别标注数据(包括地点、机构、人物)

词表

项目

地址

简介

multistop

停用词表,支持中英法德等15种语言

其他可能有帮助的研究

项目

地址

简介

事理知识抽取研究

中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。

领域情感词典构建

使用SO_PMI互信息算法简单快速构建不同领域(手机、汽车等)的专业情感词典

有什么问题请致邮:wujunchaoIU@outlook.com,我会第一时间为你解答

Related Posts

  • NLP文本分类最近开始入坑Tensorflow的一些深度学习的NLP相关实践,同时学习了文本分类领域中基于深度学习…
  • 知识图谱学习资料汇总知识图谱最开始是Google为了优化搜索引擎提出来的,推出之后引起了业界轰动,随后其他搜索公司也纷纷…
  • 信息熵和条件熵机器学习中,绕不开的一个概念就是熵 (Entropy),信息熵。信息熵常被用来作为一个系统的信息含量…
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 开源Python库
  • 知识图谱相关
  • 语料&数据集
  • 词表
  • 其他可能有帮助的研究
    • Related Posts
    相关产品与服务
    灰盒安全测试
    腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档