首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

800万中文词,腾讯AI Lab开源大规模NLP数据集

10 月19 日,腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇。...▌腾讯 AI Lab 词向量的特点 腾讯 AI Lab 此次公开的中文词向量数据包含 800 多万中文词汇,其中每个词对应一个 200 维的向量。...相比现有的中文词向量数据,腾讯 AI Lab中文词向量着重提升了以下 3 个方面: 覆盖率(Coverage): 该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天...▌中文 NLP 数据集的意义 近年来,深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。...因此,腾讯 AI Lab 开源中文词向量数据对中文 NLP 的研究者来说,绝对算得上是一个利好消息。

89130

腾讯AI Lab开源800万中文词的NLP数据集 | 资源

腾讯AI实验室宣布,正式开源一个大规模、高质量的中文词向量数据集。 该数据包含800多万中文词汇,相比现有的公开数据集,在覆盖率、新鲜度及准确性上大幅提高。...数据集特点 总体来讲,腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。...以“因吹斯汀”为例,利用腾讯AI Lab词向量计算出的语义相似词如下: 一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了 准确性(Accuracy):...训练算法: 腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法作为词向量的训练算法。...希望腾讯AI实验室的开源之举,多多益善吧~ 传送门 数据下载地址:https://ai.tencent.com/ailab/nlp/embedding.html 作者系网易新闻·网易号“各有态度”签约作者

3.3K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    800万中文词,腾讯AI Lab开源大规模NLP数据集

    源 | AI科技大本营 10 月19 日,腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇。...▌腾讯 AI Lab 词向量的特点 腾讯 AI Lab 此次公开的中文词向量数据包含 800 多万中文词汇,其中每个词对应一个 200 维的向量。...相比现有的中文词向量数据,腾讯 AI Lab中文词向量着重提升了以下 3 个方面: 覆盖率(Coverage): 该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天...▌中文 NLP 数据集的意义 近年来,深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。...因此,腾讯 AI Lab 开源中文词向量数据对中文 NLP 的研究者来说,绝对算得上是一个利好消息。

    85730

    中文NLP笔记:12 中文情感分析

    图片发自简书App 中文情感分析 什么是情感分析   即分析主体对某一客体的主观喜恶和评价   由两个方面来衡量   情感倾向方向   情感倾向度 情感分析的方法主要分为两类  ...这样效果会比通用情感词典更好;   也可以通过人工标注大量电影评论来构建分类器   也可以通过聚合篇章中所有的句子的情感倾向来计算得出   句子级   大多通过计算句子里包含的所有情感词的值来得到 中文情感分析的一些难点...  句子是由词语根据一定规则构成的,应该把词语的依存关系纳入到情感的计算过程中去   不同的依存关系,进行情感计算是不一样的 ---- 学习资料: 《中文自然语言处理入门实战》

    3.1K20

    NLP笔记:中文分词工具简介

    引言 在NLP任务当中,我们第一步要处理的问题,往往是分词问题。 不同于英文等语言中天然的以空格为分隔的分词方式,中文的分词本身就需要针对语意进行理解,这使得其分词便成为了一个复杂的问题。...当然,在一些中文nlp任务中,可以直接采用字级别的分词方式,即直接以单字作为输入单元,这样的方式可以绕过分词问题,而且其所需的词表也往往会大幅减小,事实上bert的中文模型也是基本依赖于字级别的分词处理方式...因此,更多的情况下,我们需要保留分词这一个步骤,而后基于分词的结果进行中文nlp任务的训练。 下面,我们就来介绍几种常用的中文分词工具。...更确切的说,他事实上包含了nlp在语意层面的各种轻量级的功能模型实现,包括命名实体识别(NER)、词性分析(POS)、语义角色标注(SRL)以及依存句法分析(DP)。...4. bert的中文分词处理方法 bert中文分词事实上算不上是一个真实的分词工具,但是由于他是bert中文模型的默认分词方法,因此,纵使其在分词效果的意义上性能并不好,但是它依然具有极其广泛的应用。

    4.9K21

    资源 | 中文NLP资源库

    乾明 编辑整理 量子位 出品 | 公众号 QbitAI 最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。...中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典。...词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库。...否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库。...地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。 ? 目前,这份资源在GitHub上已经超过了700星。

    1.6K20

    腾讯AI Lab与哈工大SCIR共探NLP前沿

    哈工大SCIR研究中心是NLP的领军学术研究团体,腾讯AI LabNLP团队则在产业应用方面有着十多年的深厚积累,双方强强联合的无边界合作,将为NLP技术的突破和创新应用落地带来无限可能。 ?...目前,腾讯AI LabNLP团队深度参与了联合实验室的研究。...腾讯AI Lab 腾讯AI Lab立志打造世界顶尖人工智能团队,目标是Make AI Everywhere(人工智能演绎,未来无所不在)。...在NLP(自然语言处理)领域,AI Lab有超过十年的经验积累,研发专注于搜索、推荐、基础NLP和大数据等方向。...研究中心经过10余年时间研制出的“语言技术平台LTP”,已免费共享给600多家研究机构,获2010年钱伟长中文信息处理科学技术一等奖,2016年黑龙江省科技进步一等奖。

    2.6K80

    中文NLP笔记:7. 基于HMM的中文分词

    今天也继续来学一波nlp技术。 ?...基于 HMM 的中文分词器   在分词上,要做的是:已知 参数(ObservedSet、TransProbMatrix、EmitRobMatrix、InitStatus),求解状态值序列   解决这个问题的最有名的方法是...Viterbi 算法   一般流程为:   语料准备     爬取文本,用空格隔开   定义 HMM 中的状态,初始化概率,以及中文停顿词   将 HMM 模型封装为独立的类 HMM_Model...            pass         #模型分词预测         def lcut(self, sentence):             pass     继承 HMM_Model 类并实现中文分词器训练...、分词功能     init(),构造函数,定义了初始化变量     read_txt(),加载训练语料,读入文件为 txt,并且 UTF-8 编码,防止中文出现乱码     train(),根据单词生成观测序列和状态序列

    1.6K30

    专栏 | 中文NLP难于英文?从语言学角度看中文NLP、NLU难在哪里

    竹间智能专栏 作者:竹间智能自然语言与深度学习小组 长期以来,中文自然语言处理(NLP)的研究遭遇瓶颈,其中一个重要原因就是中文的语言学基本无法迁移到已有的成熟的深度学习模型中,这也是中文 NLP 难于英文的重要原因之一...而竹间智能在自然语言处理的研究中,结合深度学习、语言学和心理学等,通过 NLU 来弥补传统中文 NLP 在语言理解上的不足,取得了不错的成果。...在此和大家分享一些竹间智能在中文自然语言交互研究中的经验和思考。 本文结合语言学和 NLP 的几个基本任务,从理论上对中文 NLP 的特点进行说明,同时展望 NLU 在中文自然语言交互上的一些方向。...中文分词也是英文和中文 NLP 的一个基本不同,英文不需要分词,而中文需要进行分词,以便能够更好地进行后续 NLP 任务。当然,目前也有一些中文 NLP 技术,可以避开中文分词任务。 2....NLU 的出现也对中文 NLP 起到了重要的补足作用。

    1.5K90

    Awesome-Chinese-NLP中文自然语言处理相关资料

    Corpus 中文语料 3. Organizations 中文NLP学术组织及竞赛 4. Industry 中文NLP商业服务 5....,取名于“牙牙学语” 小明NLP (Python) 轻量级中文自然语言处理工具 DeepNLP (Python) Deep Learning NLP Pipeline implemented on Tensorflow...Chinese Word Segment 中文分词 Jieba 结巴中文分词 (Python及大量其它编程语言衍生) 做最好的 Python 中文分词组件 北大中文分词工具 (Python) 高准确度中文分词工具...spaCy POS) 中文word2vec模型 上百种预训练中文词向量 Tencent AI Lab Embedding Corpus for Chinese Words and Phrases Synonyms...Lab 中国中文信息学会 NLP Conference Calender Main conferences, journals, workshops and shared tasks in NLP community

    5.6K12

    相似词查询:玩转腾讯 AI Lab 中文词向量

    周末闲来无事,给AINLP公众号聊天机器人加了一个技能点:中文相似词查询功能,基于腾讯 AI Lab 之前公布的一个大规模的中文词向量,例如在公众号对话窗口输入"相似词 自然语言处理",会得到:自然语言理解...万中文词随你用 从公开描述来看,这份词向量的质量看起来很不错: 腾讯AI Lab此次公开的中文词向量数据包含800多万中文词汇,其中每个词对应一个200维的向量。...相比现有的中文词向量数据,腾讯AI Lab中文词向量着重提升了以下3个方面,相比已有各类中文词向量大大改善了其质量和可用性: ⒈ 覆盖率(Coverage): 该词向量数据包含很多现有公开的词向量数据所欠缺的短语...在腾讯公司内部的对话回复质量预测和医疗实体识别等业务场景中,腾讯AI Lab提供的中文词向量数据都带来了显著的性能提升。...输入"相似词 AI"、"相似词 NLP"会得到: ? 当然,要是输入的"词条"没有在这份词库中,AINLP的聊天机器人无名也无能为力了,例如输入"词向量","AINLP",那是没有的: ?

    2.5K21

    PaddleNLP:工业级中文NLP开源工具集

    为了适应全面丰富的NLP任务,方便更多开发者灵活插拔尝试多种网络结构,并且让应用最快速达到工业级效果,今年4月23日,百度正式开放了工业级中文NLP工具与预训练模型集——PaddleNLP(nlp.baidu.com...NLP技术方案。...除了保持技术先进,百度也不断关注开发者对NLP工具的具体需求,希望打造一个全面、易用、高效的开源NLP工具集,让NLP技术有更广泛的落地应用场景。...全面、灵活、高效,打造强大的PaddleNLP 全面:涵盖应用任务和基础网络,提供丰富任务类型 PaddleNLP基于十几年的技术积累,提供了全面丰富的中文处理任务,涵盖了文本分类、文本匹配、序列标注、...欢迎您了解更多百度NLP开源工具集能力: 百度NLP开源工具集主页地址: nlp.baidu.com/homepage/nlptools 百度NLP开源工具集GitHub地址: github.com/PaddlePaddle

    1.1K30

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    热门标签

    领券