展开

关键词

玩转:Game of Words(语的加减游戏)

上一篇文章《实战:通过Annoy进行索引和快速查询》结束后,觉得可以通过Annoy做一点有趣的事,把“类比(Word Analogy)”操作放到线上,作为AINLP公众号聊天机器人的新技能, 英文类比中最有名的一个例子大概就是: king - man + woman = queen, 当我把这个例子换成中文映射到的中文中并且用gensim来计算,竟然能完美复现:国王 - 男人 + 虽然知道即使在英文中,完美的类比列子也不多,另外据说换到中文场景下,上述例子会失效,没想到在AI Lab这份中得到完美复现,还是要赞一下的,虽然感觉这份在处理的边界上不够完美 ,引入了很多无关介,但是大力()出奇迹,882万的条数,一方面有很高的语覆盖率,另外一方面可以完美的将英文空间中的king - man + woman = queen映射到中文空间的国王 在此前google的时候,据说在中文场景下一个更容易出现的类比例子是:机场-飞机+火车=火车站,这个确实可以通过gensim在中得到复现:?

39320

实战:通过Annoy进行索引和快速查询

上周《玩转语相似度计算和在线查询》推出后,有同学提到了annoy,我其实并没有用annoy,不过对annoy很感兴趣,所以决定用annoy试一下 AI Lab 。 :pip install annoy,然后大概可以按着官方文档体验一下最简单的case了:In : import randomIn : from annoy import AnnoyIndex# f是维度 非常有用,特别是做线上服务的时候,现在有很多Object2Vector, 无论这个Object是Word, Document, User, Item, Anything, 当这些对象被映射到空间后,

2.2K50
  • 广告
    关闭

    云产品限时秒杀

    云服务器1核2G首年50元,还有多款热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    相似查询:玩转 AI Lab 中文

    关于这份中文 Tencent_AILab_ChineseEmbedding.txt ,解压后大概16G,可参考去年10月份官方的描述:AI Lab开源大规模高质中文数据,800 万中文随你用从公开描述来看,这份的质看起来很不错:AI Lab此次公开的中文数据包含800多万中文汇,其中每个对应一个200维的。 相比现有的中文数据,AI Lab的中文着重提升了以下3个方面,相比已有各类中文大大改善了其质和可用性:⒈ 覆盖率(Coverage):该数据包含很多现有公开的数据所欠缺的短语 在公司内部的对话回复质预测和医疗实体识别等业务场景中,AI Lab提供的中文数据都带来了显著的性能提升。 另外这里用到的这份数据的条数总计8824330,最长的一个条是:关于推进传统基础设施领域政府和社会资本合作(ppp)项目资产证券化相关工,查询的结果是:?

    87120

    基于AI Lab进行未知、短语补齐与域内相似搜索

    AI Lab开源大规模高质中文数据,800万中文随你用,质非常高,就是一个.txt文件都有16G之多,太夸张了。。 以“喀拉喀什河”为例,利用AI Lab计算出的语义相似如下:墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河⒉ 新鲜度(Freshness):该数据包含一些最近一两年出现的新 以“因吹斯汀”为例,利用AI Lab计算出的语义相似如下:一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了⒊ 准确性(Accuracy):由于采用了更大规模的训练数据和更好的训练算法 ,所生成的能够更好地表达之间的语义关系。 AI Lab采用自研的Directional Skip-Gram (DSG)算法作为的训练算法。

    98031

    】Hsigmoid加速训练

    本周推文目录如下:周三:【】Hsigmoid加速训练周四:【】 噪声对比估计加速训练周五:【RNN语言模型】使用RNN语言模型生成文本用一个实表示语,的每个维都表示文本的某种潜在语法或语义特征 Hsigmoid加速训练|1.背景介绍在自然语言处理领域中,传统做法通常使用one-hot来表示,比如典为,可以用、和这三个分别表示我、你和喜欢。 这种表示方式比较简洁,但是当表很大时,容易产生维度爆炸问题;而且任意两个是正交的,包含的信息有限。 为了避免或减轻one-hot表示的缺点,目前通常使用来取代one-hot表示,也就是word embedding,即使用一个低维稠密的实取代高维稀疏的one-hot。 网络输入为在字典中的id,然后查询表获取,接着拼接4个,然后接入一个全连接隐层,最后是Hsigmoid层。详细网络结构见图2:?图2.

    45980

    【NLP-的由来及本质

    计划用3-4次,彻底说清楚在自然语言处理中,的由来,本质和训练。公众号专栏主要讲基本原理,知识星球讲实际的操作。本篇主要讲述的由来及本质。 最容易想到的,就是对文本进行化的表示。例如,根据语料库的分结果,建立一个典,每个用一个来表示,这样就可以将文本化了。最早的文本化方法是袋模型,我们先来看看袋模型。 2 袋模型要讲,我们首先不得不说的就是袋模型。袋模型是把文本看成是由一袋一袋的构成的。 接下来,就“粉墨登场”了。3 相比于袋模型,是一种更为有效的表征方式。怎么理解呢?其实就是用一个一定维度(例如128,256维)的来表示典里的。 5 总结上面详细介绍了的来历和作用,并介绍了一种的训练方法。在实际过程中,并不是用上述神经网络来训练的因为是如此的重要,NLP工作者们设计了专门的网络来训练

    44220

    转化为

    NLP的相关任务中,要将我们能看懂的语言交给计算机来处理,通常需要首先将语言数学化,只有这样机器才能认得出,而正是将我们看懂的进行数学化的一种方法,就是把一个语表示成一个。 ,直接将典的长度标记为的长度,每个的分只有一个为1,其余全为0,1的位置对应该典的位置,比如:adore 表示为 respect表示为 这种表示方法的优点是简洁清晰,用哈希表给每个分配一个编号就可以了 ,维度一般不长,比如50维,这个怎么表示是要经过训练的,训练方法较多,谷歌开发的word2vec便是其中一个,比如长这样 ,当然训练的预料库不一样,或者方法不一样,最终得到了某个长的也不一样 显然,这种方法获得了 adore 和 respect 两个,这样他俩组成了一个空间,而每一个则为该空间中的一个点,即的终端点,那么adore和repect这两个点的距离,我们就可以拿来分析了 利用这个特性,可以用于机器翻译领域,通过空间,把一种语言转变成另一种语言,举个别人的例子,将英语中的one, two, ..., five自动转化为西班牙语,怎么做呢,首先得到这5个,如下图所示

    77400

    AI Lab开源大规模高质中文数据,800万中文随你用

    今日,AI Lab 宣布开源大规模、高质的中文数据。 AI Lab的特点 AI Lab此次公开的中文数据包含800多万中文汇,其中每个对应一个200维的。 相比现有的中文数据,AI Lab的中文着重提升了以下3个方面,相比已有各类中文大大改善了其质和可用性: ⒈ 覆盖率(Coverage): 该数据包含很多现有公开的数据所欠缺的短语 在公司内部的对话回复质预测和医疗实体识别等业务场景中,AI Lab提供的中文数据都带来了显著的性能提升。 AI Lab的构建 为了生成高覆盖率、高新鲜度、高准确性的数据,AI Lab主要从以下3个方面对的构建过程进行了优化: ⒈ 语料采集: 训练的语料来自新闻和天天快报的新闻语料

    13.6K150

    AI Lab开源800万中文的NLP数据集 | 资源

    允中 发自 凹非寺 子位 报道 鹅厂开源,+1 again~又一来自AI实验室的资源帖。AI实验室宣布,正式开源一个大规模、高质的中文数据集。 数据集特点总体来讲,AI实验室此次公开的中文数据集包含800多万中文汇,其中每个对应一个200维的。 具体方面,自称,该数据集着重在3方面进行了提升:覆盖率(Coverage):该数据集包含很多现有公开的数据集所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜 他们围绕3方面分享了构建及优化经验:语料采集:训练的语料来自新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。 训练算法:AI Lab采用自研的Directional Skip-Gram (DSG)算法作为的训练算法。

    2.1K30

    AI Lab 开源大规模高质中文数据,800 万中文随你用!

    今日, AI Lab 宣布开源大规模、高质的中文数据。 AI Lab 的特点 AI Lab 此次公开的中文数据包含 800 多万中文汇,其中每个对应一个 200 维的。 相比现有的中文数据, AI Lab 的中文着重提升了以下 3 个方面,相比已有各类中文大大改善了其质和可用性: 1. 在公司内部的对话回复质预测和医疗实体识别等业务场景中, AI Lab 提供的中文数据都带来了显著的性能提升。 AI Lab 的构建为了生成高覆盖率、高新鲜度、高准确性的数据, AI Lab 主要从以下 3 个方面对的构建过程进行了优化: 1.

    67931

    800万中文AI Lab开源大规模NLP数据集

    源 | AI科技大本营10 月19 日, AI Lab 宣布开源大规模、高质的中文数据。该数据包含 800 多万中文汇。 ▌ AI Lab 的特点 AI Lab 此次公开的中文数据包含 800 多万中文汇,其中每个对应一个 200 维的。 相比现有的中文数据, AI Lab 的中文着重提升了以下 3 个方面:覆盖率(Coverage):该数据包含很多现有公开的数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天 ▌ AI Lab 的构建为了生成高覆盖率、高新鲜度、高准确性的数据, AI Lab 主要从以下 3 个方面对的构建过程进行了优化:语料采集:训练的语料来自新闻和天天快报的新闻语料 因此, AI Lab 开源中文数据对中文 NLP 的研究者来说,绝对算得上是一个利好消息。

    47730

    800万中文AI Lab开源大规模NLP数据集

    10 月19 日, AI Lab 宣布开源大规模、高质的中文数据。该数据包含 800 多万中文汇。 ▌ AI Lab 的特点 AI Lab 此次公开的中文数据包含 800 多万中文汇,其中每个对应一个 200 维的。 相比现有的中文数据, AI Lab 的中文着重提升了以下 3 个方面:覆盖率(Coverage):该数据包含很多现有公开的数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天 ▌ AI Lab 的构建为了生成高覆盖率、高新鲜度、高准确性的数据, AI Lab 主要从以下 3 个方面对的构建过程进行了优化:语料采集:训练的语料来自新闻和天天快报的新闻语料 因此, AI Lab 开源中文数据对中文 NLP 的研究者来说,绝对算得上是一个利好消息。

    61130

    综述

    综述one-hotby neighbor基于全文档的基于window的SVDSkip-Gram结构输入输出学习算法优化角度改进word pairsub-sampling frequent 过时性:新的不可以及时更新主观性需要人力去创造典集合较难计算之间的相似度具体地,在计算机中是以的表示的,该对应的index的值为1,其他为0。 基于全文档的word count matrixtf-idf matrixLSA基于window的一般来说,基于window的有以下特点:window长为5-10对称性,不区分左边右边一些功能 上图中,like和enjoy的相似度就很高,通过co-occurrence matrix确实可以构建反映语义的。 SVD上面的co-occurrence matrix的维度是汇库的维度,太长。可以通过SVD降维得到维度较低的

    83060

    关于

    假设语料库中有V个,那么语料库中的任一都可以表示为一个长度为V的,另外,每个都有一个unique的id,one-hot将id相应位置置为1,其他位置为0来表示这个。 ,m为的维度。 RNNLM的训练复杂度为h*h+h*V,其中h=d,说明的嵌入维通常与隐层节点时一致。 这个时候R=2,相对应的,那4个单记为v(w(t-2)),v(w(t-1)),v(w(t+1)),v(w(t+2))。从输入层到映射层比较简单,将那n-1个相加即可。 Skip-gram(Continuous Skip-gram Model)Skip-gram也是word2vec模型重要概念之一,与COBW不同是,Skip-gram的输入是当前,而输出是周围

    35730

    】 噪声对比估计加速训练

    本周推文目录如下:周三:【】Hsigmoid加速训练周四:【】 噪声对比估计加速训练周五:【RNN】使用RNN语言模型生成文本用一个实表示语,的每个维都表示文本的某种潜在语法或语义特征 在任务中,我们大家展示如何使用Hierarchical-Sigmoid 和噪声对比估计(Noise Contrastive Estimation,NCE)来加速的学习。 02噪声对比估计加速训练|1. 为什么需要噪声对比估计语言模型是许多自然语言处理任务的基础,也是获得表示的一种有效方法。 层:id 表示通过层作用得到连续表示的表示,能够更好地体现之间的语义关系。训练完成之后,语之间的语义相似度可以使用之间的距离来表示,语义越相似,距离越近。 拼接层:将进行串联,并将首尾相接形成一个长。这样可以方便后面全连接层的处理。全连接隐层:将上一层获得的长输入到一层隐层的神经网络,输出特征

    1.1K70

    云自然语言处理 NLP:产品介绍 & 产品功能

    产品深度整合了内部(包括AI Lab,信息安全团队、AI平台部、翻译君和知文团队自研等)优秀的 NLP 前沿技术,依托于海中文语料累积,全面覆盖了从基础到高级的智能文本处理能力。 其中,基础版包括法分析、句法分析、篇章分析、技术、情感分析、文本纠错、文本分类等;高级版包括敏感识别、文本审核等。 - 云自然语言处理 API文档:https:cloud.tencent.comdocumentproduct27135484NLP.png二、产品功能:产品全面覆盖了从法、句法到篇章级别等各个粒度的 其中,法分析包括智能分性标注、命名实体识别等;句法分析包括句法依存分析、文本纠错、句等;篇章分析包括情感分析、关键提取、文本分类、自动摘要、敏感识别、文本审核等。 级别的自然语言处理功能还包括:(WordEmbedding),相似度(WordSimilarity)等。

    82800

    游戏:梅西-阿根廷+葡萄牙=?

    自从把对接到AINLP公众号后台后,发现相似相关的查询需求是逐渐增大的,已经不止一次有非CS专业的同学通过后台查询相似或者相似度来做课程设计,这让我觉得这个事情有一些意义,当然,通过微信( 公众号)后台快速查询相似(同义、近义、反义)这个需求应该是更普遍的,欢迎推荐给有需求的朋友。 关于、相似、相似度、语加减,这里写了一些文章:相似查询:玩转 AI Lab 中文玩转语相似度计算和在线查询实战:通过Annoy进行索引和快速查询玩转 :Game of Words(语的加减游戏)特别是最后一篇文章,在这篇文章发布后,很多同学通过AINLP的公众号后台对话玩得很嗨,并且在微博、微信平台留言,这里基于大家的群体智慧,提供一些有意思的( ,一些好玩的结果===中国+力=中国强大AI+NLP=机器学习CEO+微软=纳德拉谷歌+浏览器=chrome浏览器苹果+浏览器=safari浏览器+浏览器=应用宝银行+打劫=贷款公司牛顿+苹果=爱因斯坦爱因斯坦

    27140

    云自然语言处理 NLP:产品优势 & 应用场景

    技术上,我们整合了内部顶级的 NLP 能力,拥有数千篇相关技术专利和论文。模型上,基于云的机器资源和自研的AutoNLP平台,我们可以快速训练、迭代最新最强的 NLP 模型。 服务上,我们团队曾为数十个亿级用户产品提供坚实的服务支撑。2-服务高效云计算平台保障了服务高效稳定。可以根据不同的客户需求,提供数据动态扩容能力。 3-接口全面云自然语言处理提供了法级、句法级、篇章级、级以及综合文本审核等数十个模块的文本处理能力,可以全面覆盖多种应用场景。 1-社交媒体的用户言论分析使用情感分析接口,对社交媒体上用户的言论进行情感倾分析,通过情感正、负和中性的判别,可以动态监测到海用户的舆情变化,为相关的舆情监控、话题监督或运营活动提供数据支持。 4-新闻个性化推荐针对新闻资类App,使用智能分性标注和命名实体识别接口,可以先对海内容的主题进行分类和标记,然后将不同的内容推荐给关注相应主题的用户,实现千人千面,每个用户看到的都是自己最感兴趣的新闻资

    60570

    【玩转云】【云自然语言处理NLP】自然语言处理的快速调用及应用场景介绍

    目前云自然语言处理(NLP)接口能力有哪些? NLP的接口能力包含法分析、句法分析、篇章分析、技术等各方面技术,共涵盖了16种基本原子能力。 只是开源出去的中文数据就已经包含了800多万中文汇,每个对应一个200维的。 相比现有的中文数据,AI Lab的中文着重提升了以下3个方面,相比已有各类中文大大改善了其质和可用性: ⒈ 覆盖率(Coverage): 该数据包含很多现有公开的数据所欠缺的短语 以“喀拉喀什河”为例,利用AI Lab计算出的语义相似如下: 墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河 ⒉ 新鲜度(Freshness): 该数据包含一些最近一两年出现的新 以“因吹斯汀”为例,利用AI Lab计算出的语义相似如下: 一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了 ⒊ 准确性(Accuracy)

    1.5K7525

    可视化--

    98840

    相关产品

    • 自然语言处理

      自然语言处理

      腾讯云自然语言处理(NLP)深度整合了腾讯内部顶级的 NLP 技术,依托千亿级中文语料累积,提供16项智能文本处理能力,包括智能分词、实体识别、文本纠错、情感分析、文本分类、词向量、关键词提取、自动摘要、智能闲聊、百科知识图谱查询等,满足各行各业的文本智能需求。

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭

      扫码关注云+社区

      领取腾讯云代金券