首页
学习
活动
专区
工具
TVP
发布

语言、知识与人工智能

专栏作者
21
文章
95872
阅读量
183
订阅数
小程序近邻检索:基于B+树的HNSW外存实现
在小程序中,我们有许多近邻检索的场景:例如,在海量的小程序里为用户推荐潜在意图的小程序;在同样海量的小程序内容页面中,快速找到同一主题的下的资讯、视频、知识、商品等各类内容... 随着表示学习技术(Representation Learning)的不断发展,我们有了各种趁手的向量化工具,可以将海量的数据表示为高维图空间的顶点,他们的关系加上特点的距离测度则构成了图的边。那么问题就转化为如何在高维空间里实现快速近邻检索?这个问题有许多的解法,限于篇幅今天我们主要介绍基于HNSW的方法。 1. 前言 进入正题
腾讯知文实验室
2020-07-07
1.6K1
小程序统一排序服务Mesh化实践
背景 随着小程序业务的飞速发展,也诞生了很多垂直形态的搜索推荐场景。由于业务场景和内容形态的双向增长,给现有搜索推荐架构带来了较大压力,每一个场景每一类形态都需要完整走一遍数据采集、特征处理、索引构建、召回、粗/精排、异构混排等全流程,在架构上形成了一定的冗余,各个场景、形态之间的策略、规则长期堆积,也增加了架构的负担。因此,我们构建了统一排序服务,将排序能力算子化,与整体搜索推荐的架构进行解耦,在追求业务敏捷迭代的同时,也保证了架构的稳定性、扩展性和服务能力。 传统流程 一般而言,算法工程师在构建开发与
腾讯知文实验室
2020-06-24
6780
最简单的模型轻量化方法:20行代码为BERT剪枝
| 导语 BERT模型在多种下游任务表现优异,但庞大的模型结果也带来了训练及推理速度过慢的问题,难以满足对实时响应速度要求高的场景,模型轻量化就显得非常重要。因此,笔者对BERT系列模型进行剪枝,并部署到实际项目中,在满足准确率的前提下提高推理速度。 一. 模型轻量化     模型轻量化是业界一直在探索的一个课题,尤其是当你使用了BERT系列的预训练语言模型,inference速度始终是个绕不开的问题,而且训练平台可能还会对训练机器、速度有限制,训练时长也是一个难题。    目前业界上主要的轻量化方法如下
腾讯知文实验室
2019-11-22
6.6K1
基于深度学习的FAQ问答系统
| 导语 问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎,问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用户的信息需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。 一、引言        问答系统处理的对象主要包括用户的问题以及答案。根据问题所属的知识领域,问答系统可分为面向限定域的问答系统、面向开放域的问答系统、以及面向常用问题集(Fre
腾讯知文实验室
2018-08-28
17.6K7
知识图谱分布式表达与应用
| 导语 知识图谱的表达方式主要有符号表示和分布式表示两种。分布式表示更利于语义计算和深度模型构建。分布式表示又有距离翻译模型和语义匹配模型。下面内容主要介绍了多种模型和之间的联系,以及基于分布式表达
腾讯知文实验室
2018-08-15
1.8K0
transformer框架概述
导语 transformer这个模型是Attention is all you need ( Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin) 这篇论文提出的网络框架,发表在NIPS 2017上,本文大致梳理下这个网络的框架结构,和它的一些应用场景。希望有什么错误或者遗漏的地方各位大神可以指出。 1. 框架概述   
腾讯知文实验室
2018-08-14
4.8K5
基于段落检索的无监督阅读理解介绍
| 导语  阅读理解是当前火热的自然语言处理应用方向之一,但在大多数业务场景下都缺少有效的标注数据,这种情况下常常需要借助传统的信息检索方法。本文总结了TREC-9和TREC-10上几个比较经典的基于段落检索的无监督文档型问答系统,并介绍了这类系统的主要框架。 背景 在自动对话机器人或是智能客服中,根据用户问题,从文档中寻找可能的答案是一种很常见的需求。当前有很多基于神经网络的阅读理解模型,但是这些模型都需要大量的标注数据进行训练。在很多业务场景下,却常常难以拿到数量足够的监督数据,有时候甚至没有监督数据。
腾讯知文实验室
2018-08-13
1.6K0
链接万物——知识图谱的构建、存储和应用
《知识图谱的构建、存储和应用》
腾讯知文实验室
2018-07-31
7660
基于语言模型的拼写纠错
本文则针对中文拼写纠错进行一个简要的概述,主要分享基于n-gram语言模型和困惑集来做中文拼写纠错的方法。
腾讯知文实验室
2018-07-04
7.4K0
【腾讯知文】任务型对话之语言理解
本文的重点将介绍传统算法框架中语言理解模块的意图与槽位的联合模型。
腾讯知文实验室
2018-06-13
12.9K4
【腾讯知文】任务型对话机器人简介
1 什么是任务型机器人 任务型机器人指特定条件下提供信息或服务的机器人。通常情况下是为了满足带有明确目的的用户,例如查流量,查话费,订餐,订票,咨询等任务型场景。由于用户的需求较为复杂,通常情况下需分多轮互动,用户也可能在对话过程中不断修改与完善自己的需求,任务型机器人需要通过询问、澄清和确认来帮助用户明确目的。 2 任务型机器人的组成 任务型机器人核心模块主要包括三部分: 1. 自然语言理解模块—— Language Understanding 2. 对话管理模块——
腾讯知文实验室
2018-06-08
5.3K3
IJCAI 2018 | 腾讯知文等提出新型总结式摘要模型:结合主题信息和强化学习训练生成更优摘要
文章来源:机器之心。 让机器能根据文章的主题思想生成人类能够读懂的文本摘要是一个重要的 NLP 研究问题。腾讯知文团队、苏黎世联邦理工学院、哥伦比亚大学和腾讯 AI Lab 的研究者针对这一任务提出了
腾讯知文实验室
2018-06-08
9400
IJCAI 2018 | 腾讯知文团队3篇入选论文解读
在近日揭晓2018年收录论文名单中,腾讯知文团队有3篇一作长文被录取,我们将对文章进行简要解读,欢迎交流讨论。
腾讯知文实验室
2018-06-08
9.2K3
胶囊网络(Capsule Network)在文本分类的探索
最近,Hinton老师等提出了胶囊网络, 用神经元向量代替传统神经网络的单个神经元节点,以dynamic routing的方式去训练这种全新的神经网络。
腾讯知文实验室
2018-06-08
2.7K9
从用户行为去理解内容-item2vec及其应用
从内容属性去理解用户行为,预测用户行为,那么也可以通过理解用户行为去理解内容,预测内容属性。
腾讯知文实验室
2018-02-08
6.8K2
游戏文本关键词提取工作的尝试和探索
如何将合适的游戏文本打上正确的关键词标签,并将内容推送给恰当的用户成为一个重要的课题。
腾讯知文实验室
2018-02-08
2.9K0
都是知识点!更简单的图像匹配特征融合法,你Get到了吗?
基于传统的图像局部二值特征的图像识别与匹配,有没有更简单的特征融合方法?
腾讯知文实验室
2018-02-08
1.6K0
【干货】Kaggle 数据挖掘比赛经验分享
如果你也跃跃欲试,不妨选一个合适的任务,开启数据挖掘之旅吧。
腾讯知文实验室
2018-02-08
1.5K0
如何让机器理解我们的语言(二) 人工智能的映像变迁
工匠的玩具 可能是太过于孤独的缘故,人类很早就开始了对人工智能的想象。大约在公元前900年,在中国的西周时期,据载有个巧匠就发明了一个神奇的机器舞姬,第一是外形和常人无异: 周穆王西巡狩......道有献工名偃师......王荐之,曰:‘若与偕来者何人邪?’对曰:‘臣之所造能倡者。’穆王惊视之,趋步俯仰,信人也。 第二是能歌善舞: 巧夫颔其颐,则歌合律;捧其手,则舞应节。千变万化,惟意所适。”因而周穆王“以为宝人也,与盛姬内御并观之。 第三是还能调戏王的女人: 技将终,倡者瞬其目而招王之左右侍妾。 根据描述
腾讯知文实验室
2018-02-08
9390
当深度学习遇见自动文本摘要
| 导语 随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(automatic text summarization)则提供了一个高效的解决方案。
腾讯知文实验室
2018-01-25
2.3K2
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档