高级研究员

语言、知识与人工智能

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

 在小程序中，我们有许多近邻检索的场景：例如，在海量的小程序里为用户推荐潜在意图的小程序；在同样海量的小程序内容页面中，快速找到同一主题的下的资讯、视频、知识、商品等各类内容... 随着表示学习技术(Representation Learning)的不断发展，我们有了各种趁手的向量化工具，可以将海量的数据表示为高维图空间的顶点，他们的关系加上特点的距离测度则构成了图的边。那么问题就转化为如何在高维空间里实现快速近邻检索？这个问题有许多的解法，限于篇幅今天我们主要介绍基于HNSW的方法。 1. 前言 进入正题

小程序近邻检索：基于B+树的HNSW外存实现

 背景 随着小程序业务的飞速发展，也诞生了很多垂直形态的搜索推荐场景。由于业务场景和内容形态的双向增长，给现有搜索推荐架构带来了较大压力，每一个场景每一类形态都需要完整走一遍数据采集、特征处理、索引构建、召回、粗/精排、异构混排等全流程，在架构上形成了一定的冗余，各个场景、形态之间的策略、规则长期堆积，也增加了架构的负担。因此，我们构建了统一排序服务，将排序能力算子化，与整体搜索推荐的架构进行解耦，在追求业务敏捷迭代的同时，也保证了架构的稳定性、扩展性和服务能力。 传统流程 一般而言，算法工程师在构建开发与

小程序统一排序服务Mesh化实践

 | 导语 BERT模型在多种下游任务表现优异，但庞大的模型结果也带来了训练及推理速度过慢的问题，难以满足对实时响应速度要求高的场景，模型轻量化就显得非常重要。因此，笔者对BERT系列模型进行剪枝，并部署到实际项目中，在满足准确率的前提下提高推理速度。 一. 模型轻量化     模型轻量化是业界一直在探索的一个课题，尤其是当你使用了BERT系列的预训练语言模型，inference速度始终是个绕不开的问题，而且训练平台可能还会对训练机器、速度有限制，训练时长也是一个难题。    目前业界上主要的轻量化方法如下

最简单的模型轻量化方法：20行代码为BERT剪枝

 | 导语 问答系统是信息检索的一种高级形式，能够更加准确地理解用户用自然语言提出的问题，并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎，问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用户的信息需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。 一、引言        问答系统处理的对象主要包括用户的问题以及答案。根据问题所属的知识领域，问答系统可分为面向限定域的问答系统、面向开放域的问答系统、以及面向常用问题集（Fre

基于深度学习的FAQ问答系统

| 导语 知识图谱的表达方式主要有符号表示和分布式表示两种。分布式表示更利于语义计算和深度模型构建。分布式表示又有距离翻译模型和语义匹配模型。下面内容主要介绍了多种模型和之间的联系，以及基于分布式表达

知识图谱分布式表达与应用

导语 transformer这个模型是Attention is all you need ( Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin) 这篇论文提出的网络框架，发表在NIPS 2017上，本文大致梳理下这个网络的框架结构，和它的一些应用场景。希望有什么错误或者遗漏的地方各位大神可以指出。
1. 框架概述
  

transformer框架概述

| 导语  阅读理解是当前火热的自然语言处理应用方向之一，但在大多数业务场景下都缺少有效的标注数据，这种情况下常常需要借助传统的信息检索方法。本文总结了TREC-9和TREC-10上几个比较经典的基于段落检索的无监督文档型问答系统，并介绍了这类系统的主要框架。
背景
在自动对话机器人或是智能客服中，根据用户问题，从文档中寻找可能的答案是一种很常见的需求。当前有很多基于神经网络的阅读理解模型，但是这些模型都需要大量的标注数据进行训练。在很多业务场景下，却常常难以拿到数量足够的监督数据，有时候甚至没有监督数据。

基于段落检索的无监督阅读理解介绍

《知识图谱的构建、存储和应用》

链接万物——知识图谱的构建、存储和应用

本文则针对中文拼写纠错进行一个简要的概述，主要分享基于n-gram语言模型和困惑集来做中文拼写纠错的方法。

基于语言模型的拼写纠错

本文的重点将介绍传统算法框架中语言理解模块的意图与槽位的联合模型。

【腾讯知文】任务型对话之语言理解

1 什么是任务型机器人
任务型机器人指特定条件下提供信息或服务的机器人。通常情况下是为了满足带有明确目的的用户，例如查流量，查话费，订餐，订票，咨询等任务型场景。由于用户的需求较为复杂，通常情况下需分多轮互动，用户也可能在对话过程中不断修改与完善自己的需求，任务型机器人需要通过询问、澄清和确认来帮助用户明确目的。
2 任务型机器人的组成
任务型机器人核心模块主要包括三部分：
1. 自然语言理解模块——
                   Language Understanding
2. 对话管理模块——

【腾讯知文】任务型对话机器人简介

文章来源：机器之心。
让机器能根据文章的主题思想生成人类能够读懂的文本摘要是一个重要的 NLP 研究问题。腾讯知文团队、苏黎世联邦理工学院、哥伦比亚大学和腾讯 AI Lab 的研究者针对这一任务提出了

IJCAI 2018 | 腾讯知文等提出新型总结式摘要模型：结合主题信息和强化学习训练生成更优摘要

在近日揭晓2018年收录论文名单中，腾讯知文团队有3篇一作长文被录取，我们将对文章进行简要解读，欢迎交流讨论。

IJCAI 2018 | 腾讯知文团队3篇入选论文解读

最近，Hinton老师等提出了胶囊网络, 用神经元向量代替传统神经网络的单个神经元节点，以dynamic routing的方式去训练这种全新的神经网络。

胶囊网络(Capsule Network)在文本分类的探索

从内容属性去理解用户行为，预测用户行为，那么也可以通过理解用户行为去理解内容，预测内容属性。

从用户行为去理解内容-item2vec及其应用

如何将合适的游戏文本打上正确的关键词标签，并将内容推送给恰当的用户成为一个重要的课题。

游戏文本关键词提取工作的尝试和探索

基于传统的图像局部二值特征的图像识别与匹配，有没有更简单的特征融合方法？

都是知识点！更简单的图像匹配特征融合法，你Get到了吗？

如果你也跃跃欲试，不妨选一个合适的任务，开启数据挖掘之旅吧。

【干货】Kaggle 数据挖掘比赛经验分享

工匠的玩具
可能是太过于孤独的缘故，人类很早就开始了对人工智能的想象。大约在公元前900年，在中国的西周时期，据载有个巧匠就发明了一个神奇的机器舞姬，第一是外形和常人无异：
周穆王西巡狩......道有献工名偃师......王荐之，曰：‘若与偕来者何人邪？’对曰：‘臣之所造能倡者。’穆王惊视之，趋步俯仰，信人也。
第二是能歌善舞：
巧夫颔其颐，则歌合律；捧其手，则舞应节。千变万化，惟意所适。”因而周穆王“以为宝人也，与盛姬内御并观之。
第三是还能调戏王的女人：
技将终，倡者瞬其目而招王之左右侍妾。
根据描述

如何让机器理解我们的语言（二） 人工智能的映像变迁

| 导语 随着近几年文本信息的爆发式增长，人们每天能接触到海量的文本信息，如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容，已成为我们的一个迫切需求，而自动文本摘要（automatic text summarization）则提供了一个高效的解决方案。

当深度学习遇见自动文本摘要

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了语言、知识与人工智能专栏，为你提供了语言、知识与人工智能的相关文章，致力于帮助开发者快速成长与发展。

语言、知识与人工智能

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐