首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

干货 | 深度学习携程搜索词义解析应用

绝大部分电商搜索是通过搜索框输入搜索词(Query)来完成,因此,搜索词词义解析和意图理解成为了搜索重要一环。...此外,有些词属于可省略词,或者对搜索产生干扰词,也可以通过丢词来处理。 所谓丢词,就是把搜索词相对不重要或者联系不紧密词丢掉,再次召回。那么该如何衡量每个重要程度或者紧密程度?...类目识别,我们利用预训练模型训练网络参数,获取含上下文语义字特征Outputbert;使用字词转换模块,字特征结合位置编码: 获取到分词对应字符片段,如: 代表第i个分词对应长度为li字特征...搜索二次召回排序需要重点关注重要性高term,同时丢词时候可以忽略重要性低term。通过计算用户输入搜索词各个term weight,来二次召回出最接近用户意图产品,提升用户体验。...4 Term Weighting模型框架 由于中文BERT基于字符,因此需要将每个term所有字权重进行求和,从而最终得到term权重

89920

干货 | 深度学习携程搜索词义解析应用

绝大部分电商搜索是通过搜索框输入搜索词(Query)来完成,因此,搜索词词义解析和意图理解成为了搜索重要一环。...此外,有些词属于可省略词,或者对搜索产生干扰词,也可以通过丢词来处理。 所谓丢词,就是把搜索词相对不重要或者联系不紧密词丢掉,再次召回。那么该如何衡量每个重要程度或者紧密程度?...类目识别,我们利用预训练模型训练网络参数,获取含上下文语义字特征Outputbert;使用字词转换模块,字特征结合位置编码: 获取到分词对应字符片段,如: 代表第i个分词对应长度为li字特征...搜索二次召回排序需要重点关注重要性高term,同时丢词时候可以忽略重要性低term。通过计算用户输入搜索词各个term weight,来二次召回出最接近用户意图产品,提升用户体验。...4 Term Weighting模型框架 由于中文BERT基于字符,因此需要将每个term所有字权重进行求和,从而最终得到term权重

53620
您找到你想要的搜索结果了吗?
是的
没有找到

Ubuntu 16.04如何使用PostgreSQL全文搜索

介绍 全文搜索(FTS)是搜索引擎用于在数据库查找结果技术。它可用于为商店,搜索引擎,报纸等网站上搜索结果提供支持。...使用FTS,您可以构建更强大文本搜索引擎,而无需更高级工具上引入额外依赖关系。...本教程,我们将使用PostgreSQL存储包含假设新闻网站文章数据,然后学习如何使用FTS查询数据库并仅选择最佳匹配。最后一步,我们将对全文搜索查询实施一些性能改进。...接下来,在数据库创建一个名为示例表news。此表每个条目都代表一篇新闻文章,其中包含标题,一些内容,作者姓名以及唯一标识符。...注意:本教程,psql输出使用expanded display格式设置,新行上显示输出每一列,从而更容易屏幕上显示长文本。

2.6K60

PowerBI切片器搜索

制作PowerBI报告时,一般来说,我们都会创建一些切片器。为了节省空间,一般情况下尤其是类目比较多时候,大多采用下拉式: ?...不过,选项比较多时候,当你需要查找某个或者某几个城市销售额时,你会发现这是一件很难办事情,比如我们要看一下青岛销售额时: ?...你可能会来回翻好几遍才会找到,这时候再让你去找济南销售情况,你恐怕会抓狂。 那,有没有能够切片器中进行搜索选项呢? 答案是:有的。 如图: ?...只要在Power BI Desktop报告鼠标左键选中切片器,按一下Ctrl+F即可。此时,切片器中会出现搜索框,搜索输入内容点击选择即可: ?...如果想同时看青岛和济南销售额,可以选中青岛后,重新搜索济南,然后按住Ctrl点击鼠标左键即可: ? 发布到云端,同样也可以进行搜索: ?

11.5K20

DNN搜索场景应用

DNN搜索场景应用潜力,也许会比你想象更大。 --《阿里技术》 1.背 景 搜索排序特征在于大量使用了LR,GBDT,SVM等模型及其变种。...FNN基础上,又加上了人工一些特征,让模型可以主动抓住经验更有用特征。 ? ? 3. Deep Learning模型 搜索,使用了DNN进行了尝试了转化率预估模型。...整体模型使用三层全连接层用于sparse+dense特征表征学习,再用两层全连接层用于点击/购买与否分类统一深度学习模型解决方案: 第一层为编码层,包含商品编码,店家编码,类目编码,品牌编码,搜索词编码和用户编码...以上流程,无法处理有重叠词语两个查询短语关系,比如“红色连衣裙”,“红色鞋子”,这两个查询短语都有“红色”这个词语,但是往常处理,这两者并没有任何关系,是独立两个查询ID,如此一来可能会丢掉一些用户对某些词语偏好...异步SGD更新造成模型不稳定 现象:权重学飘掉(非常大或者非常小),权重变化太大。解决:mini batch,一批样本梯度累加到一起,更新一次。

3.5K40

迅搜xunsearch全文搜索引擎负载均衡集群配置方法

迅搜xunsearch全文搜索引擎负载均衡集群配置方法   近来一个电商项目中需要对商品检索实现中文分词和全文搜索功能,,于是使用了国内做得比较好并且是开源迅搜全文搜索引擎,对PHP支持良好并且简单易用好上手...看了迅搜官方说明文档后,以为启动迅搜服务时候以允许局域网访问模式启动就可以了,以bin/xs-ctl.sh -b inet start 命令启动,即监听到所有本地地址上,但发现这样做实际上是行不通...,经过尝试后得出实现方法是这样:   以0号服务器作为搜索数据服务器为例,它IP是192.168.2.210,则以监听这个IP模式启动,启动命令是:bin/xs-ctl.sh -b 192.168.2.210...start,然后0号项目配置文件,server.search配置项要修改默认值,改为:server.search = 192.168.2.210:8384;127.0.0.1:8384(最后一项后面是不需要加分号...值得注意是,有些centos 7操作系统,安装了迅搜服务器后,通过localhost连接时,会一直提示连接被拒绝,原来以为是防火墙原因,后面折腾了很长时间,发现只要将迅搜服务器主机名由localhost

68920

Solr搜索人名小建议

如果我们能够解决两个主要问题,人名搜索问题就解决一大半了。 作者姓名重排,无论是文档还是查询,有些部分都被省略了:(Doug Turnbull, D. Turnbull, D. G....] [dougl] [dougla] [douglas] 有关此过滤器(以及Solr许多其他过滤器)需要注意是,每个生成标记最终索引文档占据相同位置。...Turnbull出现每一处(以及有David G. Turnbull地方)! 结合 好,进入下一环节。现在用户搜索输入“Turnbull,D.”。然后呢?...首先,如上所述,所有生成标记在标记流中共享位置。所以[D.]和[Douglas]索引文档处于相同位置。这意味着,当位置重要时(如在词组查询)“D....请联系我们以获取问题帮助!

2.6K120

搜索权重度量利器: TF-IDF和BM25

我们在网上搜东西时,搜索引擎总是会把相关性高内容显示在前面,相关性低内容显示在后面。那么,搜索引擎是如何计算关键字和内容相关性呢?...如果一个词,很少文档库里出现过,那通过它就容易找到目标,它权重也应该大。反之,如果一个词文档库中大量出现,看到它仍然不清楚讲什么内容,它权重就应该小。...“、地、得”这些虚词出现频率太高,以至于权重设为零也不影响搜素,这也是它们成为停用词原因之一。 IDF定义 假设关键词wn个文档中出现过,那么n越大,则w权重越小。...BM25 传统TF-IDF是自然语言搜索一个基础理论,它符合信息论计算原理,虽然作者刚提出它时并不知道与信息熵有什么关系,但你观察IDF公式会发现,它与熵公式是类似的。...相关文章 Elasticsearch全文检索与余弦相似度 推荐引擎算法 - 猜你喜欢东西 用逻辑回归对用户分类 (理论+实战)

1.8K21

必会算法:旋转有序数组搜索

大家好,我是戴先生 今天给大家介绍一下如何利用玄学二分法找出目标值元素 想直奔主题可直接看思路2 ##题目 整数数组 nums 按升序排列,数组值互不相同 传递给函数之前,nums...: 将数组第一个元素挪到最后操作,称之为一次旋转 现将nums进行了若干次旋转 给你 旋转后 数组 nums 和一个整数 target 如果 nums 存在这个目标值 target 则返回它下标...这样思路就非常清晰了 二分查找时候可以很容易判断出 当前中位数是第一段还是第二段 最终问题会简化为一个增序数据普通二分查找 我们用数组[1,2,3,4,5,6,7,8,9]举例说明 target...所以可以判断出 此时mid=4是处在第一段 而且目标值mid=4前边 此时,查找就简化为了增序数据查找了 以此类推还有其他四种情况: mid值第一段,且目标值前边 mid值第二段...,且目标值前边 mid值第二段,且目标值后边 mid值就是目标值 ###代码实现2 套用二分查找通用公式 思路2代码实现如下 public static int getIndex(int

2.8K20

NLP技术搜索推荐场景应用

NLP技术搜索推荐应用非常广泛,例如在搜索广告CTR预估模型,NLP技术可以从语义角度提取一些对CTR预测有效信息;搜索场景,也经常需要使用NLP技术确定展现物料与搜索query相关性...这篇工作应用场景是必应搜索广告,需要对给定搜索词下不同广告document进行CTR预测,并根据预测CTR进行排序。...相关性和CTR预估问题存在比较大差异,相关性是影响CTR一个因素,CTR还受到user、展现创意质量等多种因素影响。相比而言,相关性更加客观衡量了搜索词和展现商品是否匹配。...4 总结 本文主要介绍了NLP技术搜索推荐场景应用。...搜索推荐,文本信息是很常见一种信息来源,因此如何利用文本信息提升CTR预估、推荐等模型效果,以及如何利用NLP技术解决相关性问题,都是搜推广场景很有价值研究点。 END

1.7K20

文本获取搜索引擎反馈模型

,有点击认为是对用户有用,从而提高查询准确率 persudo feedback:获取返回结果前k个值,认为是好查询结果,然后增强查询 Rocchio Feedback思想 对于VSM(vector...||取模代表向量个数,另外经过移动之后,会有很多原来是0变成有数据,通常采用措施是保留高权重 它可以用在 relevance feedback和persudo feedback【relevance...beta要大于persudo】;使用时候注意不要过度依赖,还是要以原始查询为主,毕竟反馈只是一个小样本 Kullback-Leibler divergence Retrieval model[...计算出二者距离【基本和VSM一致】,通过这样方式,会得到一个反馈集合。...通过加入另外一个集合【背景文档】,混合两个模型,并通过概率来选择哪个集合结果,这个时候,所有的反馈文档集合由混合模型来决定,那么对于背景文档很少词频,但是反馈文档很频繁,必定是来源于反馈文档集合

1.3K30

深度学习搜索业务探索与实践

文章分享了深度学习酒店搜索NLP应用,并重点介绍了深度学习排序模型美团酒店搜索演进路线。...本文会首先介绍一下酒店搜索业务特点,作为O2O搜索一种,酒店搜索和传统搜索排序相比存在很大不同。第二部分介绍深度学习酒店搜索NLP应用。...通过预测模块对每个酒店做访购率预测,控制中心获取预测模块排序结果后,再根据业务逻辑做一些调整,最终返回结果给搜索API。...同义词:北京搜索“一”和搜索“北京第一学”,其实都是同一个意思,需要挖掘同义词。 ?...丢掉非核心词有多种方式,一种是删除一些运营定义无意义词,一种是保留NER模型识别出来主要实体类型。此外还有一个TermWeight模型,对每个词都有一个重要性权重,可以把一些不重要词丢掉。

88220

深度学习视觉搜索和匹配应用

在这篇文章其余部分,我将展示一些我们实验室中所做工作,这些工作是将一个一个领域(ImageNet自然图像)训练过网络用于另一个领域(航拍图像)进行基于图像搜索。...视觉搜索以及所需训练数据 深度学习或其他机器学习技术可用于开发识别图像物体鲁棒方法。对于来自飞机航拍图像或高分辨率卫星照片,这将使不同物体类型匹配、计数或分割成为可能。...基本上,该技术工作原理是将数据集分割成一堆小片段(本例是4800万个片段),每个片段运行一个Resnet-34网络,该网络训练用来区分ImageNet数据集中1000个不同物体。...我们没有使用最终分类(1000个类一个),而是从网络每个片段提取一个所谓描述符,它由2048个数字组成。...然而,我们例子,我们选择测试一种更简单启发式来匹配船:我们排序从M之前选择了100个随机片段(正样本),N之后选择了100个随机片段(负样本)。

1.3K10

ElasticSearch搜索引擎SpringBoot实践

:9200/这个地址(该地址需要配到springboot项目中去) ---- Spring工程创建 这部分没有特殊要交代,但有几个注意点一定要当心 注意在新建项目时记得勾选web和NoSQLElasticsearch...创建工程时勾选Nosqles依赖选项 项目自动生成以后pom.xml中会自动添加spring-boot-starter-data-elasticsearch依赖: ...数据插入效果 我们来做一下搜索测试:例如我要搜索关键字“南京” 我们浏览器输入: http://localhost:6325/entityController/search?...name=南京 搜索结果如下: ? 关键字“南京”搜索结果 刚才插入5条记录包含关键字“南京”四条记录均被搜索出来了!...当然这里用是standard分词方式,将每个中文都作为了一个term,凡是包含“南”、“京”关键字记录都被搜索了出来,只是评分不同而已,当然还有其他一些分词方式,此时需要其他分词插件支持,此处暂不涉及

2.1K50

ElasticSearch搜索引擎SpringBoot实践

依赖,来张图说明一下吧: [创建工程时勾选Nosqles依赖选项] 项目自动生成以后pom.xml中会自动添加spring-boot-starter-data-elasticsearch依赖:...id=5&name=中国南边好像没有叫带京字城市了 数据插入效果如下(使用可视化插件elasticsearch-head观看): [数据插入效果] 我们来做一下搜索测试:例如我要搜索关键字“南京”...我们浏览器输入: http://localhost:6325/entityController/search?...name=南京 搜索结果如下: [关键字“南京”搜索结果] 刚才插入5条记录包含关键字“南京”四条记录均被搜索出来了!...当然这里用是standard分词方式,将每个中文都作为了一个term,凡是包含“南”、“京”关键字记录都被搜索了出来,只是评分不同而已,当然还有其他一些分词方式,此时需要其他分词插件支持,此处暂不涉及

2.8K110

干货 | XGBoost携程搜索排序应用

一、前言 互联网高速发展今天,越来越复杂特征被应用到搜索,对于检索模型排序,基本业务规则排序或者人工调参方式已经不能满足需求了,此时由于大数据加持,机器学习、深度学习成为了一项可以选择方式...说起机器学习和深度学习,是个很大的话题,今天我们只来一起聊聊传统机器学习XGBoost大搜排序实践。 二、XGBoost探索与实践 聊起搜索排序,那肯定离不开L2R。...Learning to Rank,简称(L2R),是一个监督学习过程,需要提前做特征选取、训练数据获取然后再做模型训练。...四、模型工程实践 4.1 评估指标制定 搜索业务,考虑有以下两种情况: 看重用户搜索成功率,即有没有点击; 看重页面第一屏曝光点击率; 文章开头提到L2R三种分类,我们XGBoost...增加这个值会使模型更加复杂,也容易出现过拟合,深度3-10是合理; min_child_weight:正则化参数。如果树分区实例权重小于定义总和,则停止树构建过程。

1.7K11

神经结构搜索机器翻译应用

所以空间设计上需要包含Transformer结构。如图1, ? 图1 每个搜索空间 整个是一个块搜索空间,左分支和右分支搜索空间是一致。...这种空间设计整体上也是模仿图像领域,将搜索单元结构进行堆叠,但是也有人指出,这样做其实破坏了结构多样性[6],没有能够将结构搜索能力完全发挥出来,同时作者搜索时候也将每个单元结构块数量进行固定...最后三行从经验上证明PDH方法是没有过拟合训练步数基础上实施。 之后文中从性能上不同任务不同参数情况下和标准Transformer结构进行了比较,如表2所示, ?...值得注意是,分支进行合并时候,都进行了正则化操作,说明了正则操作对于这种多分支结构是比较重要,但是从训练角度来说,由于每个模型都是用了同样训练参数以及优化器,也可能不用正则操作导致了训练过程数值不稳定...虽然最后得到结构性能上的确是优于标准Transformer,不过搜索过程还是使用了大量计算资源——超过200块TPU,如何更加高效搜索出优秀模型,依然是亟待解决问题,同时这项工作搜索空间设计上也是离散

81430
领券