Query重构是解决搜索中查询文档不匹配的另一种方法,即将Query转换为另一个可以进行更好匹配的Query。Query转换包括Query的拼写错误更正。例如,【1】提出了一种源渠道模型,【2】 提出了一种用于该任务的判别方法。Query转换还包括Query分段【3】【4】【5】。受统计机器翻译 (SMT) 的启发,研究人员还考虑利用翻译技术来处理Query文档不匹配问题,假设Query使用一种语言而文档使用另一种语言。【6】利用基于单词的翻译模型来执行任务。【7】 提出使用基于短语的翻译模型来捕获查询中单词和文档标题之间的依赖关系。主题模型也可用于解决不匹配问题。一种简单而有效的方法是使用term匹配分数和主题匹配分数的线性组合【8】。概率主题模型也用于平滑文档语言模型(或Query语言模型)【9】【10】。 【11】对搜索中语义匹配的传统机器学习方法进行了全面调查。
This dataset provides high quality Climate Data Record (CDR) of multiple cloud properties along with Advanced Very High Resolution Radiometer (AVHRR) brightness temperatures and reflectances. These data have been fitted to a 0.1 x 0.1 equal angle-grid with both ascending and descending assets generated daily from two to ten NOAA and MetOp satellite passes per day.
【导读】主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华(Awesome)知识资料收录整理,使得AI从业者便捷学习和解决工作问题!在专知人工智能主题知识树基础上,主题荟萃由专业人工编辑和算法工具辅助协作完成,并保持动态更新!另外欢迎对此创作主题荟萃感兴趣的同学,请加入我们专知AI创作者计划,共创共赢! 今天专知为大家呈送第十二篇专知主题荟萃-信息检索知识资料大全集荟萃 (入门/进阶/综述/代码/专家等),请大家查看!专知访问www.zhuanz
https://icde2022.ieeecomputer.my/accepted-industry-track/
主要参考:大模型的幻觉问题调研: LLM Hallucination Survey
为了能够有效地识别位置,我们需要提取表征图像的特征,之后将相同的特征分成一组,并搜索相似的图像。当然位置识别也可以应用于其他程序,例如在图像恢复我们也需要查找相似图像。
目前信息检索(Information Retrieval)几乎都是使用深度学习系列的方法,即NeuIR(neural information retrieval)。而随着预训练在深度学习领域的大放光芒,信息检索中也出现了各种预训练策略。这篇文章博主将整理来自清华大学与中科院的信息检索综述,先上路径。
已经提出了使用传统的机器学习技术进行搜索中的查询文档匹配和推荐中的用户项目匹配的方法。这些方法可以在一个更通用的框架内形式化,我们称之为“学习匹配”。除了搜索和推荐外,它还适用于其他应用,例如释义,问题解答和自然语言对话。本节首先给出学习匹配的正式定义。然后,它介绍了传统学习以匹配为搜索和推荐而开发的方法。最后,它提供了该方向的进一步阅读。
The MCD43C3 Version 6 Bidirectional Reflectance Distribution Function and Albedo (BRDF/Albedo) Albedo dataset is produced daily using 16 days of Terra and Aqua MODIS data in a 0.05 degree (5,600 meters at the equator) Climate Modeling Grid (CMG). Data are temporally weighted to the ninth day of the retrieval period which is reflected in the Julian date in the file name. This CMG product covers the entire globe for use in climate simulation models. MCD43C3 provides black-sky albedo (directional hemispherical reflectance) and white-sky albedo (bihemispherical reflectance) at local solar noon. Black-sky albedo and white-sky albedo values are available as a separate layer for MODIS spectral bands 1 through 7 as well as the visible, near infrared (NIR), and shortwave bands. Along with the 20 albedo layers are ancillary layers for quality, local solar noon, percent finer resolution inputs, snow cover, and uncertainty. See dataset user guide for more information.
NLP是利用计算机为工具,对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术.
Real-world recommender systems are often composed of two stages:
导读:目前为止 IT 产业经历了六次浪潮,分别为:大型机时代,小型机时代,个人电脑时代,桌面互联网时代,移动互联网时代和 AIOT 时代。在这些时代背后可以发现是人机交互方式的变化:从鼠键交互,到触控交互,再到语音智能交互,可以看到人机交互的方式在向更自然更直接化的方式演进。今天会和大家分享基于知识图谱的问答在美团智能交互场景中的应用和演进。
https://en.wikipedia.org/wiki/Episodic_memory
当我们用搜索引擎或其他工具搜索内容时,输入框下方的提示内容会根据你的输入进行调整展示。这个过程我们称之为Query Auto Completion(QAC)。用户不完整的输入我们称之为Query Prefix,提示的那些内容我们称之为Query Completions。
Garcia-Molina等【1】指出,搜索和推荐中的根本问题是识别满足用户信息需求的信息对象。还表明搜索(信息检索)和推荐(信息过滤)是同一枚硬币的两个方面,具有很强的联系和相似性【2】。图1.1说明了搜索和推荐的统一匹配视图。共同的目标是向用户提供他们需要的信息。
ACM SIGIR 2022是CCF A类会议,人工智能领域智能信息检索( Information Retrieval,IR)方向最权威的国际会议。会议专注于信息的存储、检索和传播等各个方面,包括研究战略、输出方案和系统评估等等。第45届国际计算机学会信息检索大会(The 45rd International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2022)计划于今年7月11日-7月15日在西班牙马德里召开。这次会议共收到794篇长文和667篇短文投稿,有161篇长文和165篇短文被录用,录用率约为20%和24.7%。官方发布的接收论文列表:
The NOAA Climate Data Record (CDR) of Aerosol Optical Thickness (AOT) is a collection of global daily 0.1 degree derived data from the PATMOS-x AVHRR level-2b channel 1 (0.63 micron) orbital clear-sky radiance. The aerosol product is generated from AVHRR imagery in cloud-free conditions during daytime over oceans.
近些年推荐系统领域已经有不少序列化建模的实践,本文将选择部分论文进行简单的分析和整理,旨在产生指引的作用。
【导读】主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华(Awesome)知识资料收录整理,使得AI从业者便捷学习和解决工作问题!在专知人工智能主题知识树基础上,主题荟萃由专业人工编辑和算法工具辅助协作完成,并保持动态更新!另外欢迎对此创作主题荟萃感兴趣的同学,请加入我们专知AI创作者计划,共创共赢! 今天专知为大家呈送第七篇专知主题荟萃-自动文摘Automatic Summarization知识资料大全集荟萃 (入门/进阶/论文/课程/会议/
1. Mintaka:A Complex, Natural, and Multilingual Dataset for End-to-End Question Answering
社区问答系统,是一种基于web的应用,主要帮助用户从社区中寻找复杂的,与上下文相关的问题答案。
kmeans_test.m %% (C) Copyright 2012. All rights reserved. Sotiris L Karavarsamis. % Contact author at sokar@aiia.csd.auth.gr % % This is an implementation of the k-means algorithm straight from the % pseudocode description based on the book 'Introduction
现有的 ChatGPT 的大语言模型中,虽然它本身的功能已经非常强悍了,但是它依然存在一些致命的问题:
欢迎来到《每周NLP论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。
本文对预训练模型在召回(retrieval), 排序(re-ranking),以及其他部分的应用做一个总结,参考学长们的综述:Pre-training Methods in Information Retrieval[1]
每天给你送来NLP技术干货! ---- © 作者|王晓磊 机构|中国人民大学高瓴人工智能学院 研究方向 | 对话式信息获取 来自 | RUC AI Box 本文从NeurlPS 2022 的2000多篇接收论文中筛选出了与自然语言处理相关的论文200多篇,并按照研究主题进行分类整理,以供参考。 导读: NeurIPS 2022 是 CCF A 类会议,人工智能领域方向的顶级国际会议之一。第36届神经信息处理系统会议将于今年 11 月 28 日至 12 月 9 日举行。官方发布的接收论文列
1. 深入浅出数据分析 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。 难易程度:非常易。 2.啤酒与尿布 通过案例来说事情,而且是最经典的例子。 难易程度:非常易。 3.数据之美 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。 难易程度:易。 4.集体智慧编程 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。 难易程度:中
【导读】专知内容组整理了最近七篇图像检索(Image Retrieval)相关文章,为大家进行介绍,欢迎查看! 1. Cross-Paced Representation Learning with Partial Curricula for Sketch-based Image Retrieval(基于草图的图像检索) ---- ---- 作者:Dan Xu,Xavier Alameda-Pineda,Jingkuan Song,Elisa Ricci,Nicu Sebe 机构:Indiana Unive
通知:这篇推文有10篇论文速递信息,涉及目标检测、行人重识别Re-ID、图像检索和Zero-Shot Learning等方向 这篇文章本来是在2018-03-10推送的,但由于内容编辑出了问题,便忍痛删除了,让大家久等一天,在此说声抱歉! 先附上前三天的论文速递文章: [计算机视觉论文速递] 2018-03-09 [计算机视觉论文速递] 2018-03-07 [计算机视觉论文速递] 2018-03-06 [1]《Domain Adaptive Faster R-CNN for Object Detec
本文精选了上周(0508-0514)最新发布的24篇推荐系统相关论文,主要研究方向包括大型语言模型赋能推荐系统、对话推荐系统、图推荐系统、隐私保护推荐系统、工业界推荐系统(来自谷歌、亚马逊、阿里)等。
StarSpace是Facebook开源的一个嵌入式表示的库,号称可以embed all things,可以学习任何实体的向量表示。其对应的文章为https://arxiv.org/pdf/1709.03856.pdf,对应的开源代码库为:https://github.com/facebookresearch/Starspace。
本指南(以及文档中的大多数其他指南)使用Jupyter 笔记本,并假设读者也使用 Jupyter 笔记本。Jupyter 笔记本非常适合学习如何使用 LLM 系统,因为事情经常可能会出错(意外输出、API 关闭等),而在交互式环境中阅读指南是更好地理解它们的好方法。
| 导语 阅读理解是当前火热的自然语言处理应用方向之一,但在大多数业务场景下都缺少有效的标注数据,这种情况下常常需要借助传统的信息检索方法。本文总结了TREC-9和TREC-10上几个比较经典的基于段落检索的无监督文档型问答系统,并介绍了这类系统的主要框架。 背景 在自动对话机器人或是智能客服中,根据用户问题,从文档中寻找可能的答案是一种很常见的需求。当前有很多基于神经网络的阅读理解模型,但是这些模型都需要大量的标注数据进行训练。在很多业务场景下,却常常难以拿到数量足够的监督数据,有时候甚至没有监督数据。
信息检索定义为对用户做出的查询进行响应并检索出最合适的信息的过程。在信息检索中,根据元数据或基于上下文的索引,进行搜索。搜索引擎 是信息检索的一个示例,对于每个用户的查询,它基于所使用的信息检索算法进行响应。信息检索算法中使用了倒排索引的索引机制。
【导读】专知内容组整理了最近六篇行人重识别(Person Re-identification)相关文章,为大家进行介绍,欢迎查看! 1. Deep Spatial Feature Reconstruction for Partial Person Re-identification: Alignment-Free Approach(基于深度空间特征重构的部分行人重识别:对齐无关方法) ---- ---- 作者:Lingxiao He,Jian Liang,Haiqing Li,Zhenan Sun 摘要:P
本文精选了上周(0522-0528)最新发布的19篇推荐系统相关论文,主要研究方向包括隐私保护推荐系统、大型语言模型赋能推荐系统、对话推荐系统、图推荐系统、推荐中的异质性、多模态推荐系统、推荐中的低维灾难等。
作者|周翔 最近几个月,以《王者荣耀》为代表的游戏受到了各方的攻击,其中以家长和老师的反应最为激烈。不过,玩物真的就一定会丧志吗?清华大学的几位学霸告诉你,玩游戏也能玩出新高度。 8 月 7 日,信息检索领域的顶级会议 SIGIR 2017 在东京开幕。9 日,大会公布了最佳论文、最佳学生论文、最佳短论文等 4 大奖项。其中,最佳论文奖被微软团队拿下,而清华大学的论文“Evaluating Web Search with a Bejeweled Player Model(使用宝石迷阵玩家模型评估网络搜索)”
在信息检索的背景下,学习排序的目标是训练一个模型,将一组查询结果排列成有序列表[1]。对于监督学习排序,预测器是以特征矩阵编码的样本文档,标签是每个样本的相关性程度。相关性程度可以是多级(分级)的,也可以是二进制的(相关或不相关)。训练样本通常根据它们的查询索引分组,每个查询组包含多个查询结果。
【导读】既昨天推出七篇图像检索(Image Retrieval)文章,专知内容组今天又推出最近八篇图像检索相关文章,为大家进行介绍,欢迎查看! 1. Improving Deep Binary Embedding Networks by Order-aware Reweighting of Triplets(通过对三元组阶感知重加权来提高深层二进制嵌入网络) ---- ---- 作者:Jikai Chen,Hanjiang Lai,Libing Geng,Yan Pan 机构:Sun Yat-sen Uni
【导读】第25届ACM国际多媒体会议(ACM International Conference on Multimedia, 简称ACMMM)于2017年10月23日至27日在美国硅谷Mountain View隆重举行。自1993年首次召开以来,ACMMM每年召开一次,已经成为多媒体领域顶级会议,也是中国计算机学会推荐的A类国际学术会议热门方向有大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。 昨天ACM SIGMM China Chapter在中国科学院自动化研究所举行了AC
接下来,我们以潜在空间为基础介绍匹配模型。【1】中找到了搜索中语义匹配的完整介绍。具体来说,我们简要介绍了在潜在空间中执行匹配的代表性搜索方法,包括偏最小二乘(PLS)【2】,潜在空间中的规则化匹配(RMLS)【3】,以及监督语义索引(SSI)【4】【5】。
入门读物: 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。 数学之美 (豆瓣) 这本书非常棒啦,入门读起来很不错! 数据分析: SciPy and NumPy (豆瓣) 这本书可以归类为数据分析书吧,因为numpy和
题目: Projected Hamming Dissimilarity for Bit-Level Importance Coding in Collaborative Filtering
IEEE Journal于近日发布 - Special Issue on Machine Learning for Audio Processing。
Worldwide, the healthcare industry would continue to thrive and grow, due to the increasing demands of diagnosis, treatment, disease prevention, medicine, and service which affect the mortal rates and life quality of human beings. Two key issues of the modern healthcare industry are improving healthcare quality, as well as reducing economic and human costs. The problems in the healthcare industry can be formulated as scheduling, planning, predicting, and optimization problems, where evolutionary computation methods can play an important role. Although evolutionary computation has been applied to scheduling and planning for trauma system and pharmaceutical manufacturing, other problems in the healthcare industry such as decision making in computer-aided diagnosis and predicting for disease prevention have not been properly formulated for evolutionary computation techniques, and many evolutionary computation techniques are widely adopted in the healthcare community.
对于一个搜索系统来说,通常采用的召回都是基于倒排索引的召回,简单来说就是需要对item侧建立倒排索引,在检索的过程中,对query分词,根据分词结果去倒排索引中查找词匹配的item,简单的流程如下图所示:
论文链接:https://arxiv.org/pdf/1802.06466.pdf
21 世纪什么人才最吃香?程序员! 为什么这么说? 国家统计局今年最新发布的消息显示,2016 年全国城镇单位就业人员平均工资 57394 元。其中最赚钱的行业是信息传输、软件和信息技术服务业,2016 年平均工资为 122478 元,首次打败金融业成为新霸主。金融业工资水平退居次席,2016 年平均工资为 117418 元。 此外,有报道表示,程序员凭借着丰厚的薪资,已经成为相亲市场上的香饽饽。 在移动互联网和 AI 浪潮的推动下,程序员未来的好日子显然还很长。 这也就不难理解,为何这么多人会选择 C
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
本学生选课信息管理系统是选课信息展现与管理的系统,能够解决学生的选课问题,提高教务处管理学生选课的效率,降低人力物力财力的开销,具有重要的社会研究价值和研究意义。
领取专属 10元无门槛券
手把手带您无忧上云