首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何合理控制solr查询命中数量和质量?

solr里面,如何合理控制命中数量? 在一些日常文章中或一些信息中,都有一些高频词,而这些高频词,在参与查询时,往往会造成,大量结果集命中。 什么意思呢?...我们分析下在全文检索中两个重要概念 ---- 查准率 召全率 在Lucene,Solr和ElasticSearch里面一般分词查询结果都会对这两个率做一个最好效果调配,而这个默认相关性评分规则就是...,但命中量太大了,超过4页之后几乎都是北京xxxx饭店了,跟主题搜索没啥关系,所以我们可以采取一些策略来避免这种情况: solr默认搜索策略,是分词后termor关系,最后结果集全部返回,如果我们改成...这个东西直接用我们全文检索框架是没法实现,有个思路不错,就是我们对要搜索词,提取出句子主干,然后主干部分在检索时,是必须要命中,如果不命中,就算该条数据与查询词,相关性不大,这个方法不错,但前提是你如何在大规模数据里面精准提出这些精确主干词呢...&mm=80%25 然后查询即可,mm是最小匹配数量,可以是个固定值,也可也是个百分比,因为散仙是在solradmin页面查询,所以需要把%替换成url字符%25,这样才能正确发送到solr服务端

1.9K50

Apache Solr 授权上传(RCE)漏洞原理分析与验证

漏洞简介 Apache Solr 发布公告,旧版本ConfigSet API 中存在授权上传漏洞风险,被利用可能导致 RCE (远程代码执行)。...受影响版本: Apache Solr6.6.0 -6.6.5 Apache Solr7.0.0 -7.7.3 Apache Solr8.0.0 -8.6.2 安全专家建议用户尽快升级到安全版本,以解决风险...对于通过 Configset API 执行 UPLOAD 时,如果启用了身份验证(默认开启),且该请求通过了身份验证,Solr 会为该 configset 设置“trusted”,否则该配置集不会被信任...4、 使用上传 configset 为母版,创建新 configset http://localhost:8983/solr/admin/configs?...无返回信息,触发 debug 5、 在 web 控制台可以查看到,创建 evilconfigset4 成功 ?

1.2K10
您找到你想要的搜索结果了吗?
是的
没有找到

如何使用Java代码访问CDHSolr服务

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 1.文档编写目的 ---- CDH集群使用Solr版本为4.10.3,Java开发中会经常使用到solrj客户端包访问Solr集群。...本篇文章主要讲述如何使用Java代码访问Kerberos和非Kerberos环境下Solr集群。...CDH依赖库,如果使用开源4.10.3依赖库会导致访问Kerberos环境下Solr认证失败。...6.总结 ---- 这里Fayson在调试代码时也遇到很多坑,比如CDH集群Solr版本为4.10.3,但我选择Solrj版本为7.10.1,在调试是能够正常查询Solr集群数据,但不能向Solr...温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看 [583bcqdp4x.gif]

3.5K60

0703-6.2.0-使用Sentry为Solr进行赋权

文档编写目的 在CDH中,Sentry服务是一个基于角色授权管理组件,通常我们将Sentry用来管理Hive、Impala等组件,但是同样,Sentry也可以为Solr提供基于角色细粒度授权,在启用...要注意是,启用Sentry对Solr进行权限控制前需要先启用Kerberos,本文档将介绍如何使用Sentry对Solr进行赋权。...使用Sentry对Solr进行赋权 本文档主要介绍如何使用Sentry对SolrCollection进行权限管理,对于Collection权限有三种:QUERY、UPDATE、 *,QUERY提供读访问权限...2.使用授予任何权限test用户来查看之前创建Collection curl --negotiate -u : "http://cdh178.macro.com:8983/solr/collection0731...由上图可以看出,test用户并没有查看Collection权限 3.使用授予任何权限test用户来对之前创建Collection进行更新操作 curl --negotiate -u : 'http

89810

0617-6.1.0-使用Sentry给Solrcollection赋予Query权限后查询异常分析

作者:冉南阳 1 文档编写目的 Sentry在CDH平台中定位为统一授权框架,即所有的组件都要受Sentry管理,当然也是为了方便用户操作,一个入口为所有数据相关进行授权。...在前面的文章中,Fayson介绍过Sentry与Solr如何结合使用,参考《0294-如何使用Sentry为Solr赋权》,《0301-使用命令行创建collection时Sentry给Solr赋权问题...2.赋予kibana用户任何权限时查看数据 会报403错 kinit kibana curl --negotiate -u : "http://hadoop12:8983/solr/collection1...q=*%3A*&wt=json&indent=true" 此时报错,但是查询时没有数据。 ?...3.再次使用kibana用户查看数据,成功查询数据 curl --negotiate -u : "http://hadoop12:8983/solr/collection1/query?

89040

Apache nutch1.5 & Apache solr3.6

Solr 拥有像 web-services API 独立企业级搜索服务器。用 XML 通过 HTTP 向它添加文档(称为做索引),通过 HTTP 查询返回 XML 结果。...这里我列出3 点原因: 透明度:nutch 是开放源代码,因此任何人都可以查看排序算法是如何工作。 商业搜索引擎排序算法都是保密,我们无法知道为什么搜索出来排序结果是如何算出来。...按 id 删除将删除具有指定 id 文档;按查询删除将删除查询返回所有文档。 Lucene中操作索引也有这几个步骤,但是没有更新。Lucene更新是先删除,然后添加索引。...start=15 返回从第 15 个结果开始结果。 rows 返回文档最大数目。默认值为 10。 rows=25,返回25个结果集 fq 提供一个可选筛选器查询。...懒散加载一个常见场景大都发生在应用程序返回和显示一系列搜索结果时候,用户常常会单击其中一个来查看存储在此索引中原始文档。初始 显示常常只需要显示很短一段信息。

1.8K40

如何使用Flume准实时建立Solr全文索引

Faysongithub:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Fayson在上篇文章《如何在...本文主要介绍如何使用Morphline工具通过Flume实时对数据建立全文索引。....Hue中已经配置集成Solr服务 2.索引建立流程 ---- 见下图为本文档将要讲述使用Solr建立全文索引过程: 1.先将准备好半/非结构化数据放置在本地。...对数据进行ETL,最后写入到solr索引中,这样就能在solr搜索引擎中近实时查询到新进来数据了由贾玲人。"...并进入collection查询界面 3.点击query按钮,准备开始查询数据 4.查询全部数据 5.得到查看结果是300W条,符合预期,表明所有数据都已经入库成功

1.6K20

CVE-2017-12629 - Apache Solr XXE & RCE 漏洞分析

Solr,并监听8983端口,启动脚本会检查启动正确性并返回提示信息到控制台。...查看所有创建新core选项: $ bin/solr create -help 3. 添加文档 这时候Solr中还是空,我们需要添加一些文档以便进行索引。...bin/post可以发送各种数据类型到Solr,包括原生XML和JSON格式、CSV文件,丰富文档目录树,甚至是抓取简单网页。...继续,根据示例XML文件添加所有文档: image.png 完成上述操作Solr就已经为这些文档建立索引并包含在这些文件中。 现在,我们有了索引文档可以执行查询。...比如下面在所有文档查询video image.png Vulnerability Analysis 这是一个典型XXE漏洞缺陷编码示例,Lucene包含了一个查询解析器支持XML格式进行数据查询

2.4K80

全文搜索引擎技术详解之Apache Solr使用

所有功能 RESTful API: 要与Solr通信,可以使用RESTful服务与Solr通信,可以使用XML,JSON,CSV等格式文件作为输入文档,并以相同文件格式获取结果 全文搜索: Solr...有助于在网上定位信息 用户可以通过以关键字或短语形式将查询传递到搜索引擎中来搜索信息,然后搜索引擎搜索其数据库并向用户返回相关链接 搜索引擎组件 搜索引擎有三个组件: Web爬虫: 一个收集网络信息软件组件...构建文档: 从原始内容构建文档,让搜索应用程序可以很容易理解和解释 分析文档: 在索引开始之前,将对文档进行分析 索引文档: 当文档被构建和分析后,下一步是对文档建立索引,以便可以基于特定键而不是文档全部内容来检索该文档...,用户可以在用户接口中输入文本并启动搜索过程 构建查询: 当用户做出搜索文本请求,应用程序应该使用该文本准备查询对象,然后可以使该查询对象来查询索引数据库以获得相关细节 搜索查询: 使用查询对象,检查索引数据库以获取相关详细信息和内容文档...渲染结果: 当收到所需结果,应用程序应决定如何使用用户界面向用户显示搜索结果 分词技术 分词技术: 搜索引擎针对用户提交查询关键词串进行查询处理后,根据用户关键词串用各种匹配方法进行分词一种技术

1.2K10

全文搜索引擎技术详解之Apache Solr使用

所有功能 RESTful API: 要与Solr通信,可以使用RESTful服务与Solr通信,可以使用XML,JSON,CSV等格式文件作为输入文档,并以相同文件格式获取结果 全文搜索: Solr...有助于在网上定位信息 用户可以通过以关键字或短语形式将查询传递到搜索引擎中来搜索信息,然后搜索引擎搜索其数据库并向用户返回相关链接 搜索引擎组件 搜索引擎有三个组件: Web爬虫: 一个收集网络信息软件组件...构建文档: 从原始内容构建文档,让搜索应用程序可以很容易理解和解释 分析文档: 在索引开始之前,将对文档进行分析 索引文档: 当文档被构建和分析后,下一步是对文档建立索引,以便可以基于特定键而不是文档全部内容来检索该文档...,用户可以在用户接口中输入文本并启动搜索过程 构建查询: 当用户做出搜索文本请求,应用程序应该使用该文本准备查询对象,然后可以使该查询对象来查询索引数据库以获得相关细节 搜索查询: 使用查询对象,检查索引数据库以获取相关详细信息和内容文档...渲染结果: 当收到所需结果,应用程序应决定如何使用用户界面向用户显示搜索结果 分词技术 分词技术: 搜索引擎针对用户提交查询关键词串进行查询处理后,根据用户关键词串用各种匹配方法进行分词一种技术

1.6K00

【搜索引擎】配置 Solr 以获得最佳性能

我们在 tajawal 应用程序中一直使用 Solr 和 ElasticSearch。在这篇文章中,我将为您提供一些关于如何编写优化 Schema 文件技巧。... 查看 Solr Docs 了解更多详细信息。...使用过滤查询‘fq’ 在搜索中使用 Filter Query fq 参数对于最大化性能非常有用,它定义了一个查询,可用于限制可以返回文档超集,而不影响分数,它独立缓存查询。...Filter Queryfq 对于加速复杂查询非常有用,因为使用 fq 指定查询独立于主查询进行缓存。当后面的查询使用相同过滤器时,会发生缓存命中,并且过滤器结果会从缓存中快速返回。...查看 Solr Filter Qeury 文档以获取更多详细信息。 8.

1.5K20

Apache Solr DataImportHandler 远程代码执行漏洞(CVE-2019-0193) 分析

document,然后对document进行分析(对各字段分词),得到一些索引目录写入索引库,document本身也会被写入一个文档信息库 (2) 索引数据查询 根据关键词解析(queryParser...)出查询条件query(Termquery),利用搜索工具(indexSearcher)去索引库获取文档id,然后再根据文档id去文档信息库获取文档信息 3.2 Solr DataImportHandler...• schema.xml/managed-schema: 这里面定义了与数据源相关联字段(Field)以及Solr建立索引时该如何处理Field,它内容可以自己打开新建core下schema.xml...:为每行读取返回一个名为"rawLine"字段。...4.3 PoC第三阶段--无外连+有回显 这个阶段PoC来自@fnmsd师傅,使用是ContentStreamDataSource[7],但是文档中没有对它进行描述如何使用。

2.1K20

MongoDB 如何查看文档大小

如何查看文档大小?常见是查看集合中平均文档大小,但很少查看单个文档或者特定范围文档大小甚至查看文档中字段长度大小?...通过查看官方文档来解答如上问题,默认返回都是字节为单位(byte),以下整理自官方文档以及jira. 1、查看集合中文档平均大小 mongos> db.tms_province_agg_result.stats...().avgObjSize; 304 2、查看集合中单个文档或者单个文档大小,只能查看单个文档 Object.bsonsize() 2.1 统计集合满足条件单条文档大小 --find...返回文档--这个是正确用法 mongos> Object.bsonsize(db.tms_province_agg_result.findOne()) 303 2.2 统计普通文档或者bson文档长度...project_name": "Update Home Page", "notes": "Need to scope this project." } } ]); 3.2 查看满足条件文档长度

3.3K20

Apache Solr DataImportHandler远程代码执行漏洞(CVE-2019-0193) 分析

Solr工作机制 1.solr是在lucene工具包基础之上进行了封装,并且以web服务形式对外提供索引功能 2.业务系统需要使用到索引功能(建索引,查索引)时,只要发出http请求,并将返回数据进行解析即可...,document本身也会被写入一个文档信息库 (2) 索引数据查询 根据关键词解析(queryParser)出查询条件query(Termquery),利用搜索工具(indexSearcher)去索引库获取文档...id,然后再根据文档id去文档信息库获取文档信息 Solr DataImportHandler Solr DataImportHandler可以批量把数据导入到索引库中,根据Solr文档描述,DataImportHandler...在dataConfig参数中可以包含script脚本,在文档搜到一个ScriptTransformer例子: 可以看到在script中能执行java代码,于是构造下PoC(通过logs查看相关报错信息查看...PoC第三阶段--无外连+有回显 这个阶段PoC来自@fnmsd师傅,使用是ContentStreamDataSource,但是文档中没有对它进行描述如何使用。

1.4K00

搜索正在遍及世界

但是,稍后如果你想查找一个没有索引列,你会不知不觉地把事情搞砸,整个系统都将被拖慢,因为整个列在线性扫描你想要查找但却找不到标记数据。 但Solr是不同。...一旦每个文档都用一个字段作为索引来指示其集群,就可以在Solr中非常轻松地探索这些集群性质。首先,用户查看集群分解每一个方面,并各自计数。...然后,用户可以按照群集值进行过滤,查看过滤之后其他方面再如何细分。例如,我们可以在我们文档集中发现围绕特定自然语言形成最强大群集。...当我们在一个方面进行过滤时,突然在自然语言中只有“中国”两个字,那么有关其他自然语言文件将不再返回。...数据不能总是在没有许多烦人副作用和限制情况下被非规范化。Solr非常适合跨文档提供非常复杂连接功能,包括添加模糊连接或自然语言连接。也许与原始查询相关性可能会影响到第二个查询文档

69130

0701-6.2.0-使用Solr7对结构化csv文件建立全文索引

作者:余枫 文档编写目的 在上一篇《6.2.0-使用Solr7对多种格式文件建立全文索引》中介绍了如何在CDH6.2.0中使用Solr7对多种格式文件进行全文索引,测试中使用主要是非结构化word...、ppt、pdf等非结构化数据,很多时候需要使用Solr对结构化数据进行索引,根据其中某些字段进行精准查询或者范围查询,本文档将介绍如何使用Solr对csv文件建立全文索引。...内容概述 1.准备测试数据 2.建立索引 3.进行查询验证 4.总结 测试环境 1.CM和CDH版本为6.2.0 2.Solr版本为7.4.0 3.集群启用kerberos 4.采用root用户 前置条件...总结 1.与上篇文档中使用dataimport方式导入数据建立索引不同,本文档使用Solr自带post.jar将csv文件导入并创建索引,经过查询测试,该方式能够正常使用。...2.Solr在使用时间格式进行查询时,只能使用UTC格式,Solr只能识别这种格式时间,例如2018-03-06T02:37:02Z。

1.2K30

Lucene&Solr框架之第二篇

: Luke查看索引库:name:javaterm索引项还在,又新增了name:luceneupdatetest(这里经过分析器过滤器后大写转变为小写了): 原来文档已经不存在了,进了...TopDocs // 参数1:查询条件对象,参数2:返回数据条数,指定查询结果最顶部n条数据返回 TopDocs topDocs = searcher.search(query, 10...比如搜索“Lucene”关键字,与该关键字最相关文章应该排在前边。 6.2.相关度打分 Lucene对查询关键字与包含这个关键字文档相关度进行打分,得分高就排在前边。如何打分呢?...Solr提供了比Lucene更为丰富查询语言,同时实现了文档Field域可配置、可扩展,并对索引、搜索性能进行了优化。...搜索索引:客户端(可以是浏览器可以是Java程序)用 GET方法向 Solr 服务器发送请求,然后对 Solr服务器返回Xml、json等格式查询结果进行解析。Solr不提供构建页面UI功能。

1.6K10
领券