首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何将结构化数据导入Solr

译者微博:@从流域海域 译者博客:blog.csdn.net/solo95 如何将结构化数据导入Solr 这篇文章总结了我们在搜索中数据提取方面的经验。...Solr数据导入处理器 - DIH 首先我要说明的是,我是数据导入处理器(Data Import Handler)的忠实粉丝。...在DIH中合并连接 事实证明,ETL社区意识到了这个问题,并已经有了已经用了几年的解决方案 - 外部合并连接(external merge join)。...有趣的是,每当合并连接配置被修改时,看看Kettle ETL如何提醒这点。DIH不会使用这种弹出窗口打扰您,但是如果入站流没有排序,则会引发异常。...,在这种情况下,DIH会同步向Solr提供一个文档,并在通过DistributingUpdateProcessor将每个文档发送到碎片引导程序之前阻止任何文档。

2K20

【漏洞预警】Apache Solr远程代码执行漏洞 (CVE-2019-0193)处置手册及技术分析

是用于从数据库或其他源提取数据的常用模块,该模块中所有DIH配置都可以通过外部请求的dataConfig参数来设置,由于DIH配置可以包含脚本,因此该参数存在安全隐患。...4漏洞防护 4.1 官方升级 从Solr的8.2.0版本开始,使用问题参数dataConfig需要将java系统属性“enable.dih.dataconfigparam”设置为true。...2、确保网络设置只允许可信流量与Solr建立通信,尤其是与DIH请求处理器的通信。 4.3 产品防护 针对此漏洞,绿盟科技防护产品已发布规则升级包,可形成针对此漏洞的防护能力。...获取到配置信息后通过this.importer.runCmd()方法处理导入过程。 this.importer.runCmd(requestParams, sw); ?...接着通过this.dataImporter.getStatus()判断当前数据导入是“全部导入”还是“增量导入”,两个操作对应的方法分别为doDelta()和doFullDump(),此处的操作是full-import

1K10
您找到你想要的搜索结果了吗?
是的
没有找到

【漏洞预警】Apache Solr 远程代码执行漏洞(CVE-2019-0193)预警通告

是用于从数据库或其他源提取数据的常用模块,该模块中所有DIH配置都可以通过外部请求的dataConfig参数来设置,由于DIH配置可以包含脚本,因此该参数存在安全隐患。...Apache Solr >= 8.2.0 3漏洞检测 在Solr管理后台Dashboard仪表盘中,可查看当前Solr的版本信息。...4漏洞防护 4.1 官方升级 从Solr的8.2.0版本开始,使用问题参数dataConfig需要将java系统属性“enable.dih.dataconfigparam”设置为true。...2、确保网络设置只允许可信流量与Solr建立通信,尤其是与DIH请求处理器的通信。...由于传播、利用此安全公告所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,绿盟科技以及安全公告作者不为此承担任何责任。

66120

Solr之搭建Solr6.0服务并从Mysql上导入数据

然后把官网下下来的solr项目中solr-6.0.0\server\solr\configsets\data_driven_schema_configs\conf下的所有东西复制conf中去。...最后把solr-6.0\solr-6.0.0\example\example-DIH\solr\db\conf下的admin-extra.html, admin-extra.menu-bottom.html...其中deltaQuery是增量索引,原理是从数据库中根据deltaQuery指定的SQL语句查询出所有需要增量导入数据的ID号。...然后根据deltaImportQuery指定的SQL语句返回所有这些ID的数据,即为这次增量导入所要处理数据。...索引成功如下如所示: 使用query进行测试,输入sa查出了sa 数据库中的数据如下图所示: 这就成功的配置完了MYSQL数据库了,如果配置过程有啥问题可以参考我这个已经配置成功代码:点击打开链接

1.5K20

apache solr漏洞 可导致服务器被攻击

apache最近爆出的漏洞越来越多,旗下的solr产品存在远程服务器执行恶意代码漏洞,该漏洞产生的主要原因是因为apache dataimporthandler数据外部收集的一个端口模块,该模块支持从远程的地址进行通信...apache这个漏洞影响范围较广低于solr 8.2.0版本的都会受到漏洞的影响与攻击,本身这个solr模块就支持从远程的地址进行数据的收集与导入功能,当用户对dataimport进行使用的时候首先会调用...紧接着加载配置,对post值的相关参数进行赋值,像,datasoure,document等变量进行赋值,post里的自定义的参数会自动存入变量中,然后返回数据并保存,进行导入数据。 ?...首先请各位网站,服务器的运维人员对当前的apache solr版本继续查看,登录solr的控制面板,可以查看到当前的版本,如果低于8.2.0,说明存在漏洞,将solr的版本升级最新版本,也可以对apache...,没有影响就关闭即可,关于该漏洞的修复与安全加固就到这里,愿我们的分享,能够帮助更多使用apache solr的公司。

1.7K10

apache漏洞 服务器远程执行恶意代码漏洞的修复与加固

apache最近爆出的漏洞越来越多,旗下的solr产品存在远程服务器执行恶意代码漏洞,该漏洞产生的主要原因是因为apache dataimporthandler数据外部收集的一个端口模块,该模块支持从远程的地址进行通信...: apache这个漏洞影响范围较广低于solr 8.2.0版本的都会受到漏洞的影响与攻击,本身这个solr模块就支持从远程的地址进行数据的收集与导入功能,当用户对dataimport进行使用的时候首先会调用...,进行导入数据。...首先请各位网站,服务器的运维人员对当前的apache solr版本继续查看,登录solr的控制面板,可以查看到当前的版本,如果低于8.2.0,说明存在漏洞,将solr的版本升级最新版本,也可以对apache...,没有影响就关闭即可,关于该漏洞的修复与安全加固就到这里,愿我们的分享,能够帮助更多使用apache solr的公司。

84230

【技术分享】Solr DataImportHandler组件漏洞

编号 CVE-2019-0193 漏洞简介 DataImportHandler是一个可选但使用广泛的模块,默认不启用,用于从数据库和其他源中提取数据,它有一个特性即整个DIH配置可以来自一个请求的“dataConfig...DIH管理的调试模式使用它来方便地调试DIH配置的开发。因为DIH配置可以包含script脚本,所以这个参数存在安全风险。...从Solr的8.2.0版本开始,使用这个参数需要设置 Java System property,设置"enable.dih.dataConfigParam" 为 true.。...的特性ScriptTransformer,称为脚本转换器,使用菜单项的dataimport功能时通过连接数据源获取数据索引,然后触发用户自定义的script处理查询出来的数据,实现命令执行。...搜集处理 利用完毕后,将相关漏洞代码纳入Vulncode-DB,作为同类型漏洞挖掘的知识储备。

69630

Solr

"/> 结果比较 # 导入数据DIH DIH全称是Data Import Handler 数据导入处理器,顾名思义这是向solr导入数据的,...我们的solr目的就是为了能让我们的应用程序更快的查询出用户想要的数据,而数据存储在应用中的各种地方入xml、pdf、关系数据库中,那么solr首先就要能够获取这些数据并在这些数据中建立索引来达成快速搜索的目的...,这里就列举我们最常用的从关系型数据库中向solr导入索引数据。...-- 配置加入数据导入数据库驱动的jar包 --> <lib dir="${<em>solr</em>.install.dir:../..}...,再操作mysql 查询只查询<em>solr</em>就可以 #<em>solr</em>挂了 查询MySQL 修复后同步一下<em>数据</em>,可以修改<em>导入</em>sql添加筛选时间条件

1.2K20

Apache Solr DataImportHandler 远程代码执行漏洞(CVE-2019-0193) 分析

我对此漏洞进行了应急,由于在应急时构造的PoC很鸡肋,需要存在数据库驱动,需要连接数据库并且无回显,这种方式在实际利用中很难利用。...Solr DataImportHandler可以批量把数据导入索引库中,根据Solr文档[2]中的描述,DataImportHandler有如下功能: •读取关系数据库中数据或文本数据•根据配置从xml...(http/file方式)读取与建立索引数据•根据配置聚合来自多个列和表的数据来构建Solr文档•使用文档更新Solr(更新索引、文档数据库等)•根据配置进行完全导入的功能(full-import,完全导入每次运行时会创建整个索引...然后尝试了使用绝对路径配置,绝对路径也能在web界面看到,但是solr默认不允许使用除了创建的core目录之外的配置文件,如果这个开关设为了true,就能使用对应core外部的配置文件: ? ?...:从不同的Solr实例和核心导入数据 dataSource:数据源,他有以下几种类型,每种类型有自己不同的属性 JdbcDataSource:数据库源 URLDataSource

2.1K20

Apache Solr 漏洞复现

其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成,以及富文本的处理。...2019年10月30日,国外安全研究人员放出了一个关于solr 模板注入的exp,攻击者通过未授权访问solr服务器,发送特定的数据包开启 params.resource.loader.enabled,...影响版本 5.0.0 8.3.1版本 漏洞复现 默认情况下params.resource.loader.enabled配置未打开,无法使用自定义模板。...当solr开启了DataImportHandler功能,该模块中的DIH配置都可以通过外部请求dataconfig参数进行修改,DIH可包含脚本,因此,会存在远程代码执行漏洞。...Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。原理大致是文档通过Http利用XML加到一个搜索集合中。

1.7K40

Apache Solr DataImportHandler远程代码执行漏洞(CVE-2019-0193) 分析

我对此漏洞进行了应急,由于在应急时构造的PoC很鸡肋,需要存在数据库驱动,需要连接数据库并且无回显,这种方式在实际利用中很难利用。...测试环境 分析中涉及的与Solr相关的环境如下: Solr-7.7.2 JDK 1.8.0_181 相关概念 一开始没有去仔细去查阅Solr相关资料,只是粗略翻了下文档把漏洞复现了,那时候我也觉得数据应该能回显...id,然后再根据文档id去文档信息库获取文档信息 Solr DataImportHandler Solr DataImportHandler可以批量把数据导入索引库中,根据Solr文档中的描述,DataImportHandler...然后尝试了使用绝对路径配置,绝对路径也能在web界面看到,但是solr默认不允许使用除了创建的core目录之外的配置文件,如果这个开关设为了true,就能使用对应core外部的配置文件: 后来在回头去查阅时在...:从不同的Solr实例和核心导入数据 dataSource:数据源,他有以下几种类型,每种类型有自己不同的属性 JdbcDataSource:数据库源 URLDataSource

1.4K00

Solr搜索引擎 — 通过mysql配置数据

/solr/ > PS:8.0.0版本已经发布,本文使用此时较为稳定的7.7.1版本 一,准备数据数据表结构 CREATE TABLE `app` ( `id` int(11) NOT NULL...因为我们需要使用mysql作为数据源,我们需要增加对mysql使用的jar包 > cd server/solr-webapp/webapp/WEB-INF/lib/ > wget http:...//pic.w-blog.cn/mysql-connector-java.jar 二、增加solr-core > PS:这里基础solr命令启动的程序并未基于tomcat进行配置,后续cloud集群会使用...mysql也支持其他的数据库 query:查询数据库表符合记录数据 deltaQuery:增量索引查询主键ID 注意这个只能返回ID字段 deltaImportQuery:增量索引查询导入数据 >...当然也可以通过请求URL的方式进行数据更新,这里也方便索引的更新和程序相结合 http://172.16.3.148:8983/solr/new_core/dataimport?

1.5K10

Solr7使用Oracle数据导入+中文分词

安装目录假设为#solr_home,本文的#solr_home为apps/svr/solr  一、Oracle数据导入 1....将#solr_home/server/solr/configsets/_default下的conf文件夹拷贝#solr_home/server/solr/mjd; 3.打开mjd/conf下的solrconfig.xml...回到左侧菜单,选择Query,点击Execute Query,如果右侧查询出数据,恭喜你,你已经配置好了; 可根据第八步继续添加自己想要的字段,重复9 10步骤; 二、中文分词 Solr7之前好像大部分使用的是...command=delta-import&clean=false&commit=true 差异导入 这里clean参数如果是true,会把之前的数据清空掉,然后导入差异的数据,在差异性导入时注意这个参数...,不然会把solr里的数据清空,然后导入差异性的数据(这个差异是清空前的差异),导致数据缺失; 建议访问低频时重建全量索引,如每天凌晨4点做一次全量导入,每10分钟做一次差异导入 FQA: 1.增量导入是以主键作为增量差异

78220

5000+收藏的Spring Boot面试核心总结,关键时刻可以救你一命!

(4)自动装配Spring实例,不需要XML配置。 (5)提供诸如性能指标、健康检查、外部配置等线上监控和配置功能。...例如,如果要使用Spring的JPA功能进行数据库访问,只需要应用程序在项目中加入spring-boot-starter-data-jpa依赖即可,具体的依赖细节由Starters统一处理,不需要应用程序分别处理各个...下面将简单介绍常用组件的使用。 1. Spring Boot使用MySQL Spring Boot基于Starter能够快速将不同的服务组件集成应用程序中。...#数据库的连接地址 (3)使用服务组件。...#Solr数据库地址 spring.data.solr.host: http://127.0.0.1:8080/solr/ciri_core (3)使用服务组件。

77720

Apache Solr漏洞总结

通过查看调用栈中的数据处理流程,在调用lucene xml解析器时确实没有对DTD和外部实体进行替换处理,造成了盲目XXE ?...CVE-2019-0193 远程命令执行漏洞 漏洞简述 漏洞出现在Apache Solr的DataImportHandler,该模块是一个可选但常用的模块,用于从数据库和其他源中提取数据。...它具有一个功能,其中所有的DIH配置都可以通过外部请求的dataConfig参数来设置。由于DIH配置可以包含脚本,因此攻击者可以通过构造危险的请求,从而造成远程命令执行。...d example/example-DIH/solr/db 2.搭建好后访问页面。...其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成,以及富文本的处理 Apache Solr 5.0.0版本至8.3.1版本中存在输入验证错误漏洞。

3.9K10

开始使用Apache Solr

倒排索引的目的是允许快速的全文搜索,代价是在将文档添加到数据库时增加处理。倒排文件可能是数据库文件本身,而不是索引。它是用于检索大规模使用的文档系统(如在搜索引擎中)的最流行的数据结构。.../bin/solr start -p 4444)。当您第一次启动Apache Solr时,将不会有任何数据可供玩或查询。您需要使用....=y,suspend=n,address=1044" -c 以 SolrCloud模式启动Solr,SolrCloud模式也将启动包含在Solr中的嵌入式ZooKeeper实例。...-e 运行云,techproducts,dih和无模式的配置。 -f 在前台运行。 -noprompt 启动Solr并禁止任何可能出现的提示。这有一个隐式接受所有默认值的副作用。...您也可以使用创建自己的收藏 bin/solr start -e cloud。 现在您已经准备好了Solr并且已经插入了数据,您可以在localhost:8983 / solr中查看 UI中的数据

1K00

干货 | 如何用Solr搭建大数据查询平台

,如果要考虑以后数据量越来越大的情况,还是得用其他方案,为此我使用solr。...接下来就是把收集的各种裤子全部导入这个表了,这里推荐使用navicat,它可以支持各种格式的导入,具体过程相当的枯燥乏味,需要很多的耐心,这里就不再废话了,列位看官自己去搞就是了,目前我初步导入数据量大约是...Solr安装完成,现在我们需要从mysql导入数据导入前,我们需要先创建一个core,core是solr的特有概念,每个core是一个查询、数据,、索引等的集合体,你可以把它想象成一个独立数据库,我们创建一个新...-5.5.0/example/example-DIH/solr/db/conf下面的所有文件全部拷贝到我们创建的conf目录中.接下来的配置主要涉及三个文件, solrconfig.xml, schema.xml...这一步,如果只是搭建一个本地库,供自己使用,那么我们接下来只需写一个查询程序,post关键字,然后显示返回的结果即可,比如这样: 秒查,速度非常快,但如果要架设成服务器,提供给其他人使用,我们还有很多工作要做

4.5K70

全文检索引擎Solr系列——入门篇

的管理界面 索引数据 服务启动后,目前你看到的界面没有任何数据,你可以通过POSTing命令向Solr中添加(更新)文档,删除文档,在exampledocs目录包含一些示例文件,运行命令: 1 java...数据导入 导入数据Solr的方式也是多种多样的: 可以使用DIH(DataImportHandler)从数据导入数据 支持CSV文件导入,因此Excel数据也能轻松导入 支持JSON格式文档 二进制文档比如...:Word、PDF 还能以编程的方式来自定义导入 更新数据 如果同一份文档solr.xml重复导入会出现什么情况呢?...实际上solr会根据文档的字段id来唯一标识文档,如果导入的文档的id已经存在solr中,那么这份文档就被最新导入的同id的文档自动替换。...现在把刚刚删除的文件重新导入Solr中来,继续我们的学习。 删除所有数据: 1 http://localhost:8983/solr/collection1/update?

98410
领券