首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

hadoop使用(四)

做一个网络爬虫程序吧,根据客户需求,要求把相关内容爬取到本地 最终选择是apache nutch,到目前为止最新版本是1.3 1. Nutch是什么?...其底层使用了Hadoop来做分布式计算与存储,索引使用Solr分布式索引框架来做,Solr是一个开源全文索引框架,从Nutch 1.3开始,其集成了这个索引架构 2....3.1 对下载后压缩包进行解压,然后cd $HOME/nutch-1.3/runtime/local    3.2 配置bin/nutch这个文件权限,使用chmod +x bin/nutch   ...附加一张中文图 不知道为什么在Nutch-1.3没了Nutch自带搜索war文件,而且在Nutch-1.3,抓取文件后,生成目录只有crawldb,linkdb,segments 查了一下官网...,搜索同一关键字,发现Nutch搜索展示结果有重复,而solr没有重复,还有solr可以在conf/schema.xml配置字段属 性,nutch好像改了这个配置文件,也没起效果,比如,索引存储

93680

Apache nutch1.5 & Apache solr3.6

Lucene 为Nutch 提供了文本索引和搜索API。一个常见问题是;应 该使用Lucene 还是Nutch?最简单回答是:如果你不需要抓取数据的话,应该使用Lucene。...目录拷贝到任意位置,是放在:~/tomcat7/solr下 3)在tomcat目录下conf\Catalina\localhost 目录(如果没有则手工创建该目录)创建solr.xml文件文件内容如下...例如,Field 可以包含字符串、数字、布尔值或者日期,也可以包含你想添加任何类型,只需用在solr配置文件中进行相应配置即可。...也就是添加索引xml文件属性类型,如int、text、date等 fileds是你添加索引文件中出现属性名称,而声明类型就需要用到上面的types 其他配置有 uniqueKey 唯一键...表 1 概括了可控制 Solr 索引处理各种因素: 因素 描述 useCompoundFile 通过将很多 Lucene 内部文件整合到单一一个文件来减少使用文件数量。

1.8K40
您找到你想要的搜索结果了吗?
是的
没有找到

Lucene概览

用户可以使用Lucene 或 基于Lucene成熟产品Nutch/Solr/Elasticsearch等来快速构建搜索服务,如文件搜索、网页搜索等。...资源管理搜索功能、Google、百度等。...因此出现了基于Lucene产品化系统,例如NutchSolr、Elasticsearch等。...3.1 索引流程 3.1.1 分词处理 将待索引文档传递给分词进行处理,我们样例程序StandardAnalyzer即为标准英文分词,如果需要中文分词,可以使用开源界贡献插件或自定义。...引入,以存方式存储字段数据,用于加快排序、聚合等操作 存元数据 dvm dvd文件元数据 段信息 si 记录segment大小、版本文件列表等元信息        另外,列举一个Lucene核心存储文件实际样例

4.5K80

Elasitcsearch 底层系列 Lucene 内核解析之Lucene概览

用户可以使用Lucene 或 基于Lucene成熟产品Nutch/Solr/Elasticsearch等来快速构建搜索服务,如文件搜索、网页搜索等。...资源管理搜索功能、Google、百度等。...因此出现了基于Lucene产品化系统,例如NutchSolr、Elasticsearch等。...3.1 索引流程 3.1.1 分词处理 将待索引文档传递给分词进行处理,我们样例程序StandardAnalyzer即为标准英文分词,如果需要中文分词,可以使用开源界贡献插件或自定义。...、聚合等操作 存元数据 dvm dvd文件元数据 段信息 si 记录segment大小、版本文件列表等元信息        另外,列举一个Lucene核心存储文件实际样例,方便参考上面描述对照理解

1.5K10

Elasitcsearch 底层系列 Lucene 内核解析之Lucene概览

用户可以使用Lucene 或 基于Lucene成熟产品Nutch/Solr/Elasticsearch等来快速构建搜索服务,如文件搜索、网页搜索等。...资源管理搜索功能、Google、百度等。...因此出现了基于Lucene产品化系统,例如NutchSolr、Elasticsearch等。...3.1 索引流程 3.1.1 分词处理 将待索引文档传递给分词进行处理,我们样例程序StandardAnalyzer即为标准英文分词,如果需要中文分词,可以使用开源界贡献插件或自定义。...、聚合等操作 存元数据 dvm dvd文件元数据 段信息 si 记录segment大小、版本文件列表等元信息        另外,列举一个Lucene核心存储文件实际样例,方便参考上面描述对照理解

1.4K102

利用Solr服务建立站内搜索雏形---solr1

总觉着之前搭建nutch配上solr还是有点呆板,在nutch爬取时候就建立索引solr服务下,然后在solr管理界面中选择query,比如在q选项框中将“*:*”改写为“title:安徽”,则在管理界面中就能看到搜索结果...,可是这个与搜索引感觉差远了,总感觉这些结果是被solr给套在他管理界面中了,于是自己在网上搜索,也整个站内搜索一样东西,就算整不到那么炫,只要整到在solr管理界面以外地方出现搜索结果就心满意足了...,多看看结合一下,于是自己开始动手拼接组装程序了: 1.在程序环境是在Myeclipse)要能够与solr服务通信,毕竟你索引是存在solr,然后就是加入搜索条件和要搜索字段,再者就是一个查询类以及最后结果呈现...包之后,就开始运行程序了,solr是装在虚拟机里面,所以还要先到虚拟机把tomcat服务启动(solr服务已经部署到tomcat服务下了),然后在win7系统浏览输入http://ip...虽然以上算不得什么搜索引擎,也没有任何界面的显示,但是已很欣慰,因为都已经能搜索了,离我小百度还远么(开玩笑^_^)下一步准备先看看solrj具体是怎么应用,每个部分都如何使用摸索弄个搜索引模样出来过过瘾

84480

【搜索引擎:Elasticsearch】从0了解ES,整合springboot,京东搜索实战

,用 POST方法向 Solr 服务发送一个描述 Field 及其内容 XML 文档,Solr根据xml文档添加、删除、更新索引。...elasticsearch(集群)可以包含多个索引(数据库),每个索引可以包含多个类型(表),每个类型下又包含多 个文档(行),每个文档包含多个字段()。...灵活结构,文档不依赖预先定义模式,我们知道关系型数据库,要提前定义字段才能使用,在elasticsearch,对于字段是非常灵活,有时候,我们可以忽略该字段,或者动态添加一个字段。...实际上,一个分片是一个Lucene索引,一个包含倒排索引文件目录,倒排索引结构使 得elasticsearch在不扫描全部文档情况下,就能告诉你哪些文档包含特定关键字。...PUT /索引名/~类型名~/文档id {请求体} 完成了自动增加了索引!数据也成功添加了,这就是说大家在初期可以把它当做数据库学习原因! 那么 name 这个字段用不用指定类型呢。

1K31

ElasticSearch 极简教程

引子 lucene、solrnutch、elasticSearch、LogStash、Kibana. lucene是一个文档索引、检索框架。...文档( Document) Elasticsearch 是面向文档,文档是所有可搜索数据最小单位 日志文件日志项 一本电影具体信息 一首歌详细信息 文档会被序列化成 JSON 格式,...使用比较广泛平台ELK(ElasticSearch, Logstash, Kibana) ElasticSearch vs Solr Solr 定义:Solr是Apache 下一个开源项目,使用...用户可以通过http请求,向搜索引擎服务提交一定格式XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式返回结果。...每一个索引可以包含一个doc类型 Type(表),每一个类型包含多个文档 Document(记录),然后每个文档包含多个字段 Fields(),DSL 相当于 RDBMS SQL。

2K30

索引擎理论简述

索引 ---- 1. 索引原理是什么? 对值创建排序存储,数据结构={值、行地址}。在有序数据列表中就可以利用二分查找(或者其他方式)快速找到要查找地址,再根据地址直接取行数据。 2....如何选择分词 准确率 分词效率 中英文混合分词支持 5. 你、、他、、地、了、标点符号......这些需要为其创建索引吗? 这种词一般称为停用词,不会被索引。 6....tf_(t,d) = 词t在文档d出现次数 / 文档d总词次数。 2. df df: document frequency 词文档频率,指包含某个词文档数(有多少文档包含这个词)。...Java开源搜索引擎 ---- NutchSolr、Elasticsearch 等都依赖于 Lucene。...Nutch: Apache 顶级开源项目,包含网络爬虫和搜索引擎(基于 lucene)系统(如百度、google)。Hadoop 因它而生。

45320

9个基于Java索引擎框架 转

那么如果在你自己开发网站系统需要能让用户搜索一些重要信息,并且能以结构化结果展现给用户,下面分享这9款Java搜索引擎框架或许就可以帮助到你了。...官方网站:http://lucene.apache.org/ 2、开源Java搜索引Nutch Nutch 是一个开源Java实现索引擎。它提供了我们运行自己索引擎所需全部工具。...利用Nutch,你可以做到以下这些功能: 每个月取几十亿网页 为这些网页维护一个索引索引文件进行每秒上千次搜索 提供高质量搜索结果 以最小成本运作 官方网站:http://nutch.apache.org...Java全文搜索服务 Solr Solr也是基于Java实现,并且是基于Lucene实现Solr主要特性包括:高效、灵活缓存功能,垂直搜索功能,高亮显示搜索结果。...值得注意是,Solr还提供一款很棒Web界面来管理索引数据。

3.8K40

Web-第二十八天 Lucene&solr使用一【悟空教程】

比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把 HTML 文档和 PDF 文档转化成文本格式,然后将转化后内容交给 Lucene 进行索引,然后把创建好索引文件保存到磁盘或者内存...采集数据分类: 1.对于互联网上网页,可以使用工具将网页抓取到本地生成html文件。 2.数据库数据,可以直接连接数据库读取表数据。...课程已经准备好了Lucene文件,我们使用是4.10.3版本文件位置如下图: ? 解压后效果: ?...扩展中文词库 如果配置扩展词和停用词,就创建扩展词文件和停用词文件。 注意:不要用window自带记事本保存扩展词文件和停用词文件,那样的话,格式是含有bom。 ?...SolrCore目录包含了运行Solr实例所有的配置文件和数据文件Solr实例就是SolrCore。 每个SolrCore提供单独搜索和索引服务。 11.3.1.1.

1.3K10

Apache Solr DataImportHandler 远程代码执行漏洞(CVE-2019-0193) 分析

后来逐渐有PoC被构造出来,经过了几个版本PoC升级,到最后能直接通过直接传递数据流方式,无需数据库驱动,无需连接数据库且能回显。下面记录下PoC升级历程以及自己遇到一些问题。...(http/file方式)读取与建立索引数据•根据配置聚合来自多个和表数据来构建Solr文档•使用文档更新Solr(更新索引、文档数据库等)•根据配置进行完全导入功能(full-import,完全导入每次运行时会创建整个索引...几个名词解释: • Core: 索引库,其中包含schema.xml/managed-schema,schema.xml是模式文件传统名称,可以由使用该模式用户手动编辑,managed-schema...添加/删除)等,Solr为这些数据数据创建索引并将数据保存为Document 对于此漏洞需要了解dataConfig以下几个元素: Transformer:实体提取每组字段可以在索引过程直接使用...:可用于覆盖或修改任何现有的Solr字段或创建Solr字段 HTMLStripTransformer:可用于从字符串字段删除HTML ClobTransformer

2.1K20

Apache Solr DataImportHandler远程代码执行漏洞(CVE-2019-0193) 分析

后来逐渐有PoC被构造出来,经过了几个版本PoC升级,到最后能直接通过直接传递数据流方式,无需数据库驱动,无需连接数据库且能回显。下面记录下PoC升级历程以及自己遇到一些问题。...有如下功能: 读取关系数据库数据或文本数据 根据配置从xml(http/file方式)读取与建立索引数据 根据配置聚合来自多个和表数据来构建Solr文档 使用文档更新Solr(更新索引、文档数据库等...DataImport处理大致流程图如下(只画了与该漏洞相关主要部分): 几个名词解释: Core:索引库,其中包含schema.xml/managed-schema,schema.xml是模式文件传统名称...添加/删除)等,Solr为这些数据数据创建索引并将数据保存为Document 对于此漏洞需要了解dataConfig以下几个元素: Transformer:实体提取每组字段可以在索引过程直接使用...:可用于覆盖或修改任何现有的Solr字段或创建Solr字段 HTMLStripTransformer:可用于从字符串字段删除HTML ClobTransformer

1.4K00

从 0 到 1 学习 elasticsearch ,这一篇就够了!(建议收藏)

前言 之前一直花点时间写一篇 elasticsearch 保姆级教程,于是,趁着年假几天时间加上周末一些时间,产出了自认为算是非常详细,基于目前最新版本elasticsearch7.11...elasticsearch(集群)可以包含多个索引(数据库),每个索引可以包含多个类型(表),每个类型下又包含多个文档(行),每个文档包含多个字段() 物理设计: elasticsearch...在后台把每个索引划分成多个分片,每份分片可以在集群不同服务间迁移 逻辑设计: 一个索引类型包含多个文档,比如说文档1,文档2。...其实就是个JSON对象 灵活结构,文档不依赖预先定义模式,我们知道关系型数据库,要提前定义字段才能使用,在 elasticsearch ,对于字段是非常灵活,有时候,我们可以忽略该字段,或者动态添加一个字段...GET 查看 现在我们来尝试使用一下 GET 命令,请求具体信息! ? 可以发现通过GET请求,我们能够详细获取到该索引下具体信息,其中包含字段类型。

1.5K31

Nutch2.1+Hbase+Solr快速搭建一个爬虫和搜索引擎(快速,基本2小时内搞定)

说明:这种方式是为了快速体验或者数据量较小情况,不适合数据量大生产环境 环境准备: Centos7 Nutch2.2.1 JAVA1.8 ant1.9.14 hbase0.90.4 (单机版) solr7.7.../archive.apache.org/dist/hbase/hbase-0.90.4/hbase-0.90.4.tar.gz tar zxf hbase-0.90.4.tar.gz # 或者直接使用提供软件包...可以自己把包下载下来放到报错路径 成功后:生成两个目录 runtime和build,下面的配置文件修改都是改 runtime/local下面的文件 添加种子url #在你想存储目录.../bin/crawl ~/urls/ jkj http://192.168.1.61:8983/solr/jkj_core 2 ~/urls/ 是存储抓取文件目录 jkj 是指定存储在在hbase...id(可以这么理解),自动创建表 http://192.168.1.61:8983/solr/jkj_core solr创建collection地址 2 为抓取深度 7.通过solr或者

1.3K20

一步一步学lucene——(第一步:概念篇)

内容获取完全可以通过下面提供开源软件进行获取,当然这里只是列出了其中一部分: solrSolr是一个高性能,采用Java5开发,基于Lucene全文搜索服务。...nutchNutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流Web搜索引擎。...grub:Grub Next Generation 是一个分布式网页爬虫系统,包含客户端和服务可以用来维护网页索引。 Heritrix:Heritrix是一个开源,可扩展web爬虫项目。...Aperture:Aperture这个Java框架能够从各种各样资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统文件(如:文档、图片)爬取和搜索其中全文本内容与元数据...它可以轻松地实现与其他语言使用XML /简称JSON / HTML格式。有一个用户界面的所有业务,因此没有Java编码是必要。删除或更新记录数据库可以同步。内容以外数据库还可以进行搜查。

1.3K80

Nutch简介

在写 Nutch 过程,从学院派和工业派借鉴了 很多知识:比如, Nutch 核心部分目前已经被重新用 Map Reduce 实 现了。...并且 Nutch 也吸引了很多研究者,他们非常乐于尝试 搜索算法,因为对 Nutch 来说,这是非常容易实现扩展。 (3) 扩展性:你是不是不喜欢其他索引擎展现结果方式呢?...Nutch 是非常灵活:他可以被很好 客户订制并集成到你应用程序使用 Nutch 插件机制, Nutch 可以作为一个搜索不同信息载体搜索平台。...为了完成这一宏伟目标, nutch 必须能够做到: • 每个月取几十亿网页 • 为这些网页维护一个索引 • 对索引文件进行每秒上千次搜索 • 提供高质量搜索结果...一个常见问题是;应该使用 Lucene 还是 Nutch? 最简单回答是:如果你不需要抓取数据的话,应该使用 Lucene。

75300

索引solr和elasticsearch

搜索功能是在互联网 漫游,发现和搜集信息。索引功能是理解搜索所搜索信息,从中抽取出索引项,用于表示文档 以及生成文档库索引表。...检索功能是根据用户查询在索引快速检出文档,进行文档与查询相关度评价,对将要输出结果进行排序,并实现某种用户相关性反馈机制。...——以上文字百度百科(点击跳转到对应页面),更多相关搜索引擎介绍请看该文章,如全文搜索引擎、目录索引类搜索引擎、元搜索引区别。...更重要是,Solr 创建索引与 Lucene 搜索引擎库完全兼容。通过对Solr 进行适当配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序索引。...此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用Solr 创建索引

71630
领券