JackieZheng-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

JackieZheng

专栏成员

150

文章

184781

阅读量

52

订阅数

Nutch源码阅读进程3---fetch

mapreduce 搜索引擎爬虫

该文介绍了如何利用基于 Nutch 的搜索引擎进行网页抓取，并提取文本内容。文章主要包含以下几个部分：1. 介绍 Nutch 的搜索引擎；2. 基于 Nutch 的搜索引擎进行网页抓取；3. 对抓取到的网页进行正文提取；4. 对提取到的内容进行关键词提取；5. 将提取到的关键词进行存储。

2018-01-08

1.1K0

Nutch源码阅读进程1---inject

ubuntu 搜索引擎 java xml

本文介绍了Nutch引擎的基本架构和实现流程，分为三个主要部分：网络爬虫、索引和检索。网络爬虫负责网页抓取，利用URL管理器从互联网上获取网页；索引部分负责对网页内容进行解析、提取、存储，生成索引数据库；检索部分负责提供检索服务，根据用户查询在索引库中快速检索匹配的网页，并返回给用户。

2018-01-08

7320

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态