首页
学习
活动
专区
工具
TVP
发布

JackieZheng

专栏成员
150
文章
184625
阅读量
52
订阅数
Nutch源码阅读进程3---fetch
该文介绍了如何利用基于 Nutch 的搜索引擎进行网页抓取,并提取文本内容。文章主要包含以下几个部分:1. 介绍 Nutch 的搜索引擎;2. 基于 Nutch 的搜索引擎进行网页抓取;3. 对抓取到的网页进行正文提取;4. 对提取到的内容进行关键词提取;5. 将提取到的关键词进行存储。
JackieZheng
2018-01-08
1.1K0
Nutch源码阅读进程1---inject
本文介绍了Nutch引擎的基本架构和实现流程,分为三个主要部分:网络爬虫、索引和检索。网络爬虫负责网页抓取,利用URL管理器从互联网上获取网页;索引部分负责对网页内容进行解析、提取、存储,生成索引数据库;检索部分负责提供检索服务,根据用户查询在索引库中快速检索匹配的网页,并返回给用户。
JackieZheng
2018-01-08
7320
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档