腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
JackieZheng
专栏成员
举报
150
文章
184781
阅读量
52
订阅数
订阅专栏
申请加入专栏
全部文章(150)
java(31)
spring(27)
编程算法(19)
数据库(16)
其他(15)
go(11)
angularjs(10)
xml(9)
容器(9)
hadoop(9)
rabbitmq(9)
数据处理(9)
sql(8)
mvc(8)
爬虫(8)
云数据库 SQL Server(7)
eclipse(7)
tomcat(7)
api(6)
html(5)
github(5)
https(5)
http(4)
开源(4)
dubbo(4)
javascript(3)
node.js(3)
云数据库 Redis(3)
apache(3)
mapreduce(3)
网站(3)
spark(3)
ssh(3)
数据可视化(3)
json(2)
ide(2)
maven(2)
搜索引擎(2)
linux(2)
缓存(2)
mybatis(2)
sql server(2)
rpc(2)
数据结构(2)
php(1)
.net(1)
opengl(1)
汇编语言(1)
oracle(1)
git(1)
svn(1)
matlab(1)
jar(1)
ubuntu(1)
腾讯云测试服务(1)
mongodb(1)
图像处理(1)
渲染(1)
微信小程序音视频(1)
存储(1)
shell(1)
网络安全(1)
图像识别(1)
asp(1)
aop(1)
markdown(1)
微信(1)
安全(1)
微服务(1)
hbase(1)
processing(1)
任务调度(1)
code(1)
map(1)
string(1)
搜索文章
搜索
搜索
关闭
Nutch源码阅读进程3---fetch
mapreduce
搜索引擎
爬虫
该文介绍了如何利用基于 Nutch 的搜索引擎进行网页抓取,并提取文本内容。文章主要包含以下几个部分:1. 介绍 Nutch 的搜索引擎;2. 基于 Nutch 的搜索引擎进行网页抓取;3. 对抓取到的网页进行正文提取;4. 对提取到的内容进行关键词提取;5. 将提取到的关键词进行存储。
JackieZheng
2018-01-08
1.1K
0
Nutch源码阅读进程1---inject
ubuntu
搜索引擎
java
xml
本文介绍了Nutch引擎的基本架构和实现流程,分为三个主要部分:网络爬虫、索引和检索。网络爬虫负责网页抓取,利用URL管理器从互联网上获取网页;索引部分负责对网页内容进行解析、提取、存储,生成索引数据库;检索部分负责提供检索服务,根据用户查询在索引库中快速检索匹配的网页,并返回给用户。
JackieZheng
2018-01-08
732
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档