腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
字根中文校对软件
专栏作者
举报
188
文章
186224
阅读量
44
订阅数
订阅专栏
申请加入专栏
全部文章(188)
http(43)
java(39)
编程算法(29)
搜索引擎(23)
api(14)
windows server(14)
数据库(13)
sql(11)
lucene/solr(10)
html(9)
.net(8)
网站(8)
开源(8)
xml(7)
ide(7)
aop(7)
其他(6)
c#(6)
eclipse(6)
spring(6)
容器(6)
爬虫(6)
windows(6)
servlet(5)
云数据库 SQL Server(5)
oracle(5)
git(5)
github(5)
linux(5)
网络安全(5)
https(5)
c++(4)
python(4)
json(4)
ubuntu(4)
容器镜像服务(4)
人工智能(4)
企业(4)
php(3)
go(3)
actionscript(3)
apache(3)
神经网络(3)
腾讯云测试服务(3)
存储(3)
缓存(3)
hive(3)
测试(3)
区块链(2)
NLP 服务(2)
机器学习(2)
javascript(2)
ruby(2)
ajax(2)
打包(2)
tomcat(2)
中文分词(2)
analyzer(2)
centos(2)
深度学习(2)
mapreduce(2)
it(2)
接口(2)
科技(2)
系统(2)
perl(1)
bash(1)
scala(1)
asp.net(1)
symfony(1)
postgresql(1)
access(1)
jar(1)
struts(1)
unix(1)
bash 指令(1)
delphi(1)
文件存储(1)
TDSQL MySQL 版(1)
检测工具(1)
mongodb(1)
svg(1)
运维(1)
jdk(1)
hadoop(1)
jvm(1)
ssh(1)
正则表达式(1)
erp(1)
gui(1)
yum(1)
面向对象编程(1)
jdbc(1)
推荐系统(1)
tcp/ip(1)
udp(1)
socket编程(1)
kvm(1)
uml(1)
大数据(1)
机器人(1)
数据结构(1)
hbase(1)
虚拟化(1)
sdk(1)
backup(1)
com(1)
crontab(1)
enterprise(1)
firefox(1)
im(1)
office(1)
prefix(1)
production(1)
sh(1)
status(1)
tree(1)
vmware(1)
web(1)
yahoo(1)
备份(1)
编辑器(1)
部署(1)
服务器(1)
工具(1)
脚本(1)
连接(1)
乱码(1)
权限(1)
数组(1)
字符串(1)
搜索文章
搜索
搜索
关闭
介绍 Nutch 第一部分:抓取过程详解(翻译2)
爬虫
网站
php
搜索引擎
eclipse
通过上文现在我们有了一些基本的概念了,现在应该接触实际的操作了,因为懂得原理和实践还是有很大差距的。
田春峰-JCJC错别字检测
2022-05-07
467
0
介绍 Nutch 第一部分:抓取 (翻译)
爬虫
lucene/solr
网站
搜索引擎
http
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。可以为什么我们需要建立自己的搜索引擎呢?毕竟我们已经有google可以使用。这里我列出3点原因:
田春峰-JCJC错别字检测
2022-05-07
816
0
互联网站网页的类型说明
http
go
网站
爬虫
在我们使用互联网阅读信息、查找资料的时候,会碰到各种各样的网页,不同的网页类型有着不同的功能,能够对自己浏览的网页进行适当的分类,会对您的工作起到帮助。
田春峰-JCJC错别字检测
2021-12-06
449
0
什么是垂直搜索引擎(之二)
爬虫
搜索引擎
垂直搜索引擎的三个特点: 1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点: 比如:找工作的搜索引擎 www.deepdo.com 的数据来源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等; 股票搜索引擎 www.macd.cn 的数据来源于: www.jrj.com.cn , www.gutx.com 等股票站点; 2、垂直搜索引擎抓取的数据倾向于结构化数据和元数据: 比如:我们找工作关注的: 职位信息: 软件工程师; 公司名称,行业名称:软件公司,外包行业等; 地点:北京,海淀; 3、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索: 比如: 找:海淀 软件工程师 的工作等。 垂直搜索引擎站点的8条准则: 1、选择一个好的垂直搜索方向。俗话说男怕选错行,这一点对于搜索引擎来说也是一样的,除了选择的这个行业有垂直搜索的大量需求外,这个行业的数据属性最好不要和 Yahoo,Google等通用搜索的的抓取方向重叠。 目前热门的垂直搜索行业有:购物,旅游,汽车,工作,房产,交友等行业。搜索引擎对动态url数据不敏感也是众所周知的,这些可以作为垂直搜索引擎的切入点; 2、评价所选垂直搜索行业的网站、垂直搜索内容、行业构成等情况: 我们都知道垂直搜索引擎并不提供内容来源,它的数据依赖爬虫搜集,并做了深度加工而来的。因此考虑垂直搜索引擎的所处的大环境和定位至关重要。 3、深入分析垂直搜索引擎的索引数据特点: 垂直搜索引擎的索引数据过于结构化,那么进入的门槛比较低,行业竞争会形成一窝蜂的局面;如果搜索数据特点是非结构化的,抓取,分析这样的数据很困难,进入壁 垒太高,很可能出师未杰身先死。 4、垂直搜索引擎的索引数据倾向于结构化数据和元数据,这个特点是区别于yahoo,google等通用搜索引擎的,这是垂直搜索引擎的立足点。而垂直搜索引擎是根植于某一个行业 ,因此行业知识,行业专家这些也是通用搜索引擎不具备的。也就是说进入垂直搜索是有门槛的。 5、垂直搜索引擎的搜索结果要覆盖整个行业,搜索相关性要高于通用搜索引擎,贴近用户搜索意图,搜索结果要及时。 6、垂直搜索引擎的web 2.0 需求: 垂直搜索引擎的搜索数据由于带有结构化的天性,相对于通用搜索引擎的全文索引而言,更显的少而精。因此,设计的时候要提供收集用户数据的接口,同时提供tag,积 分等机制,使搜索结果更加“垂直”。 7、垂直搜索引擎的目标是帮助用户解决问题,而不只是向通用搜索引擎一样发现信息: 这一点是垂直搜索引擎的终极目标。 在做垂直搜索引擎的时候你需要考虑:什么问题是这个行业内的特殊性问题,什么问题是一般性问题。keso多次提到google的目标是 让用户尽快离开google,而垂直搜索引擎应该粘住用户。一般来说,使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创 的,大意是和用户工作密切相关,生活中必不可少的需求,而求有持续性。比如:学生找论文,业主找装修信息等等这样的需求。因此粘住用户,让用户有反馈的途 径是一个关键部分。 8、垂直搜索引擎的社区化特征: 这一条和第9条是相关的。 俗话说物以类聚,人以群分,垂直搜索引擎定位于一个行业,服务于一群特定需求的人群,这个特点决定了垂直搜索的社区化行为。人们利用垂直搜索引擎解决问题,分享回馈。现在做网站都讲求社区化,所以垂直搜索引擎本质上还是:对垂直门户信息提供方式的一次简化性的整合。 相关连接:什么是垂直搜索引擎
田春峰-JCJC错别字检测
2019-02-14
1.6K
0
我对垂直搜索引擎的几点认识
搜索引擎
爬虫
据说垂直搜索现在很热,那么什么是垂直搜索呢,下面是我的几点认识,欢迎大家讨论。
田春峰-JCJC错别字检测
2019-02-14
1K
0
国外房地产搜索引擎简评之一
爬虫
HousingMaps把鸟瞰图和当地房地产数据相结合显示,效果非常吸引人,而且是免费的服务。这家公司同时向个人用户和商业用户提供卫星地图和鸟瞰图。他另一向别具特色的服务是Property Analyst ,主要为专业人士提供服务。全球华人房地产门户搜房网也密切关注这个领域,近期由租房二手房集团推出了 http://pinggu.soufun.com 搜房评估。
田春峰-JCJC错别字检测
2019-02-14
536
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档