腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
bisal的个人杂货铺
专栏成员
举报
804
文章
1038177
阅读量
38
订阅数
订阅专栏
申请加入专栏
全部文章(804)
sql(440)
oracle(313)
数据库(254)
云数据库 SQL Server(90)
编程算法(89)
linux(58)
https(53)
网络安全(47)
存储(37)
http(29)
windows(27)
缓存(26)
java(23)
html(23)
腾讯云测试服务(21)
mysql(20)
云推荐引擎(19)
python(18)
sql server(16)
数据(16)
开源(15)
ide(14)
unix(14)
jdbc(14)
ruby on rails(13)
数据分析(12)
索引(12)
access(11)
企业(11)
jdk(11)
tcp/ip(11)
腾讯云开发者社区(11)
git(10)
网站(10)
table(10)
官方文档(9)
shell(9)
yum(9)
xml(8)
github(8)
ftp(8)
node.js(7)
打包(7)
访问管理(7)
utf8(7)
c++(6)
bash(6)
vr 视频解决方案(6)
面向对象编程(6)
虚拟化(6)
file(6)
io(6)
测试(6)
登录(6)
对象存储(5)
其他(5)
腾讯云gme(5)
go(5)
json(5)
api(5)
SSL 证书(5)
运维(5)
dba(5)
select(5)
session(5)
服务器(5)
连接(5)
系统(5)
性能(5)
mac os(4)
c#(4)
jquery(4)
jar(4)
全文检索(4)
centos(4)
apache(4)
bash 指令(4)
TDSQL MySQL 版(4)
图像处理(4)
jvm(4)
mybatis(4)
data(4)
设计(4)
自动驾驶(3)
php(3)
javascript(3)
css(3)
postgresql(3)
eclipse(3)
tomcat(3)
maven(3)
命令行工具(3)
金融(3)
数据安全(3)
express(3)
分布式(3)
dns(3)
grep(3)
安全(3)
ascii(3)
腾讯会议(3)
error(3)
excel(3)
null(3)
share(3)
编辑器(3)
磁盘(3)
公众号(3)
工作(3)
函数(3)
技巧(3)
配置(3)
权限(3)
日志(3)
网络(3)
机器学习(2)
云数据库 Redis(2)
svn(2)
windows server(2)
spring(2)
日志服务(2)
数据加密服务(2)
devops(2)
爬虫(2)
ssh(2)
正则表达式(2)
socket编程(2)
kvm(2)
微信(2)
物联网(2)
数据结构(2)
nat(2)
notepad ++(2)
unicode(2)
es(2)
数据库管理(2)
database(2)
ddl(2)
dump(2)
kill(2)
max(2)
microsoft(2)
partition(2)
process(2)
profile(2)
schema(2)
set(2)
trace(2)
truncate(2)
unique(2)
word(2)
备份(2)
插件(2)
存储过程(2)
服务(2)
工具(2)
计算机(2)
进程(2)
开发(2)
客户端(2)
论文(2)
模型(2)
内存(2)
排序(2)
统计(2)
协议(2)
语法(2)
主机(2)
字符串(2)
云服务器(1)
语音识别(1)
认证考试(1)
比特币(1)
区块链(1)
数字货币(1)
ios(1)
iphone(1)
ruby(1)
android(1)
单片机(1)
arm(1)
makefile(1)
搜索引擎(1)
analyzer(1)
solaris(1)
神经网络(1)
深度学习(1)
文件存储(1)
云直播(1)
NAT 网关(1)
腾讯云ide(1)
知识图谱(1)
DevOps 解决方案(1)
数据备份(1)
游戏(1)
自动化(1)
压力测试(1)
unity(1)
npm(1)
cdn(1)
kernel(1)
gcc(1)
大数据(1)
机器人(1)
数据处理(1)
nest(1)
云计算(1)
kafka(1)
防火墙(1)
5g(1)
轻量应用服务器(1)
性能测试(1)
汽车(1)
add(1)
algorithm(1)
alias(1)
app(1)
apply(1)
buffer(1)
bug(1)
chatgpt(1)
cli(1)
client(1)
commit(1)
date(1)
deferred(1)
directory(1)
echarts(1)
explorer(1)
export(1)
extend(1)
flush(1)
gps(1)
hash(1)
hidden(1)
hook(1)
import(1)
innodb(1)
insert(1)
jobs(1)
join(1)
line(1)
list(1)
live(1)
localhost(1)
lock(1)
ls(1)
merge(1)
monitor(1)
nested(1)
office(1)
ole(1)
plsql(1)
plugins(1)
position(1)
powerpoint(1)
range(1)
record(1)
rows(1)
service(1)
sh(1)
shared(1)
shift(1)
size(1)
snapshot(1)
sqlplus(1)
statistics(1)
status(1)
store(1)
sys(1)
themes(1)
time(1)
tm(1)
ui(1)
using(1)
video(1)
view(1)
warnings(1)
x86(1)
百度(1)
笔记(1)
表格(1)
并发(1)
部署(1)
操作系统(1)
产品(1)
程序(1)
对象(1)
多线程(1)
二进制(1)
管理(1)
行业(1)
互联网(1)
监控(1)
脚本(1)
开发工具(1)
跨平台(1)
蓝牙(1)
量化(1)
命令行(1)
苹果(1)
实践(1)
事件(1)
事务(1)
数据管理(1)
数学(1)
算法(1)
同步(1)
通信(1)
图表(1)
线程(1)
芯片(1)
信息安全(1)
异步(1)
异常(1)
硬件(1)
优化(1)
原理(1)
SQL注入攻击(1)
搜索文章
搜索
搜索
关闭
提问:Heritrix应用问题
爬虫
html
Heritrix应用问题 请教一下大家如何用heritrix抓取以下网站内容,需要定制么?下面是USPTO的专利网页:http://patft.uspto.gov/netacgi/nph-Parse
bisal
2019-01-29
458
0
robots协议标准
爬虫
前两天刚知道用爬虫抓取page有个协议的问题,尤其是对于open source的爬虫,刚看到一篇blog,写的就是如此,难怪之前看google的robots也和另外一个U.S.的网站相同,感情是大家都商量好了, 可能这方面中国的一些站点这种意识要稍微淡一点。。。同时这也害得毕设还得另谋思路。。。 搜索引擎三巨头打的不亦乐乎,但偶尔也合作一下。去年Google,雅虎,微软就合作,共同遵守统一的Sitemaps标准。前两天三巨头又同时宣布,共 同遵守的 robots.txt文件标准。Google,雅虎,微软各自在自己的官方博客上发了一篇帖子,公布三家都支持的robots.txt文件及Meta标签 的标准,以及一些各自特有的标准。下面做一个总结。 三家都支持的robots文件记录包括: Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件: User-agent: * Disallow: / Allow - 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件: User-agent: * Disallow: /ab/ Allow: /ab $通配符 - 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL: User-agent: * Allow: .htm$ *通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件: User-agent: * Disallow: /*.htm Sitemaps位置 - 告诉蜘蛛你的网站地图在哪里,格式为:Sitemap: <sitemap_XXXXXX> 三家都支持的Meta标签包括: NOINDEX - 告诉蜘蛛不要索引某个网页。 NOFOLLOW - 告诉蜘蛛不要跟踪网页上的链接。 NOSNIPPET - 告诉蜘蛛不要在搜索结果中显示说明文字。 NOARCHIVE - 告诉蜘蛛不要显示快照。 NOODP - 告诉蜘蛛不要使用开放目录中的标题和说明。 上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。 只有Google支持的Meta标签有: UNAVAILABLE_AFTER - 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。 NOIMAGEINDEX - 告诉蜘蛛不要索引页面上的图片。 NOTRANSLATE - 告诉蜘蛛不要翻译页面内容。 雅虎还支持Meta标签: Crawl-Delay - 允许蜘蛛延时抓取的频率。 NOYDIR - 和NOODP标签相似,但是指雅虎目录,而不是开放目录。 Robots-nocontent - 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。 MSN还支持Meta标签:Crawl-Delay 另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时 之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。
bisal
2019-01-29
841
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档