腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
小狼的世界
专栏作者
举报
409
文章
533875
阅读量
34
订阅数
订阅专栏
申请加入专栏
全部文章
其他
php
linux
html
javascript
容器
存储
python
apache
容器镜像服务
mac os
java
css
编程算法
api
开源
安全
数据库
云数据库 SQL Server
kubernetes
shell
windows
bash
ajax
sql
unix
http
网站
tcp/ip
jquery
svn
搜索引擎
ubuntu
es 2
正则表达式
yum
github
centos
nginx
ftp
网站建设
ios
node.js
xml
oracle
tomcat
bash 指令
分布式
运维
jdk
gui
jdbc
silverlight
Elasticsearch Service
json
android
打包
ide
eclipse
git
人工智能
缓存
爬虫
jvm
ssh
dns
grep
lamp
hexo
系统架构
负载均衡
xcode
ruby
composer
memcached
access
mvc
maven
windows server
命令行工具
DevOps 解决方案
devops
黑客
网络安全
html5
hadoop
二叉树
flash
ddos
gcc
大数据
数据分析
数据处理
数据可视化
数据结构
https
微服务
nat
数据挖掘
phonegap
actionscript
.net
servlet
汇编语言
硬件开发
云数据库 Redis
ruby on rails
负载均衡缓存
访问管理
腾讯云测试服务
图像处理
yarn
rollup.js
自动化
spark
wordpress
erp
sql server
面向对象编程
zookeeper
cdn
markdown
iis
微信
小程序
机器人
架构设计
腾讯云开发者社区
任务调度
虚拟化
axure
desktop
dynamic
edit
facebook
ip
it
state
time
原型
搜索文章
搜索
搜索
关闭
Robots.txt和Robots META
搜索引擎
爬虫
robots.txt是一套指示搜索引擎(蜘蛛)如何抓取你的网页内容的一张地图,他告诉蜘蛛哪些需要抓取,哪些不要抓取(当然,这只是针对那些遵守这个协定的搜索引擎)。robots.txt文件必须存放在网站的根目录下。
大江小浪
2018-07-25
737
0
Robots.txt 协议详解及使用说明
爬虫
机器人
搜索引擎
Robots协议,也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。也既是Robots的用法有两种,一种是告诉搜索引擎哪些页面你不能抓(默认其他的就可以抓);一种是告诉搜索引擎你只能抓取哪些页面(默认其他的不可以抓)。
大江小浪
2018-07-24
1.4K
0
使用正则匹配并显示匹配的内容
html
爬虫
正则表达式
最近在解析HTML文件,遇到这样的一个场景。我需要将HTML文件中data-url="xxx"中的xxx查找并显示出来。
大江小浪
2018-07-24
3K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档