腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
抓取
所有
wordpress页面
wordpress
、
dns
、
web-crawler
、
reverse-dns
我想
抓取
所有
的wordpress博客。有没有快速列出wordpress.com下
所有
二级
域名
的方法?例如感谢你对这个问题的回答!
浏览 4
提问于2012-10-20
得票数 1
2
回答
执行从随机网站下载的javascript代码
javascript
、
security
我做了一个工具,从其他网站(任何类型)
抓取
所有
的html,css,javascript和图片。然后我在我自己的
域名
上执行这个(当然是在修改链接之后)。javascript也会执行,因此页面呈现与
抓取
的网站上的页面呈现完全相同。但都在我的
域名
下。有没有什么方法可以保护这个javascript的执行(使用不受控制的代码),这样被
抓取
的网站就不能获得我网站用户的cookie了?(或其他潜在的安全漏洞?) 谢谢。
浏览 1
提问于2013-05-24
得票数 1
3
回答
停止谷歌
抓取
我的网站
web-config
、
web-crawler
谷歌已经开始爬行我的网站,但从一个临时
域名
(beta.mydomain而不只是我的
域名
),我也只想让他爬行我的一些页面。因此,我想停止他们的
抓取
,只让他们
抓取
我在网站地图中指定的页面。我该怎么做呢?(我知道如何添加站点地图,但我如何停止他们当前的
抓取
,并请求他们只
抓取
站点地图) 更新:如果我删除了子域beta.mydomain,他们会“很好”还是会继续浏览
所有
被删除的页面并“不喜欢”他们?
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
3
回答
如何使Heritrix在找到且不在种子列表中域上继续爬网过程
web-crawler
如何使Heritrix继续
抓取
已找到且不在种子列表中的
域名
? 我的意思是让它不停止爬行在种子列表中的
所有
域名
。并为它在爬行过程中找到的每个链接继续爬行过程。
浏览 4
提问于2011-10-03
得票数 0
2
回答
如何通过输入
域名
递归
抓取
所有
站点链接?
php
如何在PHP中通过输入
域名
递归
抓取
所有
站点链接?请给我一些想法。
浏览 16
提问于2014-11-12
得票数 0
1
回答
为什么我的网站描述和标题没有显示在谷歌上?
wordpress
、
seo
、
web-hosting
、
yoast
当我在谷歌上搜索我的网站时,它会显示
域名
描述和标题。为什么我自己的标题描述和
域名
没有显示? 📷
浏览 0
提问于2021-01-26
得票数 0
1
回答
显示状态的“待定删除”
domains
我想买一个处于状态pendingDelete的
域名
。Registrar: NAMEKING.COM, INC.
浏览 0
提问于2011-12-15
得票数 2
回答已采纳
1
回答
Scrapy抛出属性错误
python
、
web-scraping
、
scrapy
通过我在这里编写代码的方式,我从不同的站点获得了结果,但由于某种原因,这个站点抛出了错误。因为我是scrapy的新程序员,我没有能力自己解决这个问题。Xpath是正确的。我将我在终端中看到的内容与代码一起附加:import scrapy Title = scrapy.Field()olxsp.pyfrom scrapy.linkextractors i
浏览 1
提问于2017-04-15
得票数 1
2
回答
如何从Common Crawl中获取网页文本?
python
、
web-scraping
、
common-crawl
使用普通
抓取
,有没有一种方法可以从特定
域名
(例如wisc.edu)的
所有
页面下载原始文本?我只对用于NLP目的的文本感兴趣,例如主题建模。
浏览 12
提问于2020-12-01
得票数 0
1
回答
Apache Nutch未
抓取
in-links中的
所有
网站
web-crawler
、
nutch
、
nutch2
现在的问题是,在使用5000个
域名
作为起始种子之后,nutch只获取了很少的
域名
,而且还有许多新的
域名
,其中只获取了一个文档。我希望nutch应该fairley获取
所有
的域。我有后处理爬行数据,并发现在数据库(hbase)中总共有14000个
域名
,其中超过50%的
域名
没有被Nutch
抓取
(他们的文档有
抓取
状态代码0x01 )。为什么会这样。如何改变nutch来考虑新的
域名
,也就是说,它应该以某种方式对
所有
的
域
浏览 4
提问于2018-05-08
得票数 0
1
回答
停止Scrapy请求管道几分钟,然后重试
web-scraping
、
scrapy
、
crawlera
我正在
抓取
单个
域名
使用Scrapy和Crawlera代理,有时由于Crawlera问题(技术中断),我得到407状态代码,无法
抓取
任何网站。是否可以停止请求管道10分钟,然后重新启动爬行器?需要明确的是,我不想推迟请求,而是停止
所有
事情(可能除了项目处理) 10分钟,直到他们解决问题。我正在运行10个并发线程。
浏览 6
提问于2019-02-16
得票数 0
1
回答
Google Docs Embed:谷歌对其进行
抓取
和索引
indexing
、
embed
、
google-docs
、
web-crawler
view=file.doc&embedded=true" width="xxx" height="xxx" style="border: none;"></iframe> 有没有办法让Google真正
抓取
和索引这些框中的内容
浏览 0
提问于2013-02-17
得票数 1
回答已采纳
1
回答
Apache solr设置域优先级
apache
、
solr
、
indexing
我
抓取
了Nutch3
域名
(domain01,domain02和domain03)。我想要获得
所有
包含特定关键字的帖子(例如:“冠军联赛”),然后在结果中首先显示来自domain02的帖子,接下来是来自domain01的帖子,最后是来自domain03的帖子。简单地说,我想按域对它们进行优先级排序 有没有办法设置
域名
的优先级?
浏览 0
提问于2013-02-02
得票数 3
1
回答
如何使用AJAX测试我在Google上的爬虫能力?
hash
、
web-crawler
然而,我尝试过测试我的网站的
所有
其他非谷歌蜘蛛都不能使用使用_escaped_fragment_的谷歌技术。我想要确保当谷歌蜘蛛访问site.com时,它会看到x,转到site.com?_escaped_fragment_=/页面并正确地
抓取
它。有没有办法确保它能
抓取
我网站上的
所有
链接并
抓取
它们?我测试过的测试爬虫站点只列出了包含
域名
完整路径的链接--但这是否意味着对于我网站上的
所有
链接,我必须将整个
域名
放在它们之前?这会毁了我的ajax。
浏览 0
提问于2011-07-30
得票数 1
回答已采纳
3
回答
RegEx :从URL中
抓取
子域(如果有)后的域
regex
这就是我的问题:干杯!
浏览 6
提问于2011-04-01
得票数 2
回答已采纳
2
回答
我如何从抓地者那里获得
域名
而不付费呢?
domains
、
domain-registrar
、
domain-grabbing
可能重复: 从域棚户区购买域 一个
域名
抓取
者注册了一个我想要的
域名
。他们在网站上做的只是展示广告。我如何在不支付他们勒索费的情况下获得
域名
?
浏览 0
提问于2011-02-01
得票数 4
回答已采纳
2
回答
如何使用Python查找(并
抓取
)给定域上的
所有
网页?
python
、
http
、
dns
我如何
抓取
一个
域名
来找到
所有
的网页和内容?
浏览 0
提问于2013-06-20
得票数 4
回答已采纳
1
回答
仅
抓取
域名
dns
、
scrapy
、
web-crawler
如何使用Scrapy实现只
抓取
域名
? 我对任何domain.tld的深度搜索不感兴趣。我的想法是从每个域的索引页面只使用1跳的深度-所以直接从主页链接将足够作为链接缓冲区。
浏览 11
提问于2019-03-14
得票数 0
1
回答
抓取
过期
域名
python
、
web-scraping
、
scrapy
、
scrapy-spider
我使用Scrapy
抓取
不同的网站,但实际上我的脚本跟踪每个网站,并添加到数据库的
域名
和后,我用PHP脚本检查过期的
域名
。 我希望有人能够帮助我改进我的脚本,因为实际的脚本没有为我的需要进行优化!在将
域名
添加到数据库之前,如何直接检查
域名
是否过期?
浏览 0
提问于2016-03-07
得票数 3
2
回答
python中的Web
抓取
返回[]
python
、
html
、
web-scraping
、
beautifulsoup
、
lxml
我是python web
抓取
的新手。 我想做一个程序,从GoDaddy
域名
注册商
抓取
域名
和它们的值。但是,当尝试获取
域名
时,返回值为[]。</span></span>
所有
必需的包都已安装:bs4、
浏览 34
提问于2020-09-12
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
所有的老域名价值都高?这些老域名要避让!
《网络奇兵3》域名易主 腾讯获得所有权
用python爬虫框架scrapy抓取王者荣耀官网所有英雄信息
智慧厕所有哪些连接设备?包含哪些系统?
数据:2022年ENS域名注册量超220万个,占所有域名注册量的80%
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券