腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(219)
视频
沙龙
1
回答
从
PHP
/HTML或
PHP
服务器调用scrapy脚本
、
、
、
、
我有一个刮擦的脚本,它将运行多个
蜘蛛
。我想从
PHP
/HTML代码中
爬行
单个
蜘蛛
或运行多个
蜘蛛
脚本。这有可能吗?如果是这样的话,是怎么做的?
浏览 2
提问于2015-11-22
得票数 0
回答已采纳
1
回答
如何防止Scrapy
爬行
“拒绝”页面
、
、
我正在尝试
爬行
一个域的所有页面,除了那些从/go.
php
开始的页面,但是我不知道如何让Scrapy理解它。我尝试过这个规则(这是我的CrawlSpider中定义的唯一规则),但是它仍然
爬行
像domain.tld/go.
php
?key=value这样的URL。.*' '\\/go\\.
php
(.*)', '
浏览 3
提问于2014-01-11
得票数 0
1
回答
htaccess选项-Indexes会防止
蜘蛛
和搜索引擎在目录中
爬行
文件吗?
、
设置带有-Indexes选项的htaccess文件会防止
蜘蛛
和搜索引擎
爬行
这些目录中的文件吗? 仅仅在目录中有一个index.html或index.
php
会阻止目录被
爬行
吗?
浏览 3
提问于2018-02-11
得票数 0
回答已采纳
3
回答
普通浏览器中的用户代理是否包含“bot”或“
爬行
”?
普通浏览器中的用户代理是否包含“bot”或“
爬行
”? 我检查我的网站上的用户代理,看看它是否来自一个机器人。如果是的话,我可以做一些小的优化,因为他们没有登录。所以我想知道它是只包含“机器人”还是“
爬行
”。我知道这不会得到所有的机器人,但它会得到很多。但如果这可能导致任何错误,那么它将完全混乱的能力,添加到购物车,下订单,并登录。
浏览 0
提问于2010-10-11
得票数 12
回答已采纳
3
回答
复制还是?
、
、
、
、
最近,我们受到谷歌机器人和其他各种机器人的打击(我们平均体验到的网站流量的60%来自于机器人。)我们正在尝试将Google流量分割到另一个服务器(低成本服务器)。但是,需要复制/或镜像数据库。如果我们想接近实时,是否有一种解决方案比另一种更好?我们目前在SAN上有生产服务器的数据。我们可以复制这一点,但这更像是快照复制。
浏览 0
提问于2011-06-08
得票数 2
1
回答
如何生成由我的站点服务的所有有效URL的列表
、
是否有方法生成站点将解析的所有有效URL的列表,包括重定向?这份名单是由另一个系的一所学院出于记录原因而要求的。模块方面,除其他外,安装了xmlsitemap、重定向、路径重定向导入、路径自动和病理学。我不确定这些是否有用。 作为第二个问题,如果没有一种方法可以自动生成格式良好的列表中的所有urls,那么除了手动收集所有视图URLs和重定向URLs之外,我还应该在哪里查找呢?
浏览 0
提问于2014-03-14
得票数 2
回答已采纳
1
回答
DNN搜索:索引、索引和过滤器
、
我很难弄清楚搜索函数是如何为DNN工作的。首先,我只有站点的管理凭据(我知道这已经限制了我对搜索的能力)。谢谢,任何线索都将不胜感激!
浏览 3
提问于2012-08-22
得票数 0
回答已采纳
1
回答
php
通过自定义命令调用scrapy
、
、
、
我必须同时运行我的五个不同的scrapy
爬行
器,所以我在scrapy中定义了一个自定义命令,比如 scrapy crawlall 给这些
蜘蛛
取名。当我在独立的命令行中运行时,它成功地工作了。但是,当我使用
php
shell_exec调用相同的命令时,它会失败,并且
php
文件中的代码如下所示 $cmd = 'scrapy crawlall'; $results = shell_exec($cmd那么我如何在
php
文件中调用这个命令或其他方式来同时运行这5个
爬行
器呢?谢谢
浏览 19
提问于2019-01-24
得票数 0
1
回答
scrapy xpath选择器问题
、
、
、
我设法使用调试
爬行
器找到了要隔离的属性,但我不确定是否正确地将其合并到我的
爬行
器中。当
爬行
器运行时,我没有得到明确的错误信息,所以我想我只是间接地输入了选择器。我正在
爬行
的网站是"“,我在调试
爬行
器中输入的路径命令是"response.xpath('//div@class="show_sec_button"/text()')",,它会拉出我正在寻找的确切响应。这是我的
蜘蛛
: import
浏览 2
提问于2015-12-07
得票数 0
1
回答
刮擦CLOSESPIDER_PAGECOUNT设置不能正常工作
、
、
对于命令: scrapy
爬行
domain_links --set=CLOSESPIDER_PAGECOUNT=1是正确的一个命令,但是对于两个页面计数: scrapy
爬行
domain_links -set这是我的
蜘蛛
密码: name = "domain_links" item['url'] = lin
浏览 4
提问于2015-12-30
得票数 1
回答已采纳
1
回答
为什么百度会疯狂地爬我的网站?
、
、
当我检查我的apache日志时,我可以看到百度在过去的2周里每天都在我的网站上
爬行
10次。 这并不是说我很在乎,但我真的很好奇他为什么这么做。这是一个非常小的单一网页网站,没有多少传入链接。
浏览 0
提问于2012-03-11
得票数 12
回答已采纳
3
回答
隐藏
php
包括从搜索
蜘蛛
?
、
、
我有80+ html文件,我想要被
爬行
。它们是单独的产品页面。这些页面中的每一个都使用
php
包含调用其内容。这些
php
包含文件位于服务器上的一个单独的文件夹中,并包含各个产品页的核心内容。我只想问一下,如果我使用robots.txt或.htaccess来防止抓取包含
php
内容文件的目录,那么在包含这些文件的html页面上
爬行
会不会有问题呢?我想要实现的是将html文件与其中包含的
php
内容进行索引,但我不希望访问者登陆
php
内容页面,也不希望这些
php
浏览 0
提问于2012-11-06
得票数 2
回答已采纳
1
回答
停止googlebot
爬行
谷歌街景
、
、
我网站上的许多页面都有谷歌街景(静态
版
)。因此,Googlebot运行并在我的Google API帐户上生成大量活动,花费了相当多的费用。我不想阻止谷歌
爬行
我的网站或发现我自己的图片,但我想以某种方式检测到一个机器人正在访问该网站,并以某种方式注释掉街景机器人。这一点:Disallow: /images/image.jpg 在这种情况下不会工作,因为谷歌仍然是
蜘蛛
,但只是不包括结果。
浏览 3
提问于2018-12-05
得票数 0
1
回答
重命名update.
php
文件会影响Drupal更新过程吗?
重命名update.
php
文件会影响Drupal更新过程吗?重命名此文件/路径的正确方法是什么?
浏览 0
提问于2017-10-25
得票数 -4
2
回答
Python :来自表单请求的400响应
、
、
、
我一直在努力刮网站 } def start(): runner = CrawlerRunner()控制台
浏览 0
提问于2018-09-02
得票数 5
1
回答
多层网络
蜘蛛
与正则表达式匹配?
、
、
我需要一个网络
蜘蛛
找到与正则表达式的某些链接。那么,你认为最好的解决方案是什么? 也许我可以配置一些现有的应用程序/代码来创建这个爬虫。
浏览 4
提问于2011-10-13
得票数 1
回答已采纳
3
回答
递归使用刮除phpBB论坛
、
、
、
、
我试着用刮伤来
爬行
一个基于phpbb的论坛。我的知识水平是相当基础的(但不断提高)。 start_urls = [ "http://portierramaryaire.com/foro/viewtopic.
php
item['body'] = sel.xpath('div/div[1]/div/text()
浏览 2
提问于2015-10-08
得票数 2
1
回答
阻止Wordpress将/index.html附加到任何东西
、
默认值):<IfModule mod_rewrite.c>RewriteBase /</IfModule> # END WordPress
浏览 2
提问于2011-01-16
得票数 0
3
回答
从html页面中删除mysql行的最好方法-删除链接和
php
、
、
我使用while语句和
PHP
返回表中的所有行。这些行表示一个项目列表。我想在每个项目旁边添加删除链接,这样用户就可以删除条目。我正在尝试如何在
PHP
中使用它。有人能帮我写剧本吗?我用的是过程化的..。
浏览 1
提问于2010-01-26
得票数 0
2
回答
如何使用Scrapy一次运行多个版本的单个
蜘蛛
?
、
type_of_meeting)
蜘蛛
在
爬行
spiderpmh
浏览 1
提问于2018-10-24
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何书写网站robots文件,让蜘蛛有自知之明?
网站优化之哪些设置会影响蜘蛛的爬取?
SEO优化必备技能——网站日志分析
静态URL和动态URL
css、js加密或不封装会影响网站排名?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券