腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在scrapy的start_requests()中返回项目
、
我正在
写
一个抓取许多urls作为输入的
爬虫
,并将它们分类为类别(作为项目返回)。这些URL通过我的
爬虫
提供给
爬虫
start_requests()方法。我怎么才能
绕过
这一步呢? 我曾考虑过在自定义中间件中捕获这些请求,这将使它们变成虚假的Response对象,然后我可以将它们转换为Item对象,但任何更简洁的解决方案都是受欢迎的。
浏览 105
提问于2016-02-10
得票数 5
回答已采纳
4
回答
AWS如何从S3抓取一个文件夹
、
、
我正在尝试运行一个S3数据目录
爬虫
,而我遇到的问题是Kinesis格式本身并不是有效的JSON,这让我感到困惑。相反,它是一堆JSON文档,它们之间有一个断行符。
爬虫
可以自动识别和解析JSON文件,但它不能解析这一点。我想
写
一个lambda函数来“修复”Firehose文件,因为它是在桶上创建的,但是对于两个应该整齐地结合在一起的部分来说,它听起来是一个廉价的解决方案。另一种选择是完全
绕过
数据目录,在Glue脚本本身中执行必要的转换,但我不知道如何开始。 我有遗漏什么吗?是否有一种更简单的方法来解析Firehouse输出文
浏览 0
提问于2018-09-24
得票数 5
回答已采纳
1
回答
如果只对注册帐户可见内容,如何抓取网站?
、
我正在阅读关于网络蜘蛛的攻击和防御策略。假设我在我的网站上有敏感的信息,这些信息应该受到第三方网络蜘蛛的保护。Me:我将敏感数据设置为只对注册用户帐户可见的。游客帐户看不见他们,因此不能爬行。用例2:攻击者:注册(或购买)多个帐户,使用多个帐户以分布式和自动的方式爬行,因此单个帐户看起来不那么可疑。在这两个用例中,攻击者的方法实用吗? 防止这两次攻击的重要秘诀是什么?
浏览 0
提问于2019-08-02
得票数 3
回答已采纳
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupal CMS。如果这
浏览 0
提问于2013-07-27
得票数 1
1
回答
年龄验证页面阻塞网站-需要允许谷歌呢?
、
、
、
我在.net上为一家酒精公司创建了一个网络应用程序。为了实现这一功能,我只需将所有通信量重定向到一个验证页面,在该页面中,他们可以设置一个新的会话,表示他们已经(在这次访问中)同意了这些条款。一旦设置了会话,站点就可以完全访问。
浏览 2
提问于2014-08-02
得票数 0
回答已采纳
1
回答
使用python的动态网页
爬虫
、
、
、
所以,经过4周的试验后,我来到这里,所有的问题都归结于我这个
爬虫
似乎无法阅读网页的内容,即使在所有的喧闹之后。 最初的问题是,所有的信息没有出现在一个页面上,所以使用按钮导航网站本身的内容.
爬虫
无法读取页面的原因似乎是robot.txt文件(单个页面的
爬虫
等待时间为3600页,文章大约有10页,这是可以忍受的,但如果它说100+会发生什么情况),我不知道如何
绕过
它或
绕过
它。
浏览 5
提问于2020-08-31
得票数 0
回答已采纳
1
回答
除了用户代理之外,还能检测到
爬虫
吗?
、
以下设想情况: 我发现一个用户在我的apache日志中有奇怪的行为,但我不想禁止他,除非我知道这是一个
爬虫
浏览 5
提问于2014-05-02
得票数 0
1
回答
如何保持网络
爬虫
运行?
、
、
我想用
JS
写
我自己的网络
爬虫
。我正在考虑使用node.
js
解决方案,如 目标是每10分钟进行一次“爬行”,所以我希望我的
爬虫
每10分钟从网站上获取数据。
浏览 3
提问于2015-05-23
得票数 5
回答已采纳
2
回答
使用现在缺少的样式部署next.
js
,styles.css 404响应
、
、
我正在为一个使用next的学校项目构建一个简单的站点,并且我成功地使用了现在使用的next.
js
应用程序,但是没有应用任何样式。一切都很好,在本地主机上工作(看起来)很好,但不在网上()。我查看了文档,没有发现任何东西,我想知道是否有人有使用now和next.
js
的经验。我的now.json文件:“版本”:2{ "src": "next.config.
js
", "use": "@now/next" }}` 链接到已部
浏览 1
提问于2018-11-15
得票数 3
回答已采纳
3
回答
当Knockout可观察到的未定义的或
JS
禁用时显示默认值
、
、
使用Knockout.
js
,是否有一种方法可以让元素的原始内容显示可观察到的绑定是否未定义?ko.applyBindings(new ViewModel());我知道有一些使用visible、hidden或if的解决方案,但我发现这些方法太麻烦了;我不希望相同的元素
写
两次,每次
写
一次。沿着这条路走,如果
JS
被禁用,那么什么都不会出现。
爬虫
也是如此:他们只会看到一个空的<p>标记。 总之,我想说的是“如果存在此消息,请显示它,否则不要使用元素和它的文本
浏览 4
提问于2014-11-20
得票数 2
回答已采纳
3
回答
高效网络
爬虫
的语言建议
、
、
、
我正在寻找一种语言来编写一个高效的网络
爬虫
。我所看重的东西:我试过node.
js
。
浏览 6
提问于2010-12-03
得票数 2
4
回答
如何用python获取get浏览器的源代码
、
、
我正在用scrapy
写
一个
爬虫
,但是,我遇到了一些用
js
渲染的网站,因此urllib2.open_url不能工作。有没有什么方法可以用webbrowser来做这件事,或者有没有其他没有webbrowser的解决方案来处理
js
站点?
浏览 1
提问于2013-01-11
得票数 2
3
回答
如何使用AngularJS、Mustache、Handlebar等客户端模板引擎创建Facebook Open Graph友好元标签
、
、
、
、
根据我的测试,Facebook的
爬虫
不会像浏览器那样呈现客户端模板。 我希望不惜一切代价避免for服务器和为Open Graph对象构建HTML文件。
浏览 2
提问于2013-05-10
得票数 7
1
回答
如何在PHP中构建一个搜索引擎来搜索多个站点的实时内容?
、
、
、
我是一个相对新手的程序员,对PHP有很好的理解,但更多的是阅读,理解和复制我需要的部分,而不是从头开始开发。我已经查看了cURL,但似乎没有提供我正在寻找的东西,除非我遗漏了什么?
浏览 5
提问于2013-02-21
得票数 0
1
回答
crawler JMeter中出错
、
我在JMeter中有一个
爬虫
测试(
爬虫
)的问题,我在java中也有本机代码,它不能工作,因为我需要在POST中发送一个名为javax.faces.ViewState的参数 我只需要
绕过
这个参数,然后我将我的代码留在Java中,根据您的意见,
爬虫
(
爬虫
)会更可行。
浏览 2
提问于2017-04-06
得票数 0
1
回答
编写可与任何服务器保持登录状态的crawler
、
、
、
、
我正在
写
一个
爬虫
。一旦
爬虫
登录到一个网站,我想使
爬虫
“停留-始终登录”。我该怎么做呢?客户端(如浏览器、
爬虫
等)使服务器遵守此规则吗?当服务器在一天内允许有限的登录时,可能会出现这种情况。
浏览 0
提问于2009-11-26
得票数 0
回答已采纳
2
回答
在网站和独立应用程序中使用Django框架
、
我计划为它
写
一个网络
爬虫
和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络
爬虫
使用与网站相同的MySQL后端(而不是让网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
2
回答
使用AWS不带Glue数据目录的Glue数据连接
创建共享数据连接和存储登录/密码等非常方便,但我不想使用胶水目录或
爬虫
。是否有可能只使用数据连接来获取胶水作业的连接信息/凭据,然后使用spark方法,
绕过
glue目录和动态框架等等?
浏览 9
提问于2020-10-06
得票数 1
回答已采纳
1
回答
webkit crawler需要使用squid代理吗?
、
、
、
我正在用webkit
写
一个
爬虫
,webkit会缓存东西吗?我需要使用squid作为我的基于webkit的
爬虫
的代理吗?
浏览 0
提问于2012-04-20
得票数 1
回答已采纳
1
回答
爬行,爬行,获取数据
我想
写
一个
爬虫
来做一些基础设施(路由器,WAPS,系统等)的清单。所以,我在服务器上安装了一个应用程序,以及如何部署它。
爬虫
是怎么开始的?
爬虫
是如何返回数据的?
浏览 5
提问于2008-12-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何利用海外HTTP代理帮助爬虫绕过反爬虫机制?
讲讲Python爬虫绕过登录的小技巧
从零开始写python爬虫
这样写的 JS 代码看着就很舒服
听说用python写的 爬虫很强
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券