腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
计算页面的视图数的最佳
方法
、
实现站点上每页查看计数器的最佳
方法
是什么(就像Stackoverflow有问题页一样)?选项: AnalyticsCount 以编程方式从Google 中
获取
唯一的页面浏览次数(尽管这种
方法
对
爬虫
和机器人进行计数),计数该页面的服务时间,并试图通过
JS
过滤出
爬虫
用户代理Ping服务器(然后过滤出来自同一个
浏览 3
提问于2010-12-23
得票数 0
回答已采纳
1
回答
服务端渲染如何帮助
爬虫
?服务器端渲染和客户端渲染哪个更好?
、
、
、
我正在阅读angular的服务器端渲染文档,因为它们提到服务器端渲染是帮助
爬虫
。我知道在服务器端渲染
爬虫
可以获得整个dom,但
爬虫
也可以与组件交互,那么它如何帮助
爬虫
呢?
浏览 18
提问于2019-09-15
得票数 0
3
回答
如何防止昂贵的API被
爬虫
和
爬虫
吃掉?
我注意到,来自蜘蛛和
爬虫
的访问产生了对该API的数千次调用,而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分,即只有实际的访问者才能看到它,并且在抓取网页时不会生成API调用?
浏览 1
提问于2016-10-23
得票数 2
1
回答
用节点
爬虫
或简单
爬虫
进行NodeJS网络爬行
、
我是网络
爬虫
的新手,我需要一些关于这两个节点
JS
爬虫
的提示。是否还有其他NodeJS
爬虫
或蜘蛛可以只请求和记录URL?
浏览 0
提问于2018-05-07
得票数 2
回答已采纳
1
回答
如何从同一网站的多个网页中发现公共信息块?
、
这是网络
爬虫
中的一个模式识别任务。传统的
爬虫
获取
整个页面的数据。如果有任何
方法
可以让
爬虫
变得有点智能,就像只是识别和捕获信息部分。
浏览 0
提问于2015-05-29
得票数 0
1
回答
向机器人隐藏代码
、
、
、
、
有没有一种
方法
只对
爬虫
隐藏页面的特定部分?那么,有没有办法对机器人隐藏某些部件,但在未来不会对用户隐瞒?不是整页,只是部分。但没有理由不让智能
js
阅读
爬虫
来隐藏它。麦芽酒
浏览 6
提问于2014-10-16
得票数 0
回答已采纳
4
回答
如何用python
获取
get浏览器的源代码
、
、
我正在用scrapy写一个
爬虫
,但是,我遇到了一些用
js
渲染的网站,因此urllib2.open_url不能工作。我发现我可以用webbrowser.open_new(网址)打开浏览器,但是我不知道如何用webbrowser
获取
页面的源码。有没有什么
方法
可以用webbrowser来做这件事,或者有没有其他没有webbrowser的解决方案来处理
js
站点?
浏览 1
提问于2013-01-11
得票数 2
4
回答
如何通过
爬虫
php
获取
悬停数据(Ajax)
、
、
、
有没有可能用任何
爬虫
。 我使用PHP和来解析/抓取页面。
浏览 3
提问于2012-03-30
得票数 3
回答已采纳
1
回答
这是一个搜索引擎优化错误,没有加载谷歌-搞笑
js
的
爬虫
?
、
不会为
爬虫
加载google-analitics
js
会导致问题吗?这对SEO不好吗?
浏览 0
提问于2017-09-19
得票数 1
2
回答
元标记不应该使用
JS
动态更改吗?
、
、
如果我想要更改数据,我可以使用
JS
来完成,而无需重新加载页面。百事大吉。 但是,现在,我了解到元标签不能使用
js
更改,应该让它重新加载/刷新page...is,这是正确的吗?
浏览 14
提问于2019-08-18
得票数 2
1
回答
EJB未注入
、
、
、
我的Java应用程序使用,它使用以下代码开始抓取:config.setCrawlStorageFolder("C:/crawler4j_storage");RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtC
浏览 3
提问于2012-07-01
得票数 0
回答已采纳
2
回答
针对Crawler和Bots的HTML 5存储
、
、
、
我目前正在编写视图/访问者计数器的代码,该计数器检查访问者是人还是机器人/
爬虫
。我已经找到了一些解决办法,我用过。
浏览 3
提问于2018-01-10
得票数 0
回答已采纳
1
回答
React / Express -服务器端呈现如何使用我的动态页面工作
、
、
、
、
我的问题是: SSR将如何与搜索引擎
爬虫
工作,以了解我的文章存在?所以,如果我要搜索“我的网站条款”或“我的网站条款栏”,它如何知道这些不同的文章存在?
浏览 2
提问于2017-03-01
得票数 2
回答已采纳
1
回答
如何从crawler
获取
数据到我的站点?
、
、
从外部
爬虫
获取
数据到我的数据库的最好
方法
是什么,到我的网站我在LAMP环境中工作,web服务是个好主意吗?
爬虫
每15分钟运行一次。
浏览 2
提问于2009-06-15
得票数 0
回答已采纳
1
回答
如何使用AWS glue将模式或处理过的嵌套json文件压缩(Gzip)存储在s3中?
、
、
、
如何使用AWS glue将模式或处理过的嵌套json文件压缩(Gzip)存储在s3中?有没有办法不写zeepline代码?
浏览 0
提问于2020-04-16
得票数 0
4
回答
自动网络
爬虫
、
我正在编写一个
爬虫
,需要从许多网站
获取
数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的
爬虫
?如果网站的结构发生变化,我是否需要重写
爬虫
,或者是否有其他
方法
?谢谢!
浏览 0
提问于2012-07-20
得票数 1
1
回答
角2推特播放器卡
、
、
我正在尝试实现twitter卡的角2项目。和示例代码此源与我通过meta标记name=发送的“twitter:player:stream”不兼容。 <meta content='text/html; charset=UTF-8' http-equiv='Content-Type' /> <meta name="twitter:card" content=
浏览 2
提问于2017-01-24
得票数 0
回答已采纳
1
回答
爬行url \如何在node.
js
中
获取
动态链接
、
我正在使用
js
爬虫
来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态生成的urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我的node.
js
爬虫
之外,我还应该编写自己的代码吗?是否有先进的
爬虫
知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
1
回答
产品信息分析及产品评论
、
、
我正在创建一个
爬虫
来
获取
产品信息和产品评论,并从一个特定的类别导出到csv文件。例如,我需要从裤子类别中
获取
所有信息,所以我的爬行从那里开始。] for item
浏览 0
提问于2020-03-11
得票数 1
回答已采纳
2
回答
如何将新的URL传递给Scrapy Crawler
、
、
、
、
我想让一个抓取
爬虫
在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用
爬虫
程序来查询返回XML响应的外部API。一旦
爬虫
程序开始运行,我如何将我想要
获取
的这个新URL传递给
爬虫
程序。我不想在每次想要给
爬虫
一个新的URL时都重新启动
爬虫
,而是希望
爬虫
无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个
方法
使用一个新进程来运行
爬虫
程序。我不希望每次我想要抓取一个URL时,
浏览 0
提问于2013-05-23
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
js获取节点方法的封装
js 获取url大全
Scrapy爬虫获取公开数据
爬虫获取所有课程信息
Python爬虫环境搭建,爬虫获取所有课程信息
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券