腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
爬行url \如何在node.
js
中获取动态链接
node.js
、
web-crawler
我正在使用
js
爬虫
来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态生成的urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我的node.
js
爬虫
之外,我还应该编写自己的代码吗?是否有先进的
爬虫
知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
1
回答
爬虫
体系结构:避免将请求计算在Google中
google-analytics
、
web-crawler
、
google-tag-manager
当然,他们可以尝试过滤它,但是我想知道为什么会首先跟踪它,因为我们在bot中没有启用
JS
,而且他们已经标出了“从已知的机器人和蜘蛛中排除流量”。
浏览 0
提问于2015-06-11
得票数 0
回答已采纳
1
回答
向机器人隐藏代码
javascript
、
html
、
css
、
seo
、
web-crawler
有没有一种方法只对
爬虫
隐藏页面的特定部分?那么,有没有办法对机器人隐藏某些部件,但在未来不会对用户隐瞒?不是整页,只是部分。但没有理由不让智能
js
阅读
爬虫
来隐藏它。麦芽酒
浏览 6
提问于2014-10-16
得票数 0
回答已采纳
1
回答
服务端渲染如何帮助
爬虫
?服务器端渲染和客户端渲染哪个更好?
angular
、
reactjs
、
web-crawler
、
google-crawlers
我正在阅读angular的服务器端渲染文档,因为它们提到服务器端渲染是帮助
爬虫
。我知道在服务器端渲染
爬虫
可以获得整个dom,但
爬虫
也可以与组件交互,那么它如何帮助
爬虫
呢?
浏览 18
提问于2019-09-15
得票数 0
1
回答
如何在node.
js
中发出https请求
javascript
、
node.js
、
https
我要做个
爬虫
。对于http请求,我曾经这样做过。', function () { }); http.request(options, callback).end(); throw er; // Unhandled 'error' eventError: getaddrinfo ENOTFO
浏览 2
提问于2015-01-18
得票数 1
回答已采纳
1
回答
在性能方面,为什么facebook不一次加载所有的
JS
文件?
performance
、
seo
登录后,我查看了facebook中的html代码,他们似乎对
JS
文件做了很多请求(根据firebug,多达20个)。所以,虽然我知道facebook需要加载许多
JS
和CSS文件(而不是一个
JS
和一个CSS文件),但我的问题是更通用的网站和网络
爬虫
的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络
爬虫
(googlebot和朋友)吗?我想提高性能,加载“稍后需要”的内容(text/
js
/css)似乎是个好主意,但如果
爬虫
不能使用(当然是内
浏览 2
提问于2013-03-18
得票数 3
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
python
、
user-interface
、
tkinter
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找
变量
的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
1
回答
Symfony DomCrawler如何单击执行
js
代码的链接
javascript
、
laravel
、
symfony
、
web-scraping
、
web-crawler
如何使用
爬虫
来点击执行
js
代码的链接,这个链接没有HREF属性。
爬虫
可以通过客户端在页面上执行
js
代码吗?
浏览 82
提问于2021-02-03
得票数 0
1
回答
这是一个搜索引擎优化错误,没有加载谷歌-搞笑
js
的
爬虫
?
seo
、
google-analytics
不会为
爬虫
加载google-analitics
js
会导致问题吗?这对SEO不好吗?
浏览 0
提问于2017-09-19
得票数 1
1
回答
如何在java程序运行时访问内存中的
变量
?
java
、
global-variables
、
memory-access
我在eclipse中运行一个java
爬虫
程序。我没有启用调试器。 在爬行完成后,我正在打印一些
变量
。但是爬行器需要很多时间来完成,所以我不知道这些
变量
何时会被打印出来。我想在
爬虫
运行时访问这些
变量
,我不想停止它,因为它已经运行了一段时间。如何访问这些
变量
?谢谢
浏览 3
提问于2013-02-03
得票数 0
回答已采纳
1
回答
使Angular网站的AMP版本可爬行
javascript
、
html
、
angularjs
、
angular
、
amp-html
问题是
爬虫
找不到规范的站点,因为它是通过Angular动态加载的。有没有可能绕过这个限制,比如在Angular项目的索引站点中放置对所有对象的引用?更清楚地说:object的详细视图: mysite.com/#/ detail /object1 如果我根据当前显示的对象动态添加对amp页面的引用,
爬虫
将找不到amp
浏览 1
提问于2017-09-18
得票数 0
1
回答
React / Express -服务器端呈现如何使用我的动态页面工作
javascript
、
node.js
、
reactjs
、
express
、
rss
我的问题是: SSR将如何与搜索引擎
爬虫
工作,以了解我的文章存在?所以,如果我要搜索“我的网站条款”或“我的网站条款栏”,它如何知道这些不同的文章存在?
浏览 2
提问于2017-03-01
得票数 2
回答已采纳
2
回答
如何打开需要node.
js
的web应用程序
node.js
、
installation
、
npm
、
bower
我必须运行微
爬虫
,这是一个
爬虫
网络应用程序,与node.
js
运行。我不知道如何打开这个应用程序,我下载了node.
js
,当我在node.
js
命令行中编写install npm和install bower时,什么也没有发生。我也不知道如何在安装后启动web应用程序。
浏览 2
提问于2014-09-28
得票数 1
1
回答
谷歌抓取/索引“计算的”或原始的html源代码吗?
php
、
wordpress
、
search
我有一个独特的情况,我有几个页面在多个页面中“分页”(通过WordPress的“下一页”功能)。相同的内容,分布在两个或更多页面上,如下所示:http://mysite.com/mypage/2因此,页面本身有一个html页面标题标记<title>My Page</title>,但由于它分布在多个页面上,我必须创建脚本来为每个页面添加唯一的html标题标记,以便让google对它们进行索引。$exploded = explode("/
浏览 4
提问于2013-06-22
得票数 2
1
回答
在nodejs/express中如何允许
爬虫
使用站点地图
javascript
、
node.js
、
express
在nodejs/express中,如何允许
爬虫
使用站点地图?app.
js
RouteHandler.
js
var routesIndex = require('./rou
浏览 2
提问于2015-09-06
得票数 1
回答已采纳
3
回答
如何管理
爬虫
URL边界?
java
、
multithreading
、
web-crawler
、
forkjoinpool
伙计们
爬虫
实现是多线程的,假设如果我访问了10万个urls,如果我没有终止这个
爬虫
,它就会一天比一天长。请注意,
浏览 10
提问于2015-11-18
得票数 0
回答已采纳
1
回答
HTTP:“差异:用户-代理”标题的单一页面反应应用程序,为机器人进行SSR?
web-crawlers
、
http
、
http-headers
、
user-agent
、
single-page-application
这是一个单一的页面应用程序,所以基本上有一个“空”HTML文件和一个
JS
包来完成这一切。我通过用户和机器人的User-Agent字符串来区分它们。所以这些都是可能的:ROBOT DESKTOP => GETS RENDERED
浏览 0
提问于2021-01-07
得票数 0
回答已采纳
1
回答
爬虫
不读取我的javascript附加的meta标签
javascript
、
html
、
jquery
、
meta-tags
爬虫
在我的头中没有通过脚本附加的meta标签:有没有合适的
JS
代码格式可以不阻止
爬虫
抓取我的脚本?
浏览 1
提问于2020-12-15
得票数 1
3
回答
如何防止昂贵的API被
爬虫
和
爬虫
吃掉?
php
我注意到,来自蜘蛛和
爬虫
的访问产生了对该API的数千次调用,而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分,即只有实际的访问者才能看到它,并且在抓取网页时不会生成API调用?
浏览 1
提问于2016-10-23
得票数 2
0
回答
Javascript Promise返回值
javascript
、
es6-promise
我正在尝试制作一个
爬虫
,由于数据没有显示在页面源代码中,我只能使用web驱动程序执行javascript并获得响应,然后进行数据分析。脚本被简化了,就像这样,使用Promise。= driver as IJavaScriptExecutor; driver.Close();我希望获得值,并且我知道then总是
浏览 1
提问于2016-12-16
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫之旅(2)——网页知识储备html、css及js
(新版完结无密)Python 分布式爬虫与 JS 逆向进阶实战
(新版)Python 分布式爬虫与 JS 逆向进阶实战-梦里有时终须有
MYSQL的用户变量和系统变量
bash变量-用户自定义变量
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券