爬虫 js 结果_爬虫结果保存到mysql_webdriver js 爬虫 - 腾讯云开发者社区

javascript、php、html、local-storage

我目前正在编写视图/访问者计数器的代码，该计数器检查访问者是人还是机器人/爬虫。我已经找到了一些解决办法，我用过。

浏览 3提问于2018-01-10得票数 0

回答已采纳

1回答

使用IIS重写规则重定向到仅供爬虫使用的静态内容的SEO后果

seo、web-crawlers、javascript、angular.js

要解决这个问题，我的想法是使用IIS重写规则来重定向到静态生成的内容(使用Nuxt)，如果您的用户代理是已知的爬虫。

浏览 0提问于2019-04-18得票数 0

回答已采纳

1回答

google crawl ajax

ajax、web-crawler

我有一个结果页面，结果是用ajax加载的，这意味着分页按钮正在调用JS。链接到结果页是美丽的‘/结果/销售/06589’，我会引导谷歌到这个页面，但有没有办法让爬虫机器人点击分页按钮。

浏览 0提问于2011-06-04得票数 1

1回答

爬行url \如何在node.js中获取动态链接

node.js、web-crawler

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

1回答

无法在Lambda中创建AWS胶水爬行器，Lambda由Step函数触发

node.js、aws-lambda、aws-glue、amazon-athena、aws-step-functions

该查询成功运行，并在给定的S桶中生成结果要在Lambda中创建AWS爬虫，下面是我在Lambda (NodeJS)中的代码： };}; Problem creat

浏览 2提问于2021-08-14得票数 1

3回答

如何防止昂贵的API被爬虫和爬虫吃掉？

php

我注意到，来自蜘蛛和爬虫的访问产生了对该API的数千次调用，而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分，即只有实际的访问者才能看到它，并且在抓取网页时不会生成API调用？

浏览 1提问于2016-10-23得票数 2

2回答

建立一个自定义的网页爬虫的最佳方法，以便在URL中找到带有任意文本的站点？

algorithm、web-crawler

但是，没有使用任何搜索引擎，这意味着，编写一个纯网络爬虫。--很明显，它永远不会停下来运行.它甚至在碰到我想要的东西之前会遇到很多“垃圾”站点。我不想使用搜索引擎，因为它们限制了结果的数量。

浏览 8提问于2010-09-26得票数 0

回答已采纳

1回答

使用PHP脚本获取javascript隐藏的元素

javascript、php、web-crawler

我在找的电子邮件地址我编写了一个PHP爬虫来获取但是，我需要将“电子邮件通用公司电子邮件”与我的鼠标悬停，以显示电子邮件地址。我想通过我的爬虫自动完成它。我们可以在代码中看到js函数。

浏览 4提问于2015-11-10得票数 1

回答已采纳

1回答

爬虫体系结构:避免将请求计算在Google中

google-analytics、web-crawler、google-tag-manager

当然，他们可以尝试过滤它，但是我想知道为什么会首先跟踪它，因为我们在bot中没有启用JS，而且他们已经标出了“从已知的机器人和蜘蛛中排除流量”。

浏览 0提问于2015-06-11得票数 0

回答已采纳

1回答

向机器人隐藏代码

javascript、html、css、seo、web-crawler

有没有一种方法只对爬虫隐藏页面的特定部分？那么，有没有办法对机器人隐藏某些部件，但在未来不会对用户隐瞒？不是整页，只是部分。但没有理由不让智能js阅读爬虫来隐藏它。麦芽酒

浏览 6提问于2014-10-16得票数 0

回答已采纳

1回答

服务端渲染如何帮助爬虫？服务器端渲染和客户端渲染哪个更好？

angular、reactjs、web-crawler、google-crawlers

我正在阅读angular的服务器端渲染文档，因为它们提到服务器端渲染是帮助爬虫。我知道在服务器端渲染爬虫可以获得整个dom，但爬虫也可以与组件交互，那么它如何帮助爬虫呢？

浏览 18提问于2019-09-15得票数 0

2回答

Laravel Vue.js应用程序的SEO

laravel、vue.js、laravel-5.5

我的Laravel5.6应用程序有一个Vue.js前端。Vue.js应用程序位于资源目录中。我已经读过几篇使用Prerender SPA插件的文章。这些文章是为独立的vue.js应用程序编写的，并且有一个index.html文件。在Laravel的例子中，我们有index.php。我如何使我的Laravel Vue.js应用程序SEO自由。

浏览 1提问于2018-07-20得票数 3

1回答

如何在node.js中发出https请求

javascript、node.js、https

我要做个爬虫。对于http请求，我曾经这样做过。', function () { }); http.request(options, callback).end(); throw er; // Unhandled 'error' eventError: getaddrinfo ENOTFO

浏览 2提问于2015-01-18得票数 1

回答已采纳

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

performance、seo

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫不能使用(当然是内

浏览 2提问于2013-03-18得票数 3

1回答

爬虫返回空结果

python、python-2.7、scrapy

我已经为构建了爬虫(在堆栈溢出的帮助下)，但是结果是空白的。虽然单页爬行器工作并刮掉所有必需的项目，但下一页的爬虫不起作用，我不明白这里的问题会是什么。

浏览 6提问于2014-05-16得票数 1

回答已采纳

3回答

为什么搜索引擎爬虫不运行javascript？

javascript、ajax、search-engine、google-crawlers

我想知道为什么爬虫不运行javascript来获得呈现的页面和索引。这背后有什么原因？或者这是搜索引擎未来可能会出现的一个缺失的特性？

浏览 4提问于2013-10-10得票数 17

回答已采纳

1回答

AWS Glue -在处理XML文件时保留前导零

xml、amazon-web-services、schema、aws-glue-data-catalog

我将XML文件存储在s3桶中，并运行爬虫来生成目录表中的模式。生成了目录表，但是当我在AWS Glue Studio中检查输出时，我可以看到以0开头的数据正在被删除。

浏览 4提问于2022-01-15得票数 2

1回答

Symfony DomCrawler如何单击执行js代码的链接

javascript、laravel、symfony、web-scraping、web-crawler

如何使用爬虫来点击执行js代码的链接，这个链接没有HREF属性。爬虫可以通过客户端在页面上执行js代码吗？

浏览 82提问于2021-02-03得票数 0

1回答

这是一个搜索引擎优化错误，没有加载谷歌-搞笑js的爬虫？

seo、google-analytics

不会为爬虫加载google-analitics js会导致问题吗？这对SEO不好吗？

浏览 0提问于2017-09-19得票数 1

1回答

使Angular网站的AMP版本可爬行

javascript、html、angularjs、angular、amp-html

问题是爬虫找不到规范的站点，因为它是通过Angular动态加载的。有没有可能绕过这个限制，比如在Angular项目的索引站点中放置对所有对象的引用？更清楚地说：object的详细视图: mysite.com/#/ detail /object1 如果我根据当前显示的对象动态添加对amp页面的引用，爬虫将找不到amp

浏览 1提问于2017-09-18得票数 0

点击加载更多