js 爬虫模拟登陆_java爬虫模拟登陆_js 模拟登陆 - 腾讯云开发者社区

php、facebook、facebook-opengraph

我在一个网站上做了4个登陆页面，和一个php脚本随机化了不同的登陆页面。但我的问题是修复facebook的开放图形。他返回:无法跟随重定向路径-使用来自的数据，因为在重定向路径之后有一个错误。

浏览 4提问于2015-06-03得票数 3

回答已采纳

1回答

雅虎AdCrawler重击我们的网站

web-crawler

雅虎AdCrawler正在反复尝试一些URL。URL被赋予了302响应代码，所以我认为Yahoo应该回来“稍后”再试一次，但是在我的书中“稍后”并不意味着每天应该点击3,000次特定的URL。/find/product-abc123?ppcid=yahoo_PPC_Product我们现在已经禁止了AdCrawler在Robots.txt。Disallow: / 如果你有任何想法，类似的经历，或想法，我会很感激的。谢谢。

浏览 0提问于2010-09-21得票数 1

回答已采纳

2回答

搜索引擎robot.txt

web、meta-tags

我想添加一个robot.txt，这样我的网页就能被找到.

浏览 5提问于2011-06-15得票数 0

回答已采纳

1回答

在注册域名前发布Azure测试站点的利弊

azure、azure-web-app-service、publishing、web-publishing

我一直在将我的网站发布到Azure上，并且我一直在限制IP地址，这样只有我列表中的人才能访问url ex。mysite.azuretestsite.com。但现在我想向人们展示，但我不想要求每个人都提供他们的IP地址，仅仅是为了给他们查看它的许可。即使我还没有注册域名，我也应该担心网站的存活吗？这有什么好处和坏处，如果没有人知道网站的url，这真的很重要吗？我更担心的是机器人等

浏览 1提问于2018-02-22得票数 0

1回答

Google爬虫索引主页，但不包括它的内部链接

seo、google-search-console

为什么没有索引内部链接，如果主页似乎成功地被爬虫渲染和索引？网址是https://www.canadastepbystep.com，如果这有帮助的话。更新:我已经修复了之前的一个问题(见下面我自己的答案)，现在所有的链接都是登陆页面。但是仍然存在同样的问题--昨天主页又被索引了，同样的事情--它没有索引任何链接。

浏览 0提问于2020-03-29得票数 2

1回答

在Python中执行网页上的Javascript方法

javascript、python、web-scraping

我正在为一个特定的网页写一个网页抓取器，我正在用"urllib2.Request( MyURL )“和"BeautifulSoup”来做这件事，但问题是在myURL中有一个页面分页，下一个页面通过点击一个链接加载(在相同的myURL/页面中)，这个链接后面是javascript方法，写成现在，如果不从Python执行这个Javascript函数，我就无法获得完整的页面清单。如何从Python中调用此Javascrip

浏览 2提问于2012-11-19得票数 8

回答已采纳

2回答

使用node.js创建启用javascript的web爬虫

node.js、express

这不一定是一个爬虫，但我想它更容易理解说明的方式。我想在node.js中执行同样的任务。as的res.render似乎不接受html-string作为输入。如何用节点模拟浏览器的javascript呈现能力？假设node.js get与浏览器获得的地址相同的html？您可以想到一个web<

浏览 2提问于2015-02-01得票数 2

1回答

wcf web api和wcf jquery支持中的安全处理

jquery、.net、wcf、rest

如果客户端通过jquery请求wcf服务，wcf如何检测是否真的是我的客户端代码或爬虫应用程序/我修改后的js (使用参数组合请求)正在爬行我的数据库？Serdar Irmak

浏览 2提问于2011-07-26得票数 0

回答已采纳

1回答

防止爬虫(特别是谷歌)在我的域中爬行某个文件夹？

.htaccess、seo、robots.txt、googlebot

我正在寻找这样的建议和方法；我在我的领域里有一个文件夹，我正在测试一个特定的登陆页面；如果进展顺利，我可能会用这个登陆页面创建一个新的网站和域名，这也是我不希望它被抓取的主要原因，所以我不会因为重复内容而受到谷歌的惩罚我也不想要不想要的机器人刮这个登陆页，因为没有什么好的可以从它出来。这对你有意义吗？如果是的话，我怎样才能做到呢？我不认为robots.txt是最好的方法，因为我知道并不是所有的爬虫都尊重它，甚至谷歌也可能不完全尊重它。我不能输入密码，因为登陆页面应该向所有的人开放(所以解决方案不能给人类

浏览 4提问于2013-11-05得票数 1

回答已采纳

1回答

在引导应用程序之前，加载一个内容的指示符会影响我的SEO吗？

seo

我用角度建了一个登陆页。因为您可能知道，如果没有客户机/服务器端呈现，爬虫就无法获得任何数据，因为所有dom都是由Javascript操作的。因此，我预先记录了我的应用程序，这样爬虫就有可能获得我的应用程序的数据。我的登陆页面从入门动画开始。

浏览 0提问于2019-10-10得票数 2

回答已采纳

3回答

点击测试登录，报错？

官方文档、access、小程序·云开发

access denied for user root@localhost(using password :yes) [附加信息]

浏览 451提问于2018-09-05

3回答

开源爬行器

web-crawler

我偶然发现了一个开源的爬虫，它最近登陆了我的网站。我想知道，1.你如何获得一个网站列表来爬行? 2.你能在你的城市中找到一张网站列表吗?

浏览 0提问于2009-10-25得票数 -1

回答已采纳

1回答

针对firebase上托管的angular应用程序测试prerender.io中间件

angular、firebase、prerender

.'});export const myApp = functions.https.onRequest(app);这就是我尝试模拟爬虫调用的方法。我查看了一下prerender-node源代码，发现有一个shouldShowPrerenderedPage方法可以通过user-agent header检查爬虫是否完成了请求。，但得到一个错误 get

浏览 3提问于2018-11-06得票数 0

4回答

如何使用cloudflare ddos保护从页面获取html？

c#、html-agility-pack

重定向页面不可能在htmlagility中处理，因为它们不能用meta或js重定向，我想它们会检查你是否已经用cookie检查过了，我用c#模拟失败了。当我得到这个页面时，html代码来自登陆cloadflare页面。

浏览 2提问于2015-09-07得票数 14

2回答

为了布局目的，通过CSS插入隐藏的虚拟文本会伤害SEO吗？

seo、css、content、penalty、hidden-text

我有一个相当复杂的输入形式的网站，它可以有很多变化(它有不同的领域，取决于用户已经输入到现在)。当我制作CSS时，我注意到有一个div在它为空时不会呈现，并且由于结构复杂，打破它周围的所有其他div--但是它是空的是合法的。事实上，它不仅需要有内容，而且至少要有足够的内容来达到与相邻div一样高的水平，这样设计才能正确地对齐。现在我在某

浏览 0提问于2014-09-30得票数 0

3回答