有没有办法使用机器人加载/访问完整的网页(所有子页面)？

文章/答案/技术大牛

发布

1回答

caching、web-crawler、bots

目前我有一个网页，它与清漆缓存工作。但是，要使此缓存工作，必须先访问页面，然后才能开始从缓存加载。我的问题是，我在这个网站上有数千个页面，我不能一个接一个地访问它们，因为这会花费很多时间。有没有网络爬虫或类似的东西来做这个任务？只是为了访问页面，因为访问页面会生成缓存文件，然后它的工作速度会更快。

浏览 14提问于2017-03-03得票数 0

2回答

记录页面浏览量的正确方法

php

使用PHP记录网页浏览量的正确方式是什么？我相信目前我们只是在每次页面被点击时记录一个视图，但我假设这包括来自机器人的点击，或者其他我们不想记录的东西。我们如何才能只将真正合法的视图记录到数据库中，而不包括不应计入实际页面视图的内容呢？谢谢!

浏览 0提问于2015-04-20得票数 1

1回答

从通过javascript填充的网页中获取内容

c#、javascript、asp.net、html-agility-pack

我正在尝试使用Html Agility Pack来解析一个网页，从我的尝试中我了解到这个网页是使用javascript“填充”的。当我使用以下命令加载页面时我得到一个空页。可以说，这个页面是一个子页面，我使用原始页面删除这些子页面</em

浏览 1提问于2014-08-10得票数 0

1回答

C# Webclient.DownloadString() -如何在下载前等待页面加载？

ajax、webclient

我正在使用Webclient.DownloadString()下载一些网页的完整超文本标记语言。问题是一些页面使用Ajax加载图像等，因此从页面看起来完成加载到实际加载所有内容(包括Ajax图像)需要3-4秒。那么有没有办法让Webclient.DownloadString()在检索超文本标记语言之前等待X秒呢？谢谢，路易莎

浏览 1提问于2014-05-09得票数 0

1回答

防止直接加载Ajax内容

html、ajax

我的网站使用AJAX加载一些标签。选项卡页的内容是PHP文件。 有没有办法阻止机器人直接提供这些TAB页面？我尝试在TAB页面中添加以下内容，但不确定这

浏览 3提问于2017-02-15得票数 0

4回答

如何使用javascript完全卸载swf (声音和所有)？

javascript、jquery、flash、actionscript-3

所以，我有一个网页，它使用javascript让用户选择不同的音频文件来收听(使用这个播放器：)，它在除了IE的任何版本之外的所有浏览器中都工作得很好。在音频开始播放后，我想不出一种编程方法来使音频在用户单击要收听的另一个项目后停止播放。我无法访问swf的源代码，所以我尝试使用javascript来完成此操作。我甚至替换了页面的整个正文-$(“body”).html(“空白”)-但

浏览 2提问于2010-09-30得票数 0

回答已采纳

1回答

当使用ember-cli运行"ember test --serve“时，你如何访问你的main ember应用程序？

ember.js、ember-cli

通常，当我使用"ember serve“运行我的ember应用程序时，我可以访问localhost:4200并查看我的网页。但是，当我想使用"ember test --serve“运行测试时，我只能访问localhost:7357上的测试页面。当我运行"ember test --serve“时，有没有办法访问我完整的

浏览 1提问于2015-01-13得票数 1

1回答

如何查找网页的所有未链接子站点？

web

有没有办法，找到一个站点的所有子站点？甚至是那些没有被这个网站引用的。例如:我有网站www.foofoo.de，这个网站有三个子站点--www.foofoo.de/ have，www.foofoo.de/dog，www.foofoo.de/老鼠。Site www.foofoo.de有指向/horse和/dog的链接，但没有指向/mouse的链接。不过，我仍然可以<em

浏览 0提问于2018-05-26得票数 1

1回答

Google搜索结果显示指向子页面的链接，而不是完整的url

seo

当我在我的网站上进行google搜索时，google列出了我的网页的所有搜索结果，并带有指向子页面的链接，而不是完整的url。(以绿色显示)。这样可以吗？有没有可能强制谷歌显示完整的网址，而不是几个链接到子页面。谢谢

浏览 1提问于2013-09-26得票数 0

1回答

有没有办法获取域名的站点地图？

ruby-on-rails、ruby、web-crawler、mechanize、sitemap

作为作业的一部分，我试图获得一个网页上的所有链接和子域。例如，"www.stanford.edu“返回"www.stanford.edu/admissions"、"www.stanford.edu/academics"、"cs.stanford.edu"等的散列我找到了使用Mechanize和Spidr gem的方法，如"“和"”所示。然而，<

浏览 1提问于2015-06-21得票数 1

1回答

js强制页面进入iframe -谷歌会抓取它吗？

javascript、search、iframe、google-search

我有一个脚本，重新加载一个博客页面，如果它不在我的网站上的iframe。这会不会干扰搜索引擎抓取博客？我的直觉告诉我，这个脚本不会阻止博客被抓取，但它会干扰搜索引擎生成的任何跟随它们的链接，因为这些链接会将带有js的用户转储到博客的“顶层”，而不是他们想要的页面。要解决这个问题，需要一些花哨的cookie工作。

浏览 0提问于2010-08-05得票数 0

1回答

在Watir中如何在访问网页前加载cookie

watir、watir-webdriver

因此，我知道可以使用以下命令从文件中加载Watir中的cookie：问题是，这只会为我当前所在的页面加载cookie。因此，如果我想加载网页的cookie，我必须在这样做之前访问它。有没有办法在访问页面之前加载cookie？

浏览 19提问于2017-03-05得票数 2

回答已采纳

5回答

防止机器人处理网站上的图像

php

我有一个用PHP技术创建的网站，我想阻止机器人从website.What中获取图像，这是防止机器人从网站上处理图像的最佳方法吗？请确保它不会伤害SEO。请确保这不影响间谍和爬虫索引网站.

浏览 8提问于2010-12-14得票数 0

回答已采纳

1回答

如何使用python selenium访问网页检查元素内容？

python、selenium、web-scraping、beautifulsoup

我要做的就是抓取网页'‘。在这种情况下，当标签估计(在下面的可比较和估计部分)被选中时，google地图下面的数据被动态加载。此数据在页面源代码中不可见，但同时在开发人员工具窗口(上下文菜单，检查元素)中可见。我使用的是Selenium和Python 2.7。有没有办法访问这些数据？或者有没有办法访问所有的元素？

浏览 0提问于2014-05-09得票数 0

1回答

Reddit机器人-绕过或点击“是”超过18检查？

c#、bots、reddit

我正在制作一个Reddit评论机器人，它将爬行子Reddit，因为它找到了页面中的链接。我的问题是，当我试图用18+年龄问题抓取NSFW时，尽管在我正常的浏览器上点击了“是”，Reddit每次C#机器人访问这些页面时都会返回一个18+年龄问题。有没有办法避免这种情况，或者通过编程点击“是”按钮？

浏览 2提问于2014-04-12得票数 1

2回答

防止整个网站下载？

iptables、yii

有一个IP (来自中国)正试图下载我的整个网站。它会下载我所有的页面，并显著地加载服务器(我有超过50万个页面)。查看访问日志，我可以断定它肯定不是Google机器人或任何其他搜索引擎机器人。我暂时禁止了它(使用iptables规则)，但这对我来说不是一个解决方案，因为我的一些真实用户也有相同的IP，所以他们也被禁止访问网站。 有没有办法防止这种

浏览 0提问于2010-08-30得票数 6

回答已采纳

1回答

我们可以访问一个DOM元素而不将它加载到无限滚动的网页中吗？

javascript、jquery、html、dom、infinite-scroll

我知道我想在一个无限滚动的巨大网页上访问的元素的类名。而且，我的目标是访问(获取链接地址)具有这个特定类名的所有这样的元素。我可以自动滚动，然后访问元素，但当页面变大时，几乎不可能进一步滚动(我只能滚动网页的1%！)。有没有办法让我不用加载就能访问所有这些元

浏览 3提问于2014-12-21得票数 0

1回答

网站上的子域和相关链接

php、apache、.htaccess、permalinks、subdomain

我正在处理一个网页的完整结构，我使用目录到网站的网址，用户可以理解网站地图，类别和子类别。例如。我的主页是www.mantarrayamx.com。我试图加载的页面是www.mantarrayamx.com/services/ seo，但是对于seo，我使用子域seo.mantarrayamx.com直接访问这个目录。我正在使用第三方代码，例如

浏览 1提问于2015-11-30得票数 0

回答已采纳

1回答

dotnet核心C# Selenium从chrome开发人员工具网络选项卡中获取详细信息？

selenium、.net-core、selenium-chromedriver、google-chrome-devtools、har

我正在使用dotnet核心C#和selenium加载页面并运行一些测试。我想获取详细信息，显示在chrome开发工具的网络选项卡中。加载的资源列表以及每个资源的大小和路径，并能够计算网页及其所有资源的总加载时间和传输大小。我知道我可以用javascript获取资源列表。var list = performance.getEntriesByType('resource'); 但这

浏览 81提问于2020-01-16得票数 1

1回答

机器人可以“点击”网页上的JavaScript链接吗？

javascript、security

我们有一个发送调查电子邮件的平台-电子邮件中的链接将用户带到一个询问一系列问题的网页。要回答问题，用户单击他们选择的答案-这使用JavaScript onclick来注册答案。我们知道一些安全软件(如Barracuda)会通过电子邮件中的链接来确定端点是否存在风险，但是有没有办法触发页面上的onclick操作呢？如果是这样的话，有没有办法区分机器人</

浏览 29提问于2019-04-04得票数 0

回答已采纳

点击加载更多