html代码爬虫_爬虫代码_爬虫生成html - 腾讯云开发者社区

、、

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。最重要的是，爬虫会等到溪流结束吗？谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？ HTML可能会导致搜索引擎优化优化页面的快速TTFB。这可是件大事。

浏览 0提问于2021-07-27得票数 7

1回答

C#.net中两种超文本标记语言文件的比较

、

有谁能帮我解决这个问题吗？我实际上正在制作一个爬虫，它可以从网站上获取单词，并将整个页面存储为html文件，但现在我想比较新的爬虫与旧的爬虫，即旧的html文件与新的，找出它们之间的差异，有多少单词被删除或插入？因此，基本上我需要c#代码或示例，它们可以帮助我找出两个html文件是如何比较的？我已经用过XmlDiff了但它对我不起作用

浏览 1提问于2011-12-23得票数 0

回答已采纳

1回答

为什么我的Crawler会得到错误的HTML代码？

、

我想用java写一个爬虫来做一些学校练习。实际上，用jsoup库实现的爬虫代码可以工作，因为我的请求的结果是一些HTML代码，但是当我搜索一个明确写在网站上的单词时，没有找到它，因为一些div的来自于空的爬虫。然后我意识到，当您导航到网站并右键单击‘查看页面源’时，我得到了与相同的代码。当我将代码与进行比较时，右键单击“->”检查“”时，代码与“查看页面源”中的不同。我能做些什么来获得包含全部内容的HTML代码吗？请求网址：

浏览 0提问于2019-09-12得票数 1

回答已采纳

1回答

Web Crawler -找不到对象

、、、

我正在用asp.net开发一个网络爬虫。我的网络爬虫有一个主页，它从HREF标签打开其他HTML页面，下载HTML页面并获取数据。现在的问题是，有时我会得到一个对象引用找不到的异常，有时代码运行得很好。

浏览 1提问于2014-01-06得票数 0

1回答

可能的反爬行者

、

对于一个教育NLP项目，我需要一个所有意大利语单词的列表。我想我会写一个爬虫，从www.wordreference.com获取单词。我在机械化爬虫框架中使用Python。但当我使用代码时： br = mechanize.Browser() br.open("http://www.wordreference.com/iten/abaco") html = br.response().get_data() print html 我从"yahoo.com“那里得到了一些页面。这个网站有没有可能有防爬虫机制？

浏览 5提问于2011-04-07得票数 1

回答已采纳

1回答

perl中的Web Crawler问题

、、

我用Perl构建了一个网络爬虫。我在用 HTML::ContentExtractor LWP::UserAgent HTML::LinkExtor 从网页中提取文本。示例代码的参考链接发行：问题是，它不会从具有.aspx扩展名的网页中获取文本。它非常适合其他网页，我不知道为什么这个爬虫在aspx页面上会失败。

浏览 8提问于2014-04-25得票数 0

1回答

jQuery load()和SEO -指向导航的硬链接

、、

设想一个完全静态的网站，它使用jQuery .load()在每个页面上包含站点的主导航： page1.html，page2.html，page3.html，...page100.html，nav.html (站点导航html) 使用jQuery加载主导航可能对可管理性有好处(只需编辑一个包含的文件"nav.html"，减少重复代码)，但对搜索引擎优化不利(爬虫看不到page1.html，page2.html等的导航，因此无法抓取站点)。这是我的问题:如果在每个页面上都有一个指向"nav.html“的硬编码链接，这是否有助于爬虫找到网站导航并绕过搜索引擎优化问题？假设我

浏览 3提问于2012-11-23得票数 2

回答已采纳

1回答

用Html实现Django Hay堆栈搜索

、、、、

我只是想知道(因为我没有在Google上快速找到任何东西)是否可能(以及如何实现)直接在html文件中搜索，而忽略标记吗？解释得更深入一点。我们编写了一个爬虫，显然爬虫会返回页面的HTML。但是，如果我想搜索爬虫的内容，我需要两个单独的字段--一个带有html，另一个没有，或者我只需要一个带有html的字段，然后忽略html标记进行搜索。提前谢谢。

浏览 1提问于2014-05-28得票数 0

回答已采纳

2回答

仅搜索动态数据

、

我正在尝试抓取当地一家报纸的档案，并得到了想要的结果。有没有办法让我编程的爬虫，使静态按钮，如主页，按钮及其页脚是相同的，每个页面都不包括在爬虫中这是我用来显示爬网数据的代码 System.out.println(Jsoup.parse(html).body().text_mod());

浏览 3提问于2013-02-12得票数 2

回答已采纳

2回答

PhantomJS传递HTML字符串并返回页面源代码

、、、、

对于C#中的网络爬虫项目，我尝试执行Javascript和Ajax来检索爬行页面的完整页面源代码。我正在使用一个现有的网络爬虫(Abot)，需要一个有效的HttpWebResponse对象。因此，我不能简单地使用driver.Navigate().GoToUrl()方法来检索页面源代码。爬虫下载页面源代码，我想在源代码中执行现有的Javascript/Ajax。在一个示例项目中，我尝试了以下操作，但没有成功： WebClient wc = new WebClient(); string content = wc.DownloadString("ht

浏览 0提问于2014-04-03得票数 2

2回答

如何将.java和html结合起来？

、、、

我试图创建一个web应用程序，用户可以选择一个电影的名称(前)。(“空中坠落”)从下拉列表。然后，我想执行一个爬虫到rottentomatoes.com并获取与这部电影相关的所有html页面。我已经使用Tomcat在Eclipse中创建了我的web应用程序( GUI)。我有一个web爬虫: crawler4j，如果我选择将主.java文件作为应用程序运行，它就会运行。我怎么才能把这两者结合起来？是否可以使用html中的参数(电影名称)调用java类文件？为了在我的html中执行它，我必须用爬虫创建一个单独的Applet吗？我可以这样做并用它发送字符串( html中的电影名称，所以我

浏览 3提问于2012-12-10得票数 0

回答已采纳

2回答

PHP scraper脚本中的Useragent

我有一个PHP刮板脚本，我用它来刮我的网站上的一个页面。然后，该脚本将内容解析为HTML并将其输出给用户。我遇到过在PHP中使用useragent函数来假装你是一个爬虫，例如GoogleBot。我如何将我的两个脚本组合在一起，这样我抓取的页面就会认为我是一个爬虫？我的抓取器PHP代码是： $query=$_REQUEST['q']; $html = file_get_contents("search.php?q=$query"); preg_match_all( '/<div class="cl1 cld">.*?

浏览 0提问于2011-06-19得票数 3

回答已采纳

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

、

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫不能使用(当然是内容)，就不是一个好主意。谢谢!

浏览 2提问于2013-03-18得票数 3

1回答

使用web crawler获取任何url /资源的命中计数

、、

我用java做了一个网络爬虫。它递归地遍历每个页面中的链接。现在我想要得到一个特定页面的点击数。可以通过网络爬虫吗？因为我们不能访问服务器代码，所以我们不能添加任何计数器来计算命中率。请提出任何解决方案。谢谢。代码的基本结构是： ->获取url的html源代码。->从html代码中找到可访问的链接，并将其放入列表中。->获取列表中的下一个链接，并继续执行此操作，直到列表变为空。我只想显示每个链接的点击率。

浏览 2提问于2015-11-18得票数 0

2回答

如何在使用python 2.7抓取URL时忽略HTTP错误

、、、、

我正在搜索几个URL，以便在它们的源代码中找到特定的关键字。然而，当爬行一半的网站时，我的爬虫突然停止，因为HTTP错误，如404或503。我的爬虫： import urllib2 keyword = ['viewport'] with open('listofURLs.csv') as f: for line in f: strdomain = line.strip() if strdomain: req = urllib2.Request(strdomain.strip())

浏览 24提问于2017-02-21得票数 0

回答已采纳

1回答

抓取流行论坛/公告牌软件的工具

、、、

我已经开始编写一个爬虫来抓取电子公告板了。然而，我不是一个web程序员(我可以使用json api，但这不是真正的web爬行)，因此我不知道爬行的最好方法是什么，也不知道有什么工具可用。我更有能力编写爬虫，但我发现底层的HTML非常不规则，所以我不想成为新版本vbulletin中HTML结构变化的牺牲品。我正在用pycurl和漂亮的汤写一个界面。然而，有没有更好的方法来做到这一点，有没有好的爬虫已经可以在vbulletin上使用了？(语言不是问题)。一个元论坛爬虫(适用于多个论坛类型)会更好。如果你不能建议一个，你能建议我，如果你有经验，从我对底层HTML稳定性的期望，我是否应该担心vb

浏览 0提问于2012-05-02得票数 0

回答已采纳

1回答

什么是"Parse error: example2.php中的语法错误，意外Parse= '>‘“

、

我不太擅长php，但我试图学习爬虫的功能。我试着把我学到的关于爬虫的东西应用到这个网站中在我继续使用example2之前，一切都很好。我犯了这个错误解析错误:第7行上example2.php中的语法错误，意外Parse> '>‘ 从这个代码 <?php include_once('simple_html_dom.php'); $target_url = “localhost/wordpress”; $html = new simple_html_dom(); $html->load_file($target_url); foreach($ht

浏览 0提问于2013-05-03得票数 0

0回答

如何在Azure函数中保存HTML中的PDF

、、、

我正在开发一个应用程序，这将有一些网站的网络爬虫。应用程序将通过URL触发Azure函数，爬虫将从该URL开始工作。到目前为止，一切顺利，但是，我们必须保存一些爬虫通过该站点的证据。我们正在考虑用爬虫经过的屏幕保存一个PDF文件，但是，由于Azure函数没有GDI+，它不能与Selenium或PhantomJS一起工作。一种不同的方法是下载HTML内容并以某种方式将此HTML字符串(带有所有JS和CSS依赖项)保存到PDF文件中。我想要一些库，它可以与Azure函数一起工作，以制作一些URL (或HTML字符串)的屏幕截图，并保存为PDF。谢谢。

浏览 7提问于2018-07-16得票数 0

回答已采纳

1回答

HTTP：“差异:用户-代理”标题的单一页面反应应用程序，为机器人进行SSR？

、、、、

我有反应网络应用程序。这是一个单一的页面应用程序，所以基本上有一个“空”HTML文件和一个JS包来完成这一切。但为了提高SEO的能力，我正在为我的服务器上的机器人爬虫做SSR。我还区分了“桌面”爬虫和“移动”爬虫，并为每个爬虫提供了不同的布局。我通过用户和机器人的User-Agent字符串来区分它们。所以这些都是可能的： REGULAR USER => GETS "EMPTY" HTML + JS BUNDLE ROBOT DESKTOP => GETS RENDERED HTML WITH DESKTOP LAYOUT ROBOT MOBILE =>

浏览 0提问于2021-01-07得票数 0

回答已采纳

2回答

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

、、

我用python编写了一个爬虫，它可以访问60多个网站，解析HTML，并将数据保存到数据库。现在，我正在使用cron作业，每15分钟运行一次爬虫。问题是，我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟)，如果已经在运行，我不想再运行另一个爬虫。我一直在想，我是否最好使用一个无限循环，并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢？以及如何在每次退出时重新启动？)。哪一个更有效率？无限循环还是cron作业？

浏览 7提问于2021-05-14得票数 0

1回答

Facebook Crawler没有拿起我的元标签/打开图形对象调试器

、、

Facebook爬虫无法读取我的元标记但是它成功地读取了这两种方法都是使用扩展相同的模板base.html并将metatags.html注入它们来实现的。您可以通过检查元素来引用HTML代码。

浏览 3提问于2014-04-30得票数 0

回答已采纳

5回答

如何在Python中从HTML页面中提取URL

、、

我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢？换句话说，有没有一个简单的python程序可以作为通用网络爬虫的模板？理想情况下，它应该使用相对简单的模块，并且应该包括大量的注释来描述每一行代码所做的事情。

浏览 2提问于2013-03-20得票数 17

4回答

HTML5语义标记在intranet应用程序中的用途是什么？

、

据我所知，HTML5语义标记的唯一真正优势是搜索引擎和web爬虫能够更好地解释文档。由于内部网应用程序与搜索引擎或网络爬虫无关，在HTML5中使用语义标记有哪些优点？

浏览 5提问于2013-12-05得票数 2

回答已采纳

1回答

缺少回调错误会阻止脚本继续执行

、、、

我目前正在编写一个脚本，用于抓取多个站点并将结果转储到mongodb中。当我运行一个批量种子文件时(这样我就不必手动运行每个爬虫程序和单个种子程序)，第一个爬虫程序就完成了，但是下面的错误挂起了，阻止了其余步骤的发生。 fs: missing callback Error: ENOENT, open '../cache/nfHitters.json' 下面是我的爬虫代码。有没有一种方法可以完全消除这个错误(或者有没有我遗漏的最佳实践来防止这种情况一起发生)？ var cheerio = require("cheerio"); var request = requ

浏览 3提问于2015-09-01得票数 0

1回答

如何将html传递给Selenium？

、、、

我有一个网络爬虫，我想把它检索到的html+javascript传递给selenium，这是可能的吗？为了澄清，我不想使用webdriver.get检索selenium的页面，因为我的爬虫更快。

浏览 3提问于2013-07-13得票数 1

回答已采纳

7回答

对使用Lucene或Solr的爬虫工具的建议？

、、

对于HTML和XML文档(本地或基于web)，什么是一个好的爬虫(爬虫)，并且在Lucene / Solr解决方案空间中工作得很好？可以是基于Java的，但不一定是。

浏览 13提问于2008-11-12得票数 16

回答已采纳

1回答

获取HTML源代码，包括由JSON填充的内容

、、、、

我正在做网络爬虫的工作，我发现一些网站通过JSON填充他们的内容。这使得我很难使用简单的HTML DOM来获取数据。有没有办法得到我可以在inspect元素中看到的最终HTML代码？

浏览 1提问于2014-10-20得票数 0

1回答

Scrapy response.xpath无效语法

、

我正在尝试从一个网站上拉价格信息(学习如何建立一个实践网络爬虫)。我正在使用scrapy来构建我的爬虫，并且在我的价格蜘蛛中，我尝试使用以下代码行来拉取价格的html字段的xpath： text = response.xpath(‘/html/body/div[8]/div[2]/div[1]/div[2]/div[4]/div[7]/div[1]/div/meta[2]’).extract() 当我运行这个程序时，我得到了“语法错误:无效语法”，在response.xpath()的第一个单引号下有一个胡萝卜。我试着改成双引号，但什么也没改变。有什么想法吗？

浏览 23提问于2017-07-19得票数 1

回答已采纳

1回答

如何使用php获取HTML页面的标题？

、、

如何使用php获取HTML页面的标题？我已经做了一个php网络爬虫，我想在我的爬虫中实现这一功能，这样它就会有页面的名称和url。提前谢谢。可能使用preg_match。

浏览 0提问于2011-02-07得票数 3

回答已采纳

1回答

与Django一起使用时ReactJS中的SEO

、、、

React使用Node服务器来处理服务器端呈现。因此，当爬虫请求URL时，Django服务器请求节点服务器，该节点服务器调用React.renderToString并生成HTML。HTML被发送到Django，Django将其发送给爬虫。当我调用Node并请求数据，然后将其发送给爬虫时，这里不存在性能问题吗？与在Django中直接呈现它和发送相比，不存在性能损失吗？SEO在我的应用程序中非常重要，但我也想使用客户端呈现。最好的交易是什么？

浏览 2提问于2015-08-13得票数 2

回答已采纳

1回答

关联内容& SEO，带有外部链接的站点地图，使用CNAME将外部链接作为我自己的链接包含在站点地图中

、、

是否有任何HTML代码或页面参数或metaname可以告诉搜索引擎一个页面的内容与另一个域上的另一个页面紧密链接。我保持更新的内容元数据库和关键字元数据库。我不想把这些链接给我的访客看。 1)我需要知道是否有专门与爬虫通信相关链接的协议，以提高我的排名我是否可以通过代码告诉爬虫(爬虫，特别是爬虫，比如没有跟踪地址给爬虫)，mydomain.com/Porduct.php是紧密相连的 http://ebay.com/sameProduct http://wikipedia.com/GenericProduct or http://google.com?q=someKeywords 我

浏览 6提问于2012-12-08得票数 1

1回答

HtmlUnit与HttpUnit的性能比较

、

我想写爬虫，支持cookie存储操作和会话。java无头浏览器有两种不同的实现方式。HtmlUnit对javascript和html解析有更好的支持。但是，有什么理由使用HttpUnit来提高爬虫的性能呢？

浏览 1提问于2011-08-28得票数 2

1回答

Crawler将参数从url添加到链接

、、、、

我尝试了两种不同的网络爬虫(Sistrix和)。这两个爬虫都会报告有关/和/?katID=12等URL的重复内容的错误。事实证明，如果爬虫调用url /projekte/index.php?katID=12，它会找到<a href="/">Home</a>并将其作为链接添加到/?katID=12。看起来url ?katID=12中的参数被添加到页面上没有参数的每个链接中。如果我使用浏览器或wget，我会看到想要的到/的简单html链接。我做错什么了吗？服务器配置？这是爬虫中的bug还是一个特性？

浏览 5提问于2013-04-02得票数 2

回答已采纳

1回答

可重复使用的美汤分析器/Config？

、、、、

我有一个基于硒的网络爬虫应用程序，监控100多个不同的医学出版物，更多的定期添加。这些出版物都有不同的网站结构，所以我试图使网络爬虫尽可能的通用和可重用(特别是因为这是为了供其他同事使用)。对于每个爬虫，用户指定允许爬虫爬行的regex URL模式列表。从那里，爬虫将抓取找到的任何链接以及HTML的指定部分。这对于在手动下载大量内容所需的一小部分时间内是有用的。我现在正试图找出一种基于特定页面的HTML生成自定义报告的方法。例如，在爬行X站点时，导出一个JSON文件，该文件显示页面上的问题数、每个问题的名称、每期文章的数量，然后导出每个文章的标题和作者名称。我将用作示例和测试用例的页面是我

浏览 6提问于2022-10-17得票数 1

回答已采纳

2回答

如何允许用户复制我的电子邮件地址而不是爬虫？

、、

我有一个问题，一些爬虫爬虫从我的网站上的电子邮件地址，并发送垃圾邮件。是否有一种方法允许普通用户复制电子邮件，但不允许爬虫(在html源代码中无法检测到xxx@xxx.com格式)？我尝试了以下解决方案，但在复制电子邮件地址时，没有一种解决方案有效：解决方案1 尝试复制--这将不会复制@和.com .name::after { content: '@'; } .mail::after { content: '.com'; } <span class="name">foo</span><sp

浏览 3提问于2020-09-15得票数 2

回答已采纳

2回答

检查页面是否为python中的HTML页面？

我正在尝试为网络爬虫写一段python代码。我想检查我要抓取的页面是否是HTML页面，而不是像.pdf/.doc/.docx等那样的页面。我不想用扩展.html来检查它，因为asp、aspx或像这样的页面不会显式地.html扩展，但它们是.html页面。在python中有什么好的方法吗？

浏览 2提问于2013-09-19得票数 3

3回答

如何重定向特定IP地址

、、、

我想重定向蜘蛛从访问我的博客。我正在寻找一个解决方案，可以嵌入到网页HTML，以便蜘蛛被重定向离开之前，影响我的页面访问量。比如说javascript，爬虫的IP地址，以及爬虫的引用url，这是可能的吗？

浏览 0提问于2013-12-13得票数 0

1回答

PHP中Web爬虫的错误

、、、

我正在尝试使用PHP创建一个简单的web爬虫，它能够爬行.edu域，提供父域的种子urls。我使用简单的html dom来实现爬虫，而一些核心逻辑是由我实现的。我正在张贴下面的代码，并将试图解释问题。 private function initiateChildCrawler($parent_Url_Html) { global $CFG; static $foundLink; static $parentID; static $urlToCrawl_InstanceOfChildren; $forEachCount = 0; forea

浏览 5提问于2011-12-31得票数 2

回答已采纳

1回答

Web crawler将数据作为对象查找，不允许我对其进行操作

、

我对HTML、CSS、javascript、Sql和PHP有扎实但基本的理解。我认为这将是一个很酷的网站，因为我有我需要的大部分技能。网站的总体目的需要一个网络爬虫来从金融网站提取价格数据。网络爬虫本身对我来说有点高级，所以我使用了一个来自以下链接的预先制作的爬虫。我的代码如下： <? if(count($_POST)>0){ include_once('simple_html_dom.php'); $tickerSelected = filter_input(INPUT_POST,"tick"); $url_tick = $tickerS

浏览 1提问于2015-01-09得票数 0

1回答

TYPO3 9.5: indexed_search不可用

、、

我想使用TYPO3 9.5.13向站点添加搜索功能。到目前为止，没有问题，只需执行composer require "typo3/cms-indexed-search" ^9，因为indexed_search支持9.5。然后，文档告诉我安装爬虫扩展(据说是"aoepeople/ crawler "："^6.7")。问题是爬虫文档声明它支持最多8.7.99的TYPO3。没有风险-没有乐趣，所以试着安装爬虫，即使它不明确支持TYPO3 9.5。在页面上选择"info“时，它告诉我： Fatal error: Class 'TY

浏览 2提问于2020-01-04得票数 0

回答已采纳

2回答

facebook open graph crawler在rails操作中触发json响应

、、、、

由于某些原因，facebook爬虫在我的rails操作中触发了json响应。这导致该操作只返回对象的json表示，而不返回普通的html标记+打开的图形标记。我已经用rails 3.2.6对此进行了测试。我使用facebook的open graph调试器来查看抓取器正在看到的内容：。代码非常简单。想象一个对象的一个简单的"show“操作，例如一个用户。它以以下方式结束： respond_to do |format| format.js { render :json => @this.to_json } format.html end facebook爬虫正在触发form

浏览 0提问于2012-06-20得票数 9

回答已采纳

1回答

如何在docker中使用此文件？

我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为我要安装(？)docker(?)中的chromedriver。这是文件树如何在其中使用“install-chromedriver.sh”？

浏览 44提问于2021-03-11得票数 0

8回答

如何使用Nokogiri美工打印HTML？

、、、

我用Ruby语言编写了一个网络爬虫，我正在使用Nokogiri::HTML来解析页面。我需要把页面打印出来，当我在IRB中闲逛的时候，我注意到了一个pretty_print方法。然而，它需要一个参数，我不知道它想要什么。我的爬虫正在缓存网页的HTML，并将其写入我的本地计算机上的文件。我想要“漂亮打印”的HTML，以便它看起来很好和适当的格式时，我这样做。

浏览 1提问于2009-12-14得票数 28

回答已采纳

1回答

试图实现PHP爬虫？

、、

我正在尝试在我的网站上实现PHP爬虫。我的主要动机是从其他网站获得产品的价格。为此，我尝试使用dom解析器，但我的脚本不起作用。我解析类为prc的div的代码是：- <?php include('simplehtmldom/simple_html_dom.php'); $html = file_get_html('http://www.ebay.in'); $html->find('div', 1)->class = 'prc'; echo $html; ?>

浏览 0提问于2013-08-19得票数 0

回答已采纳

1回答

如果存在于scrapy中，则自动添加字段

、、

写一个爬虫来抓取一个网站，但是被一个问题卡住了。这里有一段类似下面的代码。我还想写一个爬虫来抓取存在于<ul>标记中的所有<li>标记，以提取其中的href属性，并将其存储在一个增量变量中，如Field1、Field2、Field3等，其中‘href’为常量，数值随着存在的<li>标记的增加而递增示例Html：(不要把原始的html放在很长的地方) <ul class="l-itemcassette l-space_medium"> <li> <a href="#"&g

浏览 28提问于2017-01-24得票数 0

回答已采纳

1回答

为什么Google索引管理不适用于实时版本？

、、、

我有一个任务，防止谷歌的爬虫索引一些内容。我读过，如果我有这样的html：   然后googleoff告诉Google的爬虫不要索引内容，而googleon告诉Google的爬虫要索引内容。到现在为止还好。因此，不应该被Google的爬虫索引的内容应该在这些评论之间。我已经使用googleoff和googleon功能将应该排除在Google索引之外的所有内容打包到这些评论中，并且所有要排除在Google索引之外的内容都被正确地包装在本地评论和分期回购中。但是，我没有看到在活动版本

浏览 5提问于2013-08-10得票数 0

回答已采纳

1回答

指向根目录的HTML站点地图链接

、

我有一个由以下元素组成的HTML站点地图( sitemap链接到我的页脚) logo (linking to / ) link for the first block of 150 links link for the second block of 150 links .... 我现在有一个SEO魔术大师，这不能解释我为什么，但他说，标志必须链接到首页和每一页与150个链接块应该链接到/sitemap。他简单地说：“这正是谷歌所喜欢的”。我是开发商。我知道爬虫的工作原理，以及那些写得很好的爬虫器(我们可以假设google爬虫是最先进的爬虫器)，解析页面中的所有链接，只访问/爬行以前没有访问

浏览 0提问于2012-07-14得票数 3

回答已采纳

0回答

使用Java Swing进行Web爬行

、、

我正在开发一个基于Java的网络爬虫。我创建了一个JFrame (Java: Swing)。我的爬虫程序运行成功。它正在访问创建的链接。但我想在JTextArea中添加动态爬行链接，但它没有。我不能这样做。当我尝试这个的时候，我的程序被冻结了。但我可以将访问过的url设置为控制台。我的gui是这样的：我的代码行如下： Document html = null; try { html = Jsoup.connect(url).get(); Elements links = html.select("a");

浏览 8提问于2017-06-15得票数 1

1回答

如何实现广度优先和深度优先搜索网络爬虫？

、、、、

我正试图用Python编写一个带有美丽汤的web爬虫，以便为所有链接抓取一个网页。在我获得主页上的所有链接后，我试图实现深度优先和广度优先搜索，以找到100个附加链接。目前，我已经抓取并获得了主页上的链接。现在我需要帮助实现我的爬虫的深度第一和宽度第一方面。我相信我的网络爬虫正在做深度优先搜索。这是正确的，还是我的代码没有正确地进行深度优先搜索？此外，如何调整代码以创建广度优先搜索？我相信我需要一个队列并使用pop函数，但是我不知道如何正确地执行循环，因为我对Python并不熟悉。我尝试过调整我的代码，但是到目前为止，我尝试过的任何东西都没有取得正确的结果。 from pandas imp

浏览 0提问于2019-04-20得票数 2

1回答

我怎么能在robots.txt中只允许一个代理？

、、、、

我目前在我的robots.txt中使用以下代码来禁止任何爬虫访问我的网站。但我只想有一个例外，那就是Google AdSense的爬虫。下面是我的代码： User-agent: * Disallow: / 谷歌的AdSense爬虫名为“Mediapartners Google”。我如何才能将其添加为异常，并继续阻止所有其他爬虫？谢谢，各位！

浏览 18提问于2021-05-18得票数 1