当你想要抓取的信息丢失时，创建一个网络爬行器

基础概念

网络爬虫（Web Crawler）是一种自动访问网页并提取信息的程序。它从一个或多个种子URL开始，通过解析网页中的链接，不断访问新的网页，从而收集所需的数据。

类型

通用爬虫：广泛抓取互联网上的网页，如搜索引擎的爬虫。
聚焦爬虫：专注于特定主题或领域，只抓取相关网页。
增量式爬虫：只抓取新产生的或发生变化的网页内容。

应用场景

搜索引擎索引构建
数据挖掘与分析
竞品分析
价格监控
新闻聚合

遇到的问题及解决方法

信息丢失

原因：

网页结构变化
反爬虫机制
网络问题导致请求失败
数据被动态加载（如JavaScript渲染）

解决方法：

网页结构变化：
- 定期检查和更新解析规则。
- 使用XPath或CSS选择器灵活定位元素。

反爬虫机制：
- 设置合理的请求头（User-Agent）。
- 使用代理IP轮换。
- 控制请求频率，模拟人类行为。
网络问题：
- 实现重试机制，处理请求失败的情况。
- 使用稳定的网络连接。
动态加载的数据：
- 使用Selenium或Puppeteer等工具模拟浏览器行为，抓取动态内容。
- 分析网页的JavaScript代码，找到数据加载的API接口，直接请求API获取数据。

示例代码

以下是一个简单的Python爬虫示例，使用requests和BeautifulSoup库抓取网页内容：

import requests
from bs4 import BeautifulSoup

def fetch_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        return response.text
    except requests.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return None

def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 根据网页结构提取信息
    title = soup.find('title').get_text()
    print(f"Title: {title}")

if __name__ == "__main__":
    url = "https://example.com"
    html = fetch_page(url)
    if html:
        parse_page(html)

参考链接

通过以上方法和工具，可以有效解决网络爬虫在抓取信息时遇到的丢失问题。

页面内容是否对你有帮助？

有帮助

没帮助

使用Solr Nutch抓取特定数据

、、、

我看到一些像这样的搜索网站，我想知道他们是如何在price，image和description等其他网站上抓取数据并将其显示在他们的网站上的。我正在考虑使用Solr来索引数据，使用Nutch来抓取数据。我是网络爬行和索引的新手，到目前为止，我只能抓取网页的内容。 Solr Nutch能做这种爬行吗？又是如何做到的？

浏览 1提问于2015-08-28得票数 0

3回答

什么是一个好的爬行速度？

、、

我正在抓取网页以创建一个搜索引擎，并且已经能够在1小时内使用Scrapy抓取近9300个页面。我想知道我还能提高多少，以及什么值被认为是“好”的爬行速度。

浏览 0提问于2018-03-26得票数 5

1回答

Python Scrapy -解析最近更新日期的URL内容

、、、

我有一个用Python编写的、使用scrapy框架的网络爬虫/爬行器。我一直在尝试使用“最后修改”日期来标识每个页面的最新更新-但我也会收集被抓取的页面的每个HTML文件。有没有更准确的方法来收集每个页面最近更新的日期？

浏览 0提问于2021-01-13得票数 0

6回答

网络抓取和网络抓取有什么不同？

、、

爬行和网络抓取有区别吗？如果有不同之处，为了收集一些网络数据来提供一个数据库，以便在定制的搜索引擎中使用，最好的方法是什么？

浏览 2提问于2010-12-02得票数 96

回答已采纳

3回答

比方说，我想要从许多来源(可以是旅行、技术或其他任何来源)聚合与特定利基相关的信息。我该怎么做呢？有一个爬虫/爬虫，它会爬网寻找我需要的信息(我如何告诉爬虫要爬行什么，因为我不想获取整个网络？)？然后有一个索引系统来索引和组织我抓取的信息，也是一个搜索引擎？像Nutch lucene.apache.org/nutch这样的系统可以用于我想要的吗？你有推荐的其他东西吗？或者你能推荐另一种方法吗？例如，Techmeme.com是如何构建的？(它是一个技术新闻的聚合器，而且它是完全自动化的--直到最近他们才增加了一些人工干预)。构建这样的服务需要做些什么？或者Kayak.com如何聚合他们

浏览 2提问于2009-05-29得票数 14

6回答

用scrapy抓取多个域名的最好方法是什么？

、、

我有大约10多个网站，我希望从中抓取。其中有几个是wordpress博客，它们遵循相同的html结构，尽管具有不同的类。其他的要么是论坛，要么是其他格式的博客。我喜欢抓取的信息很常见--帖子内容、时间戳、作者、标题和评论。我的问题是，我必须为每个域创建一个单独的爬行器吗？如果没有，我如何创建一个通用的爬行器，允许我通过从配置文件或类似文件中加载选项来进行抓取？我想我可以从一个文件中加载xpath表达式，这个文件的位置可以通过命令行加载，但是当抓取某些域需要我使用正则表达式select(expression_here).re(regex)而有些域不需要时，似乎会有一些困难。

浏览 3提问于2011-03-31得票数 6

2回答

如何强制scrapy抓取重复的网址？

、、

我正在学习，一个网络爬行框架。默认情况下，它不会抓取重复的urls或scrapy已经抓取的urls。如何让Scrapy抓取重复的urls或已经抓取的urls？我试着在网上找，但找不到相关的帮助。我从找到了DUPEFILTER_CLASS = RFPDupeFilter和SgmlLinkExtractor，但这个问题与我正在寻找的相反

浏览 1提问于2014-04-17得票数 25

回答已采纳

2回答

谷歌如何存储索引？

最近，我一直在阅读关于网络爬行、索引和服务的文章。我在上找到了一些关于谷歌抓取网络和提供搜索服务的过程的信息。我想知道的是他们是如何保存所有这些索引的？我是说，有很多东西要储存，对吧？他们是怎么做到的？谢谢

浏览 2提问于2011-09-01得票数 7

回答已采纳

2回答

Scrapy:在两个爬行器之间传递数据

、、

我需要创建一个蜘蛛，从网站抓取一些数据。数据的一部分是外部URL。我已经创建了从根站点抓取数据的爬行器，现在我想为外部网页编写爬行器。我正在考虑创建一个爬虫蜘蛛，它使用SgmlLinkExtractor来跟踪每个外部网页中的一些特定链接。向第二个爬行器传达start_url列表的推荐方式是什么？我的想法是为这些项生成一个json文件，并读取第二个爬行器的start_requests中的属性。

浏览 1提问于2012-07-19得票数 1

回答已采纳

2回答

最适合用于图像爬行的开源、可扩展爬虫

、

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。我们的项目：基本上，我们要建立Hadoop和抓取网络上的图像。然后，我们将根据Hadoop中的Map/Reduce工具，在HDFS中存储的图像上运行我们自己的索引软件。除了我们自己的索引之外，我们不会使用其他索引。一些特殊问题：哪种爬虫最适合抓取图像？哪种爬虫最适合分布式爬行系统，在这种系统中我们使用多台服务器一起进行爬行？现在这些看起来是最好的三种选择- Nutch:众所周知的规模。看起来并不是最好的选择，因为它似乎与他们的文本搜索紧密联系在一起，software.Heritrix:也可以伸缩。目前看来，最好的o

浏览 5提问于2009-07-28得票数 3

2回答

Jsoup发布修改后的文档

、、

我正在尝试为我即将推出的android应用程序创建一个网络爬行器。因此，我需要在网站上使用一个简单的搜索表单，填写它，然后将结果发送回服务器。正如在中提到的，我从服务器中抓取了所需的站点并更改了值。现在，我只需要将修改后的文档发送回服务器并抓取结果页面。据我所知，除了Jsoup.connection中的.data-Attribute之外，没有办法回发任何内容，不幸的是，它不能根据id填充文本字段。有任何想法或解决办法，如何将修改后的文档或其部分发布回网站？

浏览 0提问于2012-01-24得票数 2

回答已采纳

2回答

如何使用Nutch爬行和解析精确的数据？

、、、、

我对Nutch和爬行很陌生。我安装了Nutch2.0，通过遵循一些基本教程，使用Solr 4.5爬行和索引数据。现在我不想解析页面的所有文本内容，我想定制它，就像Nutch应该爬行页面一样，并且只抓取/获取与地址相关的数据，因为我的用例是爬行URL，只将地址信息解析为文本。例如，我需要爬行和解析的文本内容，其中有地址信息，电子邮件id，电话号码和传真号码。我该怎么做？是否已经有任何插件可供使用？如果我想为此编写一个自定义的解析器，有人能在这方面帮助我吗？

浏览 3提问于2015-09-24得票数 1

1回答

从网站上删除网页-我是否需要告诉谷歌，或者他们会在任何时候掉下来？

、、、

下面是一个后续问题：由于翻译而重复的标题牌自从提出问题以来，我已经删除了在有关网站上通过语言/翻译生成的重复内容。在答案中，我被告知我应该返回410个删除的重复页面的错误，使用robots.txt来禁止重复页面的爬行，并使用feature功能重新触发爬行。我现在的问题是，我实际上已经删除了页面(我已经删除了所有的翻译选项)，当Google下一次抓取网站并注意到链接已经消失时，这个问题会自我纠正吗？考虑到复制的内容现在已经消失，我还需要做推荐的事情吗？

浏览 0提问于2013-09-28得票数 1

回答已采纳

1回答

抓取情况:项目的增量更新

、、

请帮我解决以下问题：想象一个典型的分类类别页面。包含项目列表的页面。当你点击你在内部pages.Now上登陆的项目时，我的爬虫刮掉了所有这些URL，进一步刮掉这些URL以获取项目的细节，检查初始种子URL是否作为下一页。如果有，它将转到下一页并执行相同的操作。我将这些项存储在sql数据库中。假设三天后，种子URL中有新的项目，我只想报废新的项目。可能的解决办法是：在抓取每个项目时，我在数据库中查看URL是否已经被抓取。如果有，我只是要求Scrapy不要再爬行了。问题:我不想每次都查询数据库。我的数据库将非常大，它最终将使爬行超级慢。我试图存储最后一次刮过的URL，并在开始时传递

浏览 5提问于2013-03-20得票数 3

1回答

使用css时，Scrapy返回空列表

我正在尝试抓取nordstrom的产品描述。我获得了所有的项目链接(存储在本地mongodb db中)，现在正在遍历它们，下面是一个示例链接https://www.nordstrom.ca/s/leith-ruched-body-con-tank-dress/5420732?origin=category-personalizedsort&breadcrumb=Home%2FWomen%2FClothing%2FDresses&color=001 我对爬行器的代码是： def parse(self, response): items = NordstromItem()

浏览 23提问于2020-05-02得票数 0

4回答

在多个网站上使用一个Scrapy爬虫

、、

我需要创建一个用户可配置的网络蜘蛛/爬虫，我正在考虑使用Scrapy。但是，我不能硬编码域和允许的URL regex:es --这将在GUI中配置。如何(尽可能简单地)使用Scrapy创建一个爬行器或一组爬行器，其中域和允许的URL regex:es是动态可配置的？例如，我将配置写到一个文件中，然后爬行器以某种方式读取它。

浏览 2提问于2010-03-07得票数 12

回答已采纳

2回答

使用scrapy将抓取的项目保存到json/csv/xml文件

、

我正在从他们的学习(一个网络爬行框架)。通过以下示例和文档，我创建了我的爬行器，以便使用站点地图抓取数据 from scrapy.contrib.spiders import SitemapSpider from scrapy.selector import Selector from MyProject1.items import MyProject1Item class MySpider(SitemapSpider): name="myspider" sitemap_urls = ['http://www.somesite.com/sitemap

浏览 2提问于2014-02-04得票数 4

6回答

Web挖掘、抓取还是爬行？我应该使用什么工具/库？

、、、、

我想抓取和保存一些网页作为HTML。比方说，爬入数百个流行的网站，然后简单地保存它们的首页和“关于”页面。我已经调查了很多问题，但从网络爬行或网络抓取问题中都找不到答案。我应该使用什么库或工具来构建解决方案？或者，有没有一些现有的工具可以处理这个问题？

浏览 5提问于2011-10-11得票数 2

回答已采纳

4回答

抓取和抓取iTunes应用商店

、、、

我注意到允许你通过http://协议抓取和抓取页面。然而，许多链接试图在iTunes中打开，而不是在浏览器中打开。例如，当您转到页面时，它会立即尝试使用itms://协议打开url。有没有其他爬行App Store的方法，或者这是唯一的方法？能否以某种方式爬行itms://协议链接本身？

浏览 0提问于2010-06-23得票数 14

1回答

Spring有没有Web抓取的解决方案？

、、

我需要建立一个网络应用程序，这将抓取和爬行一些网站，并提取数据和爬虫将有调度器。我知道有很多工具可以解析和提取数据，比如Jsoup，但我只想知道我是否可以用Spring工具实现这一点？

浏览 0提问于2017-02-24得票数 4

2回答

apache nutch不抓取网站

、、

我已经安装了用于网络爬行的apache nutch。我想抓取一个有以下robots.txt的网站 User-Agent: * Disallow: / 有没有办法用apache nutch抓取这个网站？

浏览 1提问于2012-08-07得票数 1

回答已采纳

1回答

抓取速度较慢(60页/分钟)

、、、

我遇到了抓取速度慢的scrapy (大约1页/秒)。我正在从aws服务器上抓取一个主要网站，所以我不认为这是一个网络问题。Cpu利用率远远不到100，如果我启动多个抓取进程，爬行速度会快得多。 Scrapy似乎爬行了一大堆页面，然后挂起了几秒钟，然后重复。我已经尝试过了: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500 但这似乎并不能真正使指针超过20。

浏览 0提问于2012-11-22得票数 8

1回答

如何在Google Cloud中计划网站爬行？

、、

我想在谷歌云中存储一个网络爬行软件尖叫青蛙的副本。这将位于Compute引擎实例或Kubernetes容器中。我可以使用linux shell在我的计算机上本地运行尖叫青蛙爬行： screamingfrogseospider --crawl https://www.example.com --headless --save-crawl --output-folder /tmp/cli 在Google Cloud中有可能做类似的事情吗？理想情况下，我想安排一些cron任务，使上面的shell命令运行，导致网站被抓取；抓取的结果保存到Google Cloud存储中的存储桶中。我该怎么做呢？

浏览 2提问于2020-04-04得票数 0

1回答

是否可以根据服务器的公钥验证已保存的SSL会话？

、

以下是我要做的事：我正在开发一个应用程序，人们将能够跟踪产品的价格。我希望他们的手机能够抓取一些网站，该产品出现(征得他们的同意)，一天两次。我不想重复这样做，如果有两个用户在看这个产品，我只想用他们中的一个来做爬行。一旦爬行产品完成，爬行结果将被推送到服务器(以防止冗余爬行)。在最后一步中，数据是从“不受信任的”源推送的。有人可以反向工程网络流量，并有可能将垃圾推到终点。我希望爬行的"HTML“是真实的，并来自商家的网站，它是打算。问题是：-我认为它可能是通过为特定请求存储加密的SSL通信来实现的，在服务器端，我可以根据商人证书的公钥验证它(比

浏览 1提问于2017-12-04得票数 0

回答已采纳

2回答

由于处理密集型脚本，站点速度较慢。

、

我有一个网站，必须抓取不同的网站，以聚合信息。当爬行脚本运行时，站点的速度会减慢。我已经做了尽可能多的优化爬行，但它实际上是CPU和RAM密集型。这些爬行必须基于某些用户操作(例如搜索)。它不是一个选择“预抓取”信息，因为信息是时间敏感的。我能用什么一般策略来解决这个问题？以下是我的两个想法：在当前服务器上获得更多的CPU和内存，在单独的物理服务器上卸载这些处理密集型脚本。我对云计算很好奇，但对云计算没有任何经验。有什么建议吗？

浏览 4提问于2011-02-19得票数 0

回答已采纳

8回答

关于抓取整个网络的指南？

我刚刚有了这个想法，想知道是否有可能爬行整个网络(就像大男孩一样！)在单个专用服务器上(如Core2Duo，8G内存，750 on磁盘100 like)。我曾经读过一篇论文，题目是done....but，我想不起来这篇论文的标题了。这就像是在一台专用服务器上使用某种统计模型抓取整个网络。无论如何，想象一下从大约10,000个种子URL开始，然后进行详尽的爬行…… 有可能吗？我需要爬网，但仅限于一个专用的服务器。我该怎么做呢?有没有开源的解决方案？例如，看看这个实时搜索引擎。结果非常好，新鲜的updated....how，他们这样做了吗？

浏览 2提问于2010-01-17得票数 36

回答已采纳

3回答

智能爬虫，可以根据关键字对来源进行优先排序？

、、

我正在尝试创建一个网络爬虫，不断爬行网页，寻找包含某些关键字的网页。有很多开源的解决方案(Nutch，Scrapy等)，但我需要一个智能的解决方案，可以优先考虑“丰富”的来源。我想让机器人从某一页开始，f.e.，提取所有链接并继续抓取它们。现在，如果页面包含某个关键字f.e.。‘'foo'，则应将此url发送到数据库。现在，最难的部分来了。如果我创建并运行这样的机器人，爬虫可能需要很长时间才能找到包含指定关键字的新页面，因为它是在整个网络上爬行。如果蜘蛛能够识别出它经常在哪个领域找到关键字，那么这个过程就会大大加快，这样就可以更频繁地爬行这些关键字。有没有一个开源的解决方

浏览 1提问于2012-11-07得票数 1

1回答

显示在后期crawler统计信息中过滤的重复请求数

、

我正在运行的一个Scrapy爬行器(版本0.21)并没有拉出我试图抓取的所有项目。统计数据显示有283个项目被拉出，但我预计这里会远远超过300个。我怀疑站点上的一些链接是重复的，因为日志显示了第一个重复的请求，但我想知道到底有多少重复被过滤，这样我才能有更确凿的证据。优选地，以爬行结束时的附加状态的形式。在过滤重复的url时，似乎没有发出信号，而且DUPEFILTER_DEBUG似乎也不起作用。我怎么才能得到我需要的东西？

浏览 1提问于2014-09-22得票数 1

1回答

抓取:检查网页中的网络资源

、、

我才刚开始探索这个混乱的框架。我一直在阅读抓取，用于从页面内容和爬行中提取urls/图像等。我的问题是，是否有一种方法可以提取/打印网页中加载的所有网络资源，比如，而无需从页面的html内容中提取，而是直接从资源请求/完成时的网络资源中提取/打印。谢谢

浏览 3提问于2016-02-04得票数 0

回答已采纳

1回答

当我使用cheerio时，这个选择器出错。

、、、

我使用node、express、cheerio和axios来创建一个简单的网络爬行器。在这个例子中，axios有数据，但是在使用cheerio加载数据后，我得到了这个错误： (node:14056) UnhandledPromiseRejectionWarning: TypeError: content.forEach is not a function 抓取器代码： app.get('/users', (req, res) => { axios('https://fake.com/users') .then(response => {

浏览 27提问于2021-02-16得票数 2

回答已采纳

1回答

Chrome扩展webscraper.io -如何在选择“下一步”时进行分页

、、

我正在尝试使用google chrome扩展来抓取一个网站的表格。在该扩展的教程中，记录了如何抓取具有不同页面的网站，例如，“页面1”、“页面2”和“页面3”，其中每个页面都直接链接到主页上。然而，在的示例中，只有一个" next“按钮来访问下一个站点。如果我按照教程中的步骤为"next“页面创建一个链接，它将只考虑页面1和2。为每个页面创建"next”链接是不可行的，因为它们太多了。怎样才能让网络爬行器包含所有页面？有没有办法使用webscraper扩展来遍历页面？我知道这个可能的副本：。然而，它并没有得到很好的接受，也没有包含任何有用的答案。

浏览 1提问于2017-01-12得票数 5

回答已采纳

4回答

Java -销毁正在执行某些操作的对象

、

我看过Java中关于析构函数的帖子，了解到Java没有析构函数，但我很困惑，如果没有析构函数，我的应用程序需要做什么。我的应用程序允许用户创建一系列的网络爬虫，这些爬虫保存在一个数组列表中。每个crawler都有一个进度面板gui，显示已爬行的页面等，并允许用户暂停该爬虫。但是，用户可能还想“终止”该爬虫程序。应该注意的是，Crawler类的每个实例都有一个Scraper类的实例，而Scraper类又有一个DatabaseConnection类的实例。我需要做什么才能让用户按下"Terminate“，对于那个爬行器，它的抓取器，以及抓取器的DatabaseConnection，都被

浏览 4提问于2011-07-08得票数 0

回答已采纳

1回答

Nutch找不到这类网站的链接

、、、

我是一个网络爬行的初学者，我曾经尝试过crawler4j的静态网页. 现在，我想尝试爬行这个网站()通过Nutch+hbase+solr，但我甚至不能走得更远。我曾尝试过其他网站，如，我实际上可以索引的信息到solr。我想知道对于，源页面没有显式的out链接，我如何抓取它？有人可以建议工具或物品吗？或者解释为什么nutch不起作用？非常感谢。

浏览 1提问于2018-02-13得票数 0

回答已采纳

1回答

和服桌面爬网停留在“队列”

我正在使用和服桌面抓取一个网站，并将数据发布到Firebase端点。除了自动运行之外，一切都从头到尾都在运行。当创建或编辑带有Chrome扩展的和服API时，桌面应用程序抓取并报告“上次抓取成功”。下一次运行被列为抓取的设置时间(我在多台机器上尝试了5分钟、30分钟和1小时)，但当该时间过去时，下一次自动运行显示为“已排队”，但从未真正运行过。上面屏幕截图中的API被设置为每五分钟爬行一次，但它已经排队了至少2小时55分钟，没有运行。出于好奇，我让一台机器运行了两天，没有另一台机器爬行。单击Start Crawl可以正常工作，但与自动运行的目的背道而驰。想法？

浏览 0提问于2016-03-24得票数 1

0回答

Java在jar中使用代理设置

、

我正在使用我创建的jar进行网络抓取，它使用了一个代理。我的问题是，我有一个大型项目，其中更多的网络爬行器将并行工作。使用以下代码： System.getProperties().put("http.proxyHost", "someProxyURL"); System.getProperties().put("http.proxyPort", "someProxyPort"); System.getProperties().put("http.proxyUser", "someUserName"

浏览 13提问于2016-07-01得票数 1

回答已采纳

3回答

停止谷歌机器人不止一次爬行URL？

、、、

我有一个网站，通常每天创建几千页，创建后不会改变。最近，我的专用服务器已经崩溃，因为googlebot爬行网站太频繁。根据搜索控制台，很多天googlebot每天都会爬行数万次，这表明他们一直在抓取他们已经爬过的页面。我知道我可以限制googlebot爬行率，但是是否有可能强迫googlebot只爬行一次和一次？ 📷

浏览 0提问于2019-08-08得票数 2

回答已采纳

1回答

在heroku上部署scrapy项目

、、、

我有一个抓取蜘蛛项目，它报废了一些网站，并获取我的数据上。我的爬行器生成两个JSON文件，所有抓取的数据都存储在这两个文件中。现在，我有一个flask web服务，它使用上述两个JSON文件来满足用户的请求。我已经在heroku上部署了这个flask web服务，并且运行良好。我这里的问题是，我每天在本地机器上运行scrapy spider，然后手动更新heroku上的两个JSON文件。我想自动化这个过程，即scrapy项目应该每天运行，产生的JSON文件应该自动更新。我在这里找到的解决方案是，如果scrapy和web服务被部署为单个项目，它将像I want....but一样工作，我

浏览 1提问于2014-04-24得票数 2

3回答

最近浙江金华电信宽带到腾讯云203.195.128.105，不定时丢包。怎么解决啊？联通的宽带正常？

、

111111.png 222222.png 666.png 777.png 浙江金华大概80条电信宽带都这样，发生了大概半个月，不定时丢包。丢包时试过电信宽带访问其他网址都正常;联通宽带和移动宽带访问服务器ip也正常。只有电信网络访问服务器丢包，求解决办法

浏览 825提问于2019-06-07

2回答

AttributeError：“NoneType”对象没有名为“find_all”的属性

我目前正在制作一个网络爬行器来抓取，而im在尝试抓取表格标题时遇到了麻烦。当我这样做的时候 head = soup.find('table',{"class" : "display responsive dataTable no-footer"}).find_all("tr") table_header = head.find_all('th') 它返回 Traceback (most recent call last): File ".\ncov2019live.py", line 13, in

浏览 1提问于2020-05-20得票数 0

1回答

可以以爬行结果作为内容创建网站吗？

我们可以创建一个网站来显示爬行结果作为内容吗？让我们说一家新的公司。一旦公司名称被选中，网络爬虫将抓取与公司有关的最新消息并显示结果。这能办到吗？此外，我们可以使用Google AdSense这样的网站吗？

浏览 1提问于2018-11-06得票数 0

回答已采纳

1回答

带有刮刀的Web爬行器，使用木偶和刮除器

、、、、

请注意，我是一个新手，当涉及到网络技术。我必须抓取和刮相当多的网站，这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取，使用Selenium来抓取常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript/html页面的区别。等待回应。

浏览 3提问于2019-12-04得票数 0

回答已采纳

1回答

我是否可以对我的Bing自定义搜索站点进行重新爬网/重新索引？

、、

我正在尝试让必应在我们添加了一些新的“搜索”后重新爬行/重新索引我们的网站。元标签，并需要这些显示在我们的必应自定义搜索结果。我已经尝试使用必应网站管理员工具，并在配置我的网站下提交URL，但是，在超过一天的时间里，没有重新爬行。最近的站点抓取日期报告更早，最早可追溯到2019年5月15日。有没有办法做到这一点，或者我们只是被困在等待？

浏览 5提问于2019-05-30得票数 0

1回答

UDP丢包模拟与概率

、、

我目前正在创建一个与多个arduino板通信的服务器软件。由于硬件原因，我使用的是UDP协议。我有一个非常简单的机制，在大多数情况下，当包丢失时会重新发送包。我现在有两个问题： UDP数据包在没有互联网接入的网络中丢失的可能性有多大，大约有20个arduinos和一台计算机？有必要有一个重发的方法吗？是否有一种方法可以模拟UDP数据包在这个网络中丢失，以检查重发机制是否有效？

浏览 2提问于2017-08-03得票数 2

回答已采纳

1回答

如何跟踪Scrapy中已抓取的域名数量

、

我正在编写蜘蛛，这将爬行约1000个域。我在想，如果有任何方法来跟踪域名爬行的数量。因为在一个使用进程中抓取1000个域名需要很长时间。如果我可以跟踪域名的数量过程，那么我可以触发一些任务，如发送电子邮件后爬行的100个域名的1000。我试着在网上找，但找不到相关的信息。如果有人知道什么方法，请告诉我。如果我找不到任何方法，那么我必须跟踪urls爬行的数量。但这将是一件好事，如果域名的数量可以跟踪。 class MySpider(CrawlSpider): name = 'alok2' # 'list.txt' file have doma

浏览 0提问于2014-03-05得票数 1

2回答

用硒美汤寻找元素

、、、

一般来说，我对网络抓取和数据科学是个新手。根据不同的消息来源，美丽的汤比硒更快的抓取网页。我正在写一些在社交媒体评论中爬行的代码。我使用Selenium自动单击检索旧注释的按钮，并使用以下命令从注释中获取文本 driver.find_element_by_xpath() 我知道feature没有允许我直接输入xpath来查找元素的特性。在这种情况下，我是否应该摆脱对xpath的依赖，并尝试更轻松地使用可以由漂亮的汤使用的选择器呢？我的代码现在感觉非常笨重，需要几分钟的时间，尽管我只处理了大约120条评论。如果之前有人问过这个问题，我很抱歉；我在网站上找不到它。谢谢!

浏览 18提问于2019-07-24得票数 0

回答已采纳

1回答

通过脚本或终端运行时，模块路径不一致

、

我有一个从另一个模块导入字典的抓取爬虫。我的包含爬行器的主contentspider.py还包含一个导入语句from spider_project.spider_project.updated_kw import translated_kw_dicts。 from spider_project.spider_project.updated_kw import translated_kw_dicts class ContentSpider(CrawlSpider): name = 'content_spider' allowed_domains = ['

浏览 0提问于2020-12-09得票数 0

2回答

Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢？

、、

请任何人让我知道，我如何才能识别更新的网址去重新抓取？当页面要重新爬行时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前谢谢。普拉亚..。

浏览 0提问于2012-04-20得票数 0

1回答

麻烦可以告知下，哪里有安卓实时音视频通话sdk的一些特性参数信息吗？

、、

比如：帧率，码率，抗丢包率，抗网络抖动率等，谢谢~~

浏览 237提问于2019-07-24

3回答

从视图中引用另一个模型的正确方式是什么？

、、

我有两个模型:爬行动物和物种。爬行动物有一个物种，在数据库中存储为ID：我应该如何设置爬行动物的详细信息控制器操作/视图，以便它显示物种的Title属性，而不是爬行动物使用的ID？我最初的想法只是抓取控制器中的数据并将其传递到ViewBag中，但这似乎不合适，并且在需要设置list操作时过于复杂。这样做的正确方法是什么？似乎我需要创建一个视图模型，但让我困惑的是如何正确地设计它，使其不会有太多的数据库调用。这是我在ViewModel中的初步尝试： public class ReptileDetailsModel { [Required] public Strin

浏览 1提问于2013-09-26得票数 2

1回答

用于Python脚本的web GUI (Django)

、、、

我有一个程序，从用户那里获取一个URL，抓取整个网站，并返回一个包含每个URL的解析数据的所有URL的列表。这一切看起来都是： class Crawl(url_from_user): self.result = [<Page object at 1>, <Page object at 2>, <Page object at 3>] class Page(url): self.data_1 = "string_1" self.data_2 = "string_2" self.data_3 =

浏览 1提问于2017-06-24得票数 1

回答已采纳