python爬虫解析js数据库 - 腾讯云开发者社区

、、

我已经有了负责解析数据的python爬虫，但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)？下面是我的系统的示例用法用户可以从数据库中看到网站变更的摘要。我想到的一个选择是在本地机器上运行爬虫，并使用REST将解析的数据更新到firebas

浏览 0提问于2018-01-25得票数 3

2回答

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

、、

我用python编写了一个爬虫，它可以访问60多个网站，解析HTML，并将数据保存到数据库。哪一个更有效率？无限循环还是cron

浏览 7提问于2021-05-14得票数 0

2回答

有没有可能通过网络进行自动搜索来检索链接？

我ḿ希望通过网络或网站进行自动搜索，以检索链接。这是为了检索共享的IP tv链接，以便创建一个媒体库，以便使用VLC在线观看Tṽ。重点是，我甚至不知道最好的解决方案是什么，比如使用脚本的网页还是使用小程序的网页……我刚开始接触终端和其他东西，刚刚安装了xubuntu，所以请……耐心点:D

浏览 3提问于2016-01-25得票数 3

1回答

如何从网站的数据库中抓取链接？

、、

我想写一个简单的爬虫那么googlenews如何能够解析所有新

浏览 4提问于2014-06-06得票数 3

回答已采纳

3回答

我正在创建一个网络爬虫，我使用HTMLParser模块来解析超文本标记语言文档中的链接。如果解析器遇到错误的标记，它会引发解析错误并终止应用程序。由于爬虫遍历了整个web，所以这个错误经常会被抛出。在python.org错误部分，已经有人提出了这个问题。你可以看看这个。这样做的问题是，我真的不知道如何使用提供的“补丁”，我也不理解评论。我希望覆盖HTMLParser模块的默认行为，以允许它在出现解析错误后继续解析。

浏览 0提问于2011-04-20得票数 1

回答已采纳

1回答

只爬行一次URL的刮伤蜘蛛

、、、、

我正在写一只抓取蜘蛛，它每天爬行一组URL。然而，其中一些网站是非常大的，所以我不能抓取整个网站每天，我也不想产生大量的流量，必要的这样做。我试图理解这一点，但发现中间件有点混乱。一个完整的刮板示例，无论它是否使用链接中间件，都可以在不撤销URL的情况下多次运行。我已经在下面发布了代码来启动业务，但是我不一定需要使用这个中间件。任何能够每天爬行和提取新URL的刮痕蜘蛛都可以。显然，一种解决方案是只编写一本刮过的URL的字典，

浏览 4提问于2016-06-10得票数 6

回答已采纳

1回答

与VB.Net HTTPWebRequest相比，Python URLOpen的速度很慢

、、、

嗨，我正在编写一个网络爬虫，这将爬行网站，并有选择地解析网站的不同部分。我是一个.Net开发人员，所以我选择用.Net做这件事是显而易见的，但是速度非常慢，包括下载和解析HTMLPages 然后，我尝试先使用.Net下载内容，然后使用python下载相同的域名，但python我已经使用python实现了下载，但是后面的部分并不容易用python编写，这显然不是我想要做的。同一批域名在Python中需要100秒，而在基于.Net爬虫中需

浏览 0提问于2011-02-12得票数 0

回答已采纳

5回答

如何在Python中从HTML页面中提取URL

、、

我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢？换句话说，有没有一个简单的python程序可以作为通用网络爬虫的模板？

浏览 2提问于2013-03-20得票数 17

2回答

Elasticsearch HTTP API或python API

、、、、

我已经编写了一个python模块爬虫，它可以解析网页并使用本机信息创建JSON对象。我的模块爬虫的下一步是使用elasticsearch存储本机信息。真正的问题如下所示。哪种技术更适合我的场合？elasticsearch python API还是用于弹性搜索的RESTful API (elasticsearch-py)？

浏览 4提问于2015-12-01得票数 1

2回答

如何自动运行python脚本

、、

如何自动运行3个python脚本。假设我有3个脚本，分别是a.py、b.py和c.py。有没有办法让这一切自动化呢？

浏览 0提问于2012-02-01得票数 4

2回答

Python的地址解析器，如何拆分地址

、

我对Python非常陌生，但似乎相处得很融洽。我正在用Python写一个网络爬虫。我想自己弄清楚代码，但如果你愿意提供一个样本，我不会争辩。:)

浏览 2提问于2015-02-18得票数 0

2回答

PHP与

、、

我计划制作的网络爬虫，可以抓取200+领域，哪一种语言将适合它。我非常熟悉PHP，但我是Python的业余爱好者。

浏览 2提问于2014-11-21得票数 0

回答已采纳

1回答

Apache获取和更新b阶段

、、、、

我有一个问题，关于Nutch如何获得链接来更新爬行数据库。所讨论的命令是bin/nutch updatedb crawl/crawldb $s1 我需要编写一个自定义解析器，在这样做之前，我已经检查了Nutch的源代码，就我而言，我负责提供更新爬虫数据库的链接如果我错了，请纠正我，因为我不希望我的爬虫在第一次迭代之后停止，因为它没有链接来更新爬虫数据库。

浏览 1提问于2017-07-06得票数 0

回答已采纳

2回答

facebook爬虫需要ajax预渲染页面吗

、、

有了angular JS的网站，google就能够解析解释过的内容。但是与facebook共享一个链接，facebook爬虫是否也能够解析解释的内容，或者我们必须提供静态页面(例如prerender.io)？

浏览 39提问于2016-08-16得票数 0

4回答

有没有适合抓取的服务器端dom引擎？

、、、

我发现了一个项目，，它在服务器端嵌入了Firefox引擎，所以它可以很好地解析服务器端的JavaScript。但是，这个项目似乎已经死了。解析HTML和提取数据对于爬行网页是很有帮助的。

浏览 3提问于2010-10-09得票数 1

回答已采纳

1回答

nutch生成器是否使用CrawlDB进行初始链接？

、

如果是这样，爬虫抓取的新链接是否会存储回crawlDB？当系统关闭时会发生什么，crawlDB会在下一次nutch启动时刷新吗？实际上，我希望nutch在系统关闭的情况下从它停止的地方继续爬行。

浏览 8提问于2016-09-09得票数 1

回答已采纳

1回答

如何从crawler获取数据到我的站点？

、、

从外部爬虫获取数据到我的数据库的最好方法是什么，到我的网站我在LAMP环境中工作，web服务是个好主意吗？爬虫每15分钟运行一次。

浏览 2提问于2009-06-15得票数 0

回答已采纳

2回答

如何从网站中提取动态生成的HTML

、、、、

我有一个用Java构建的web爬虫来完成这个任务，但是它使用了很多旧的库。因此，为了学习目的，我想转到Rails/Ruby解决方案。我已经和i和玩过了。

浏览 2提问于2014-07-21得票数 0

回答已采纳

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数

浏览 1提问于2011-03-31得票数 1

2回答