python 爬虫获取js - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

在Python中执行网页上的Javascript方法

、、

现在，如果不从Python执行这个Javascript函数，我就无法获得完整的页面清单。如何从Python中调用此Javascript方法，以便获取该网页所有页面？

浏览 2提问于2012-11-19得票数 8

回答已采纳

3回答

Mac OS -由于找不到nspr，无法安装python-spidermonkey

、、

尝试在我的Mac OS上使用pip安装python-spidermonkey，但失败了，因为它缺少nspr：Downloading/unpacking python-spidermonkey Traceback/setup.py", line 186, in <module>

浏览 2提问于2013-04-27得票数 2

回答已采纳

1回答

服务端渲染如何帮助爬虫？服务器端渲染和客户端渲染哪个更好？

、、、

我正在阅读angular的服务器端渲染文档，因为它们提到服务器端渲染是帮助爬虫。我知道在服务器端渲染爬虫可以获得整个dom，但爬虫也可以与组件交互，那么它如何帮助爬虫呢？

浏览 18提问于2019-09-15得票数 0

1回答

如何有效地运行python web爬虫

、、、

我有一个python爬虫，它获取信息并将其放入SQL中。现在我也有了php页面，它从SQL读取这个信息，并表示它。问题是:为了让爬虫程序工作，我的电脑必须全天候工作。是否有一种不同的方式运行网络爬虫？还是我必须在我的电脑上运行？

浏览 1提问于2015-12-08得票数 0

回答已采纳

2回答

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，

浏览 0提问于2013-05-23得票数 2

1回答

Python-Selenium爬虫冻结，特别是在无头模式下(不可复制的bug)

、、、、

我构建了一个爬虫，它获取用户输入的产品列表的产品信息。有时，爬虫会结冰，特别是如果产品列表很长，如果爬虫在无头模式下运行的话。因为这是一个不可复制的错误，我不认为我能修复它，但有没有办法检测爬虫已经冻结，然后再试一次？爬虫是使用Selenium和Python构建的。

浏览 2提问于2019-05-21得票数 1

1回答

如何从playstore中的应用程序获取权限信息？

、、

我正在开发一个python爬虫，从Play Store中的应用程序中检索一些信息。我的爬虫检索应用程序评级、开发人员等等，但不检索权限。这是因为谷歌使用的是假链接，而且没有html可以捕捉到。有人知道如何获取这些信息吗？欢迎任何帮助！提前谢谢。

浏览 4提问于2015-02-27得票数 2

1回答

可能的反爬行者

、

我想我会写一个爬虫，从www.wordreference.com获取单词。我在机械化爬虫框架中使用Python。这个网站有没有可能有防爬虫机制？

浏览 5提问于2011-04-07得票数 1

回答已采纳

2回答

如何在爬行时绕过robots.txt

、

谁能告诉我，如果有任何方法可以忽略或绕过robots.txt爬行。有没有办法修改脚本，让它忽略robots.txt，继续抓取？User-agent: *Disallow:

浏览 3提问于2015-01-21得票数 1

4回答

从Ruby到Python :爬虫

、、

我想知道用python编写爬虫的等效方法。在python中，它们的等价物是什么？

浏览 6提问于2012-10-15得票数 2

回答已采纳

4回答

如何通过爬虫php获取悬停数据(Ajax)

、、、

有没有可能用任何爬虫。我使用PHP和来解析/抓取页面。

浏览 3提问于2012-03-30得票数 3

回答已采纳

1回答

如何将Python Scrapy扩展的数据插入到MySql数据库表中？

、、、

我正在为Python Scrapy构建一个扩展，以获取爬虫相关的详细信息，如开始时间、结束时间、爬虫状态(打开、关闭或活动)。现在我需要在我的MySql数据库表中存储当前的时间戳。有人能帮我吗？

浏览 3提问于2013-10-14得票数 0

2回答

元标记不应该使用JS动态更改吗？

、、

如果我想要更改数据，我可以使用JS来完成，而无需重新加载页面。百事大吉。但是，现在，我了解到元标签不能使用js更改，应该让它重新加载/刷新page...is，这是正确的吗？

浏览 14提问于2019-08-18得票数 2

2回答

针对Crawler和Bots的HTML 5存储

、、、

我目前正在编写视图/访问者计数器的代码，该计数器检查访问者是人还是机器人/爬虫。我已经找到了一些解决办法，我用过。

浏览 3提问于2018-01-10得票数 0

回答已采纳

2回答

最适合用于图像爬行的开源、可扩展爬虫

、

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。基本上，我们要建立Hadoop和抓取网络上的图像。一些特殊问题：现在这些看起来是最好的三种选择-摘要：我们需要从网络上获取

浏览 5提问于2009-07-28得票数 3

2回答

在Python中解码UTF-8字符串

、

我正在用python编写一个网络爬虫，它涉及到从网站上获取标题。但它却说：“™也要来了。” 这里出了什么问题？

浏览 0提问于2012-10-29得票数 23

回答已采纳

1回答

计算页面的视图数的最佳方法

、

选项： AnalyticsCount 以编程方式从Google 中获取唯一的页面浏览次数(尽管这种方法对爬虫和机器人进行计数)，计数该页面的服务时间，并试图通过JS过滤出爬虫用户代理Ping服务器(然后过滤出来自同一个

浏览 3提问于2010-12-23得票数 0

回答已采纳

3回答

高效网络爬虫的语言建议

、、、

我正在寻找一种语言来编写一个高效的网络爬虫。我所看重的东西：我试过node.js。

浏览 6提问于2010-12-03得票数 2

2回答

如何在Python中使用二级代理设置？

、

我正在使用python进行网络爬虫的工作。例如，假设我在server-1之后，我使用代理设置来连接到外部世界。因此，在Python中，我可以使用代理处理程序来获取urls。现在的问题是，我正在建立一个爬虫，所以我不能只使用一个IP，否则我将被阻止。为了解决这个问题，我有一堆代理，我想拖着走过去。

浏览 7提问于2011-04-20得票数 7

1回答