linux网站抓取 - 腾讯云开发者社区

我们使用phantomjs来截取各种网页的屏幕截图，url是由node.js服务器中的客户端发送的，这反过来又会产生phantomjs来截取屏幕截图并发送base64图像。理想的做法是创建多个phantomjs worker来完成这项工作吗？如果有5个客户端请求，则会有5个衍生进程。我已经将数量限制为5，而不考虑客户端请求的数量。但是，5个衍生进程是否也会将其推送到服务器上？

浏览 1提问于2015-11-30得票数 1

1回答

我可以在没有监视器的情况下使用Watir从linux服务器上的网站抓取数据吗？

、、

我可以使用Watir从没有监视器的linux服务器上的网站(使用AJAX)抓取数据吗？(linode.com)？

浏览 3提问于2010-10-05得票数 5

回答已采纳

3回答

获取完整站点克隆

、、、、

有没有办法抓取一个网站，让它下载每个单独的文件，并使其成为相对的？我有一个有很多绝对url的网站，当我使用wget时，它只下载index.html页面，不会得到绝对url的文件，也不会把它们变成相对链接。这个是可能的吗？谢谢。

浏览 1提问于2011-04-09得票数 0

4回答

我想从一个网站上有TextFields，按钮等抓取数据。我的要求是填写文本字段并提交表单以获得结果，然后从结果页面中抓取数据点。(编辑) 我的要求是从ComboBoxes中选择值并单击search按钮，然后从结果页面中抓取数据点。附注:我正在使用selenium Firefox驱动程序从其他网站抓取数据，但这个解决方案并不好，因为selenium Firefox驱动程序依赖于Firefox的EXE，即在运行刮板之前必须安

浏览 1提问于2013-05-28得票数 8

回答已采纳

1回答

在抓取中使用随机用户代理与代理？

、、

我最近在做网络抓取。我发现我们可以使用代理或随机的用户代理来远离防刮检测。因为当我理解这两者都用于隐藏原始客户端请求标识时，我感到很困惑。

浏览 5提问于2016-08-11得票数 4

1回答

处理javascript生成的动态HTML的Ruby on Rails库的最佳web抓取

、、、、

我正在使用Ruby on Rails和机械化库来抓取商店网站。问题是很多时候我不能抓取某些元素。然而，当我在网站上“查看源代码”时，我可以看到这一点。我也在亚马逊EC2上使用linux机器。安装用于UI抓取的浏览器将会很困难。有没有什么Rails gem/plugin可以帮助我？谢谢大家！！

浏览 0提问于2011-12-13得票数 2

回答已采纳

1回答

Requests模块405客户端错误，as urllib3工作正常

、、

无法使用requests模块获取数据。 import requestsresp.status_code 下面的代码运行良好。 import urllib3r = http.request('GET', 'https://www.embassy-worldwide.com/') r.status 要使requests.get命令正常工作，是否需要在该命令中设置一些参数？

浏览 7提问于2020-07-17得票数 0

回答已采纳

1回答

用卷曲命令在网站上数单词

、、

我在网站上数单词很有趣，我需要数一数一个单词在https网站的主页上出现了多少次，并且我使用了几个curl和grep命令，但是结果并不准确: curl -静默的 \ grep -c -c hello curl

浏览 5提问于2022-04-23得票数 -2

1回答

网络抓取是安全的吗？

我正在为Alexa世界排名第一的网站进行网络抓取和数据挖掘。我不认为使用一个像样的抓取/ web请求库来进行网络抓取是安全上的问题，这也是第一次对这么大的URL列表进行web抓取，我很惊讶我通过这个程序受到了攻击。对这样一个随机的大

浏览 0提问于2020-12-26得票数 0

3回答

从网站抓取文件到自动同步数据

、、、、

我想抓取一个文件(excel文件)每周，因为在excel文件中的数据不断变化，例如，excel文件出租车计程车信息。它会在网站上不断的变化，从我抓取的地方。我正在用C#构建一个应用程序，并将其发布到商店，该商店可以抓取该文件并保存它。从该excel文件中，我计划创建一个api，例如getCabNames()、getCabNum()等。因为它将是一个应用程序已经在商店，我的代码必须足够有效的抓取文件从网站，并使它自动同步。在我的本地计算机上的linux系统上，我可以有一个

浏览 0提问于2014-05-03得票数 1

回答已采纳

1回答

无法在MacOSXLion10.7.5上执行二进制文件

、、、、

命令: PhyloCon-v3.linux谁能告诉我怎么解决这个问题吗？

浏览 0提问于2013-02-21得票数 0

1回答

如何使用AJAX测试我在Google上的爬虫能力？

、

我创建了我的网站，所以映射到使用PHP，所以我的网站将显然是谷歌爬虫。我已经用Google Fetch测试过了，它似乎可以工作。然而，我尝试过测试我的网站的所有其他非谷歌蜘蛛都不能使用使用_escaped_fragment_的谷歌技术。我想要确保当谷歌蜘蛛访问site.com时，它会看到x，

浏览 0提问于2011-07-30得票数 1

回答已采纳

3回答

抓取-抓取和抓取网站

、、

作为学习使用Scrapy的一部分，我曾尝试爬取亚马逊，但在抓取数据时出现了一个问题。

浏览 4提问于2013-02-25得票数 2

回答已采纳

2回答

Selenium:从Python中的<script type>标记获取可变数据

、、

所以我试着用selenium从一个网站上抓取数据，因为selenium和web抓取仍然是新的，我被卡住了。我想刮一下<script type>标签下的一些数据，标签如下所示：...import webdriver driver = webdriver.Chrome('/home/slothfulwave612/chromedriver_linux64www.example.com') ## not the ac

浏览 0提问于2020-08-19得票数 4

回答已采纳

2回答

Python requests.get仅在我未指定页码时响应

、、

我正在用python抓取web数据，使用的是请求和漂亮的汤。我发现我抓取的网站中有2个只有在我没有指定页码的情况下才会响应。编辑:我在隐姓埋名中手动打开了这个网站。似乎当打开页码时，我得到一个“访问被拒绝”的响应，但是如果我刷新页面，它允许我进入吗？

浏览 3提问于2021-06-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

保存网站，在浏览器中打开保存的.htm文件，编辑其css/html，查看实时更改

HTTP错误999:请求被拒绝

使用Linux wget标签抓取网站

在Python中连接到Google Firestore时出现SSL错误

CURL不返回整个html源代码

从node.js派生多个phantomjs worker是理想的吗？

我可以在没有监视器的情况下使用Watir从linux服务器上的网站抓取数据吗？

获取完整站点克隆

使用Scrapy进行Python数据抓取

在抓取中使用随机用户代理与代理？

处理javascript生成的动态HTML的Ruby on Rails库的最佳web抓取

Requests模块405客户端错误，as urllib3工作正常

用卷曲命令在网站上数单词

网络抓取是安全的吗？

从网站抓取文件到自动同步数据

无法在MacOSXLion10.7.5上执行二进制文件

如何使用AJAX测试我在Google上的爬虫能力？

抓取-抓取和抓取网站

Selenium:从Python中的<script type>标记获取可变数据

Python requests.get仅在我未指定页码时响应

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐