在Python中进行更高效的Web抓取？

文章/答案/技术大牛

发布

0回答

python、performance、web-scraping、python-requests

我有下面的代码，它成功地从nba.com中抓取了播放数据，然后将数据写入excel文件。它在少数几场比赛中效果很好，但当试图收集整个赛季的数据时，它会变得令人难以置信地慢。有没有什么我可以实现的，可以更有效地抓取数据？我知道这是整个赛季的500K+行数据，所以我不期望闪电般的速度，但如果有任何方法来改进我的代码，我肯定想学习如何改进。提前感谢大家的帮助！

浏览 9提问于2017-12-11得票数 1

1回答

Python高效的Web抓取？

python、web-scraping、urllib、finance、google-finance

我对Python相当陌生，我正试图为一个股票应用程序制作一个web解析器。实际上，我使用urllib为参数列表中的每个股票打开所需的网页，并读取该页面的html代码的全部内容。然后我把它切成薄片，以便找到我要找的报价。我已经实现了这个方法，但是我怀疑这是否是实现这个结果的最有效的方法。我花了一些时间研究其他更快地读取文件的潜在方法，但似乎没有一种方法与网络抓取有关。这是我的密码：

浏览 1提问于2017-09-12得票数 1

回答已采纳

1回答

高效的web抓取Python

python、html、pandas、web-scraping、beautifulsoup

你好，我是一个新的网络刮擦，并想刮一个网站与美丽肥皂。现在，我想知道如何编写高效的代码。这是一个自行车网站，他们有几辆自行车，每个自行车的特点，价格，状态，距离和持续时间。他们都有同样的阶级“产品-壮举”。什么是最有效的方法，把所有这些功能的熊猫数据？我特别问，因为所有的特性都有相同的类，循环对我来说是低效的。</p><sp

浏览 11提问于2021-04-11得票数 0

回答已采纳

1回答

最有效的语言来创建一个非常快的网络爬虫？

web-crawler

我正在创建一个新的网站，建议一个类别的链接。我需要快速扫描不同的网页。我应该使用哪种语言来创建一个高效的网络爬虫？

浏览 1提问于2014-02-19得票数 0

2回答

最适合用于图像爬行的开源、可扩展爬虫

language-agnostic、web-crawler

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。基本上，我们要建立Hadoop和抓取网络上的图像。然后，我们将根据Hadoop中的Map/Reduce工具，在HDFS中存储的图像上运行我们自己的索引软件。除了我们自己的索引之外，我们不会使用其他索引。哪种爬虫最适合抓取图像？哪种爬虫最适合分布式爬行系统，在这种系统<e

浏览 5提问于2009-07-28得票数 3

2回答

使用Bash脚本在python库上进行web抓取？

python、bash、curl、sed、web-scraping

我正在尝试从有经验的人那里获取更多的信息，一般来说，我正在使用Python库进行web抓取。与此同时，我注意到一些人正在使用simple Bash，并使用wget, curl, sed, grep, awk等命令进行web抓取。与使用Python库进行web抓取相比，这些命令在脚本编写方面似乎要干净得多。你对此有什么看法？您认为使用python

浏览 1提问于2017-03-03得票数 0

1回答

Python中的Web抓取

python、web-development、scraping

我需要学习高级python编程技能才能使用python进行web抓取吗？或者，我应该看一些关于网络抓取的教程，同时学习使用python。我对python没有任何经验，因为我是Laravel开发人员，这是我第一次在web抓取中做这样的工作。

浏览 0提问于2019-11-04得票数 -1

1回答

从网页中提取主题/关键字

python、web-scraping、keyword

我正在寻找一个系统，以提取主题或简单的关键字从一个网页，只有从指定的网页，没有跟随所包含的链接。要分析的页面属于不同的站点，特别是我想分析一个人在Facebook上共享的链接，并从这些页面中提取主题或简单的关键字。非常感谢。

浏览 5提问于2014-04-11得票数 0

2回答

在使用Python进行web抓取时，如何使用相同的连接？

python、webkit、screen-scraping

很可能会让我的IP被禁止。有人建议我使用WebKit (如Ghost.py )来抓取数据，但在浏览器中模拟打开的选项卡使连接保持打开状态。我对WebKit知之甚少，是否有人能为我确认Ghost.py能够重用相同的连接，或者是否有其他更好的建议。

浏览 1提问于2015-08-12得票数 1

回答已采纳

1回答

Python到PHP异步数据传输

php、python、asynchronous

我有一个建立一个网络刮擦工具的要求。抓取部分将在python中编码，结果将在PHP中显示。结果应该在PHP中异步显示，而python正在抓取页面。客户认为python是快速和更好的web抓取的选择。您认为混合python和php仍然会带来快速的结果吗?还是坚持使用php进行web抓取

浏览 3提问于2017-05-04得票数 1

回答已采纳

5回答

如何从其他网站获取数据？

python、database、parsing、web-scraping

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

2回答

动态获取urls的python抓取

python、web-crawler、web-scraping

我是数据抓取领域的新手，之前使用python进行web和桌面应用程序开发。我只是在想，如果有任何方法可以从页面中获取urls，然后查看它的具体信息，如电话号码，地址等。目前我使用的是BeautifulSoup和built方法，其中我将urls作为方法的一个参数。有什么建议可以让它变得更快、更自驱动吗？

浏览 1提问于2011-04-22得票数 2

回答已采纳

2回答

在Python上进行Web抓取

python、web-scraping

我需要在网站上下载POST请求的响应作为JSON文件。但是我对站点的请求返回了一个错误400。我的代码是：paramsemailAddresses':['xxx@x.ru']} headers = {'Vaar-Ve

浏览 1提问于2021-02-12得票数 0

1回答

托管在GAE上的应用程序能否到达我pc上的本地tomcat

rest、google-app-engine、tomcat

我在Google App Engine上部署了一个应用程序，在我的本地机器上托管了另一个tomcat应用程序。所以我的问题是，我们能否从托管在Google App Engine上的应用程序访问tomcat上的应用程序( App URL )。

浏览 0提问于2016-02-12得票数 0

1回答

用Laravel和Selenium进行Web抓取

php、laravel、selenium、web-scraping

我目前正在使用Python进行web抓取。我使用了Selenium和Beautifulsoup库来抓取。我最近知道Selenium适用于php/Laravel。我的问题是，我可以使用Laravel + Selenium web驱动程序抓取web吗？如果是，你能给我提供一些链接或存储库，以便我学习吗？我被迫在我的抓取工作中使用php/Laravel，因为他们说php很容易在

浏览 19提问于2019-11-19得票数 0

5回答

R的OAuth访问

r、oauth

我正在尝试使用R来获取一些需要OAuth身份验证的web数据。在CRAN和RSeek.org上搜索有关OAuth +R的信息没有提供任何信息。我正在考虑使用一些Python/Perl/Ruby来抓取数据，将其保存到文本文件中，然后使用R进行处理。我更喜欢完全使用R，但似乎OAuth是一个障碍。

浏览 1提问于2010-08-03得票数 19

回答已采纳

1回答

解析python中的html值

python、html、beautifulsoup

<=value=")(\d*)',str(y)) 但我认为应该有更直接的方法来通过解析器来做这件事，有人能帮上忙吗？

浏览 20提问于2020-12-15得票数 4

回答已采纳

3回答

基于Python的不规则字符串解析

python、django、string、parsing、web

我是python/django的新手，我正试着从我的抓取器中找出更有效的信息。目前，抓取器获取漫画书名列表，并将它们正确地划分为CSV列表，分为三个部分(发布日期、原始日期和标题)。然后我将当前日期和标题传递到数据库的不同部分，这是我在Loader脚本中所做的(将mm/dd/yy转换为yyyy-mm-dd，保存到"pub_date“列，标题转到" title”列)。<

浏览 0提问于2011-10-09得票数 2

1回答

Azure数据工厂查询

azure、azure-data-factory、azure-data-factory-2

案例：-有一个URL，我需要从下拉菜单中选择一个输入，从下拉列表中选择另一个输入来转换一些数据，再输入一个CSV格式的数据，然后单击提交按钮，输出是以CSV格式生成的，所以我需要通过ADF自动执行此过程我做了什么：-我正在使用web活动和复制活动，以加载URL数据使用POST方法到blob中。但我得到的输出是页面的完整HTTP响应。然而，我已经创建了用于映射的参数，但是work.what不是只获得这些参数来选择URL中的数据并仅获得所选值输出的

浏览 21提问于2020-03-21得票数 0

1回答

在Python* web抓取中不会对某些类进行抓取*

python、web-scraping、web-crawler

**这是一个韩国金融门户网站，显示名为"Kona i“的韩国公司的股票信息。我是个初学者，刚开始用Python学习web抓取。我试图用BS来计算这只股票的价格。在网页中，股票价格的标签和类别分别是em，"curPrice up“。所以我在选择器部分加上了"em.curPrice up“。当我把它打印出来的时候，结果却是一张空的清单。它有什么问题？

浏览 2提问于2018-09-12得票数 0

点击加载更多