如何在python抓取过程中高效解析大列表数据？

文章/答案/技术大牛

发布

1回答

python、list、numpy、parsing、screen-scraping

我目前正在做一个数据抓取项目，它需要我在每个循环中加载和保存我的数据。你可能想知道我为什么要这么做？好吧，在我没有在每次循环之间加载和保存数据的情况下抓取之前，如果脚本在最后一次迭代之前崩溃(由于超时，奇怪的URL或任何你能想象到的东西，每次都会发生)，我就会丢失所有的数据。FOUND_DATA.append(NEW_DATA) np.save("some_directory/FOUND_DATA.npy", LOT_DATA) 我相信一定有

浏览 15提问于2020-04-04得票数 0

1回答

从javascript生成的网格中抓取

python、selenium

我试着用Python语言做一个项目，它需要来自的金属乐队的完整列表。问题是，当你访问任何字母时，你不会得到完整的列表，而只是最多500个波段的一大块(我只需要他们的urls )。要获得下一个块，你应该点击一个按钮，而我既不知道如何在代码中触发按钮，也不知道如何在它之后抓取数据。我在谷歌上搜索的是我应该使用selenium，但我不确定，也不能理解它的真正用途。此外，我尝试使用来抓取数据，但是，脚本似乎太旧了，不能正常工

浏览 1提问于2020-05-10得票数 0

1回答

python中的Regex字符串检索

python、regex、string

如何在python中解析这个正则表达式？ regex2 = re.findall('-in-([A-Za-z-]+),-([A-Z]{2})',str(job.url))[0] 这里我得到了两个元组，如(‘亚特兰大’，'GA')，而不是需要得到“亚特兰<em

浏览 1提问于2012-04-27得票数 0

3回答

如何通过python解析/提取mediawiki标记的文章中的数据

python、api、parsing、mediawiki、extraction

现在，我正在使用各种regexes将mediawiki标记中的数据“解析”到列表/字典中，以便可以使用本文中的元素。例如：这可以从API中完成，但我希望只有一个API调用减少带宽使用)。

浏览 4提问于2009-12-28得票数 12

回答已采纳

1回答

用于Python脚本的web GUI (Django)

jquery、python、django、user-interface

我有一个程序，从用户那里获取一个URL，抓取整个网站，并返回一个包含每个URL的解析数据的所有URL的列表。self.data_1 = "string_1" self.data_3 = "string_3"我想把这个程序作

浏览 1提问于2017-06-24得票数 1

回答已采纳

3回答

基于Python的不规则字符串解析

python、django、string、parsing、web

我是python/django的新手，我正试着从我的抓取器中找出更有效的信息。目前，抓取器获取漫画书名列表，并将它们正确地划分为CSV列表，分为三个部分(发布日期、原始日期和标题)。然后我将当前日期和标题传递到数据库的不同部分，这是我在Loader脚本中所做的(将mm/dd/yy转换为yyyy-mm-dd，保存到"pub_date“列，标题转到" title”列)。我不确定如何进行这种严格的解析。我如何高效</e

浏览 0提问于2011-10-09得票数 2

2回答

Python反向索引效率

python、performance、search-engine、inverted-index

我正在编写一些Python代码，以实现我最近学到的一些概念，这些概念与倒排索引/帖子列表有关。我对Python非常陌生，在某些情况下我很难理解它的效率。理论上，创建一组文档D的倒排索引(每个文档都具有唯一的ID doc_id )应该包括：解析/对D中的每个文档执行词法分析，删除停止词，执行词干等。5通常通过一个包含元数据(术语频率、字节偏移)的单词的字典和一个指向list列表的指针(发生在其中的文档列表)来执行。发布列表通常作为允

浏览 3提问于2012-03-02得票数 4

回答已采纳

2回答

如何解析JSON以获得Python中的特定值

python、json、object、pprint

请考虑下列数据： "-L0B6_KJJlhWIaV96b61" : {现在，如何在Python中解析这个JSON文件的名称和文本？我有这么大的数据集。如您所见，在本例中，对象是可变的，所以我不能简单地编写： pprint(data[o

浏览 1提问于2018-01-06得票数 2

回答已采纳

7回答

解释python生成器以获取长长的列表

python、oop、data-structures

我是一个新的python程序员，到目前为止，我所理解的是，“what”关键字返回一个对象，而不是生成器函数只返回生成器对象。因此，如果我有一个包含10K项的列表，我如何在不在列表中附加值的情况下制作智能的pythonic解决方案，并使其变大。这意味着，我将一些值附加到一个列表中，最后创建了一个大列表，如下所示： final_list = [] for i in range(0,10000):final_list.append

浏览 1提问于2012-05-15得票数 0

回答已采纳

2回答

Haskell的哪个XML解析器？

xml、haskell、parsing

我正在尝试编写一些应用程序，对存储在非常大的XML文件(从10到800MB)中的数据执行分析。每组数据都存储为单个标签，具体数据指定为属性。我目前是来自HaXml的saxParse，在使用它的过程中，我对内存使用不满意。在解析15Mb的XML文件时，它消耗了超过1 1Gb的内存，尽管我尽量不将数据存储在列表中，并立即处理它。(extractAttrs "row")) 其中“proc”-过程，执行数据从属性到记录的转

浏览 0提问于2009-06-26得票数 10

回答已采纳

1回答

检查包是否从源树中导入

python、package、python-import

因此，我们希望检查用户是否在源树中运行import Foo，但是如何在支持Python3和2的情况下做到干净、高效和可靠？我们考虑了以下几点：创建一个仅存在于源树中的虚

浏览 1提问于2019-04-29得票数 10

2回答

SAS和Web数据

python、statistics、sas

我“从小到大”使用SPSS学习统计，随着他们最近决定将他们的统计引擎与R和Python集成在一起，我发现很难激发学习其他任何东西的愿望。我的Python不是很好，但我可以应付我想要完成的大多数任务。诚然，我确实看到了SAS的好处，但我已经学会了将SPSS和Python结合起来做一些相当酷的事情，比如从web上抓取数据并实时分析。您能否从web获取数据并将其解析为SAS数据集？这对我来说是个破坏交易的因素。如何与API接口，如<

浏览 1提问于2009-10-27得票数 1

回答已采纳

1回答

无法使用xpath找到img元素

python、html、selenium、web-scraping、xpath

有人能告诉我为什么下面的代码不会返回一个表情符号属性..。import timeimport re driver = Chrome()driver.get("https://twitter.com") time.slee

浏览 2提问于2022-08-16得票数 3

1回答

Python - ftplib -通用文件列表收集器

python、ftp、ftplib

我一直在做一个Python项目。主要目标是检索文件(名称和上次使用时间)。谢谢。

浏览 0提问于2020-10-27得票数 1

3回答

如何删除Python中两个双括号之间的文本

python、string、parsing、beautifulsoup、markdown

我正在进行一些标记，将其转换为html，然后在没有标记的情况下解析出文本，只给我留下一组清晰的字母数字字符。有没有人知道如何在Python中高效地实现一个解析器来清除这个问题呢？

浏览 3提问于2020-03-31得票数 1

回答已采纳

1回答

带有的Docker

python、docker、google-cloud-platform

我们希望使用Python查询gcr.io。图像存储在GCS中，但作为一个大的摘要列表，没有元数据。无法告诉回购或标签关于如何在Python中轻松地列出GC

浏览 0提问于2020-04-27得票数 3

回答已采纳

1回答

在mysql中运行大型查询

python、mysql、large-files、large-data

我需要抓取数据库中的行，其中包含匹配175,000项中任何一项的项，并将结果转换为csv文件(稍后我将使用python脚本解析和分析该文件)。脑海中浮现的一些问题是:您是否能够将这么大的项目列表输入到工作台sql查询中(内存不足，无法复制它)？网络会支持这么大的数据传输吗？其他我不知道的事？查询和获取大量数据的明智方法是什么？

浏览 1提问于2017-08-18得票数 2

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

python、beautifulsoup、scrapy、web-crawler

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

Haskell中满足条件的N个子集

algorithm、haskell、optimization、complexity-theory

我想写一个函数，它接受一个列表并返回满足给定条件的所有可能子集的列表。例如，我想拥有所有的3大小子集，1,2,3,4，但没有包含2和3的子集。但对于更大的问题，如kCombinations [1..30] 6，它需要很长时间才能完成。你能告诉我如何在生成所有组合的过程中过滤掉一些数据吗？

浏览 0提问于2014-12-14得票数 1

回答已采纳

2回答

用ATpy和numpy高效读取大文件？

python、numpy、scipy、large-files、astronomy

我尝试用ATpy读取非常大的文件，数据以numpy数组的形式出现。但是对于非常大的文件，计算机无法处理它。我认为在解析开始之前，所有的数据都会存储在内存中，这对于2 2GB的文件是不可行的。那么，我可以使用什么来处理这些大文件呢？我看过很多帖子，人们将数据分成块，并使用for循环遍历每一行，但考虑到这些文件的性质以及我需要对这些数组执行的各种操作，我认为这在这里是行不通的。我是Python的新手，所以我喜欢清楚地表达出来的答案(即不依赖于大量的隐式编码知识)。必须有一种

浏览 0提问于2013-04-14得票数 1

回答已采纳

点击加载更多