在Python中下载大型数据集的最佳方式？_使用大型数据集实现大量表的最佳方式是什么_在python中逐行创建大型数据集 - 腾讯云开发者社区

、、、、

自2010年以来，我正在尝试使用Socrata下载纽约市311个呼叫的数据集。数据集有2200万行。我以前从未使用过API，也不确定下载此数据集的最佳方式-我在下面编写了一段代码来获取2000行数据块中的数据，但根据我的计算，这将需要10,000分钟，因为每2000行数据块需

浏览 15提问于2020-04-29得票数 1

1回答

从python调用进程

我正在从python中调用perl脚本。perl脚本从set服务器批量检索大型数据集，这需要时间。此perl脚本在循环中执行。它做得相当好，但在循环的最后一次运行期间，当脚本仍在下载时，它会执行python代码的其余部分。我想知道在python中调用另一个程序的最佳方式是什么，并且在运行perl脚本时，

浏览 0提问于2011-05-10得票数 0

1回答

Python中大型数据集的翻转图

、、、

python中绘制大型数据集翻转图的最佳且高效的方法。我有三个数据集，分别是5亿，3亿和1.5亿。我知道可以使用pyupset，但建议使用上面提到的大型数据集。

浏览 2提问于2018-06-22得票数 3

2回答

如何在python中使用大型数据集？

、、

为了进行培训，为了开始使用python进行机器学习和数据分析，我使用了一个非常小的数据集(20000行，600 of ) .But，因为几天后我决定更进一步，所以我已经下载了一个1Go的大数据集。我想做一些分析，并应用机器学习，所以我试着阅读csv文件与pyhton在木星笔记本和th文件仍在加载超过3个小时。因此，我想知道，当您必须使用大型数据集时，应该遵循哪些

浏览 0提问于2019-02-01得票数 2

3回答

将大型数据集放到amazon elastic map reduce上

、、

我想使用Amazon EMR处理一些大型数据集(25gb+，可以在互联网上下载)。与其将数据集下载到我自己的计算机上，然后重新上传到Amazon上，那么将数据集上传到Amazon上的最佳方法是什么？我是否要启动一个EC2实例，将数据集(使用wget)从该实例中下载到S3中，然后在运行EMR作业

浏览 1提问于2011-04-27得票数 1

回答已采纳

2回答

跨django数据库移动大型数据集

、、、、

将大型数据集从一个django数据库移动到另一个数据库的最佳方式是什么？我想在高级别(在django中)这样做，而不是在数据库级别。我所知道的所有现有工具(dumpdata/loaddata、序列化程序类、django扩展)都在内存中，所以它不能处理大型数据集。

浏览 0提问于2010-12-07得票数 3

回答已采纳

4回答

Adobe Air/Flex过滤大型数据集

、

嗨，我有一个Air应用程序，它可以下载大约100,000个对象的数据集，并将这些对象放入ArrayCollection中。提供这个大型数据集合<em

浏览 0提问于2009-09-30得票数 0

2回答

将大型数据集加载到MySQL表中

、、

我想开始修补大型政府数据集--特别是，我想与和合作。阳光基金会和响应政治中心提供这些数据集的供下载。是否有更好的方法将这些<e

浏览 11提问于2011-03-15得票数 2

回答已采纳

4回答

在SQL Server中存储大型数据集的最佳方式？

、、、

我有一个数据集，其中包含一个字符串关键字字段和多达50个与该信息关联的关键字。一旦数据被插入到数据库中，就会有很少的写入(插入)，但主要是对一个或多个关键字的查询。我读过"“，它是基于MySQL的，2NF似乎是实现这一点的一个好方法，但是我想知道是否有人有使用SQL Server2008和非常大的数据集来实现这一点的经验。如果一种结构

浏览 0提问于2009-08-07得票数 2

回答已采纳

3回答

将大型数据集加载到Pandas Python中

、、

我想从InstaCart 加载大型.csv (340万行，206k用户)开源数据集基本上，我在将orders.csv加载到Pandas DataFrame时遇到了问题。我想学习将大文件加载到Pandas/Python中的最佳实践。

浏览 3提问于2017-06-14得票数 1

2回答

计算非常大且不断变化的数据集的最佳实践

、、、、

这不是一个应用引擎问题，就其本身而言...虽然我们的应用程序运行在App-Engine上的Python中，但对数据存储使用NDB。因此，问题是如何在分布式系统中处理大型数据集。我们有一个不断增长的数据集，我们需要计算统计数据(计数、总和等)。我们有以不同的方式成功做到这一点的系统，以便随着事物的</em

浏览 0提问于2015-10-23得票数 0

1回答

如何使用Pandas替换含义相同的数据字符串(但类型不同)，并将数字中的次要数字转换为主要字符串

、、、

例如, 我有一个包含许多属性的大型数据集。假设其中一列是具有20个标签的占领列。我们拿一个标签，一副轮机长。由于数据集是结构化的，并且由于数据收集方式的性质，对于职业来说，一号副工程师将以许多形式出现，例如"First Office Engineer“、”First Off. Engineer“。我的问题是，对于我来说，用Python将所有一副工程师(包

浏览 0提问于2020-09-22得票数 0

1回答

在python中处理大型数据集的最佳方法

、、、

我正在处理一个大型的财务数据集(现在是15 gb，以后将是200 gb)。使用它的最佳方式是什么？特别是，我想做一些统计测试，并使用毫秒数据生成一些图表。到目前为止，我已经使用sqlite3实现了易用性的抖动，但它似乎不能处理文件的大小。我正在使用PyCharm (不确定它是否有帮助)

浏览 0提问于2016-05-30得票数 2

1回答

不重复地从bigquery获取数据

、

使用Google的bigquery Python API，是否可以从大查询表(GCP)中批量获取数据，而不是重复(即，小批量下载大型数据集，而不是一次性下载所有数据)？例如，如果我有一个有1000万行的表，我是否可以运行10次数据获取迭代，其中在每次迭代中下载了100万个唯一行和新行，而没有重复(即，在所有10次迭代中，同一行只

浏览 1提问于2021-02-06得票数 0

1回答

包含地理位置数据的推文数据集

、、

我正在寻找一个有地理位置数据的推文的大型数据集(来自美国)。有没有这样的数据集？我在“信息黑猩猩”上看了看，但什么也没看到。如果不是，我自己生成这个数据集的最佳方式是什么？我是否应该只在我的本地机器(或者AWS?)上运行Twitter Streaming API，然后过滤并保存所有带有地理标

浏览 0提问于2011-01-07得票数 2

回答已采纳

2回答

在python中读取庞大的sas数据集

、、

我有一个50 gb的SAS数据集。我想在pandas dataframe中阅读它。快速读取sas数据集的最佳方法是什么？chunksize = 10000000)for chunk in df:df_final = pd.concat(dfs) 有没有更快的方法来读取python中的大型数据

浏览 1提问于2019-10-30得票数 2

1回答

如何迭代大型Pyspark Dataframe中列的不同值？.distinct().collect()引发大型任务警告

、

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。['a', 'b', 'c']) # This code produces this warning 如何在不遇到内存问题的情况下迭代大型Py

浏览 1提问于2020-01-14得票数 1

1回答

如何从amazon AWS下载数据集

、、

我正在尝试获取大约1 1GB的大型数据集，我主要发现这些大型数据集位于亚马逊web服务(如 )中，并声明数据可用现在我正在尝试下载这些数据为此，我在AWS中创建了我的虚拟机。如何将这2 gb数据</em

浏览 0提问于2017-02-06得票数 1

2回答

从CSV计算大型数据集

、、、

假设我有一个包含大型数据集的csv文件。这个csv文件是从DB创建的，也就是说，它本质上是一个表。迭代此csv文件并计算平均值或总和或使用Python进行常规计算的最佳方法是什么？例如: csv文件有一个用户id以及与之相关的金额和日期。现在我需要计算每个用户每月的花费。请注意，userid不是主键，用户可能已经购买了应该如何加载数据，使用pandas还是其他任何方式？

浏览 1提问于2016-08-28得票数 0

1回答

内存、磁盘和数据库获取的数据

、

假设我要从一个关系数据库中提取一个大型数据集。但是，我不想填满超过100MB的内存(这是一个任意的限制)。此外，我还想对此数据集执行某些操作。通常，在python这样的语言中，我只会将所有获取的数据放在内存中。但我想避免这种情况。因此，我可能不得不引入一个中间步骤，将查询的数据写入磁盘，然后逐个块地处理它们。处

浏览 0提问于2011-12-13得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云