在Pandas DataFrame中通过一个巨大的数据集“向后迭代”

、、

我知道，迭代在Pandas中是不可接受的，有很多更有效的方法可以做到这一点，但为了更好地理解，让我们坚持迭代。我有一个巨大的NetFlow数据库(它包含时间戳、源ip、目标ip、协议、源和目标端口，以及更多属性)。我想根据前面的行创建自定义属性。基本上，我想‘迭代’整个DataFrame，对于每一行，我想获得源IP，然后向后‘迭代</em

浏览 6提问于2020-09-29得票数 1

1回答

在azure ML中过滤TabularDataset

、、、、

我的数据集是巨大的。我正在使用Azure ML notebooks，并使用azureml.core读取日期集并转换为azureml.data.tabular_dataset.TabularDataset。无论如何，我会过滤tabularDataset中的数据，而不是转换为pandas数据帧。我使用下面的代码来读取数据。由于数据量巨大，pa

浏览 69提问于2021-01-06得票数 1

2回答

如何在多个条件下迭代多个数据集？

、、、、

我试图使用包含多个条件的计算来迭代多个数据集，但我会收到一条错误消息。我可以迭代多个列表，但它似乎不适用于数据格式。我已经将一个巨大的数据集(最初来自HDF5文件)划分为具有相同列的较小数据集，但用于不同的构建类型。现在，我想遍历每个数据集来进行相同的计算。计算也包括多个成文

浏览 1提问于2019-08-05得票数 0

回答已采纳

1回答

当追加多个列时，如何解释DataFrame*.assign(**kwargs)和dd[x]=y在Dask中的性能差异？*

、、、

在将一些代码从Pandas迁移到Dask时，我发现通过使用多列调用DataFrame.assign()来修改Dask数据帧与使用多个DataFrame.__setitem__() (也称为dataframe[x]=y)调用来修改它之间存在巨大的性能差异。使用导入对于定义如下的Dask数据帧： dd = dask.

浏览 3提问于2020-04-16得票数 0

2回答

基于多个条件查找行(列值大于)

、

我的问题是，如果有任何危急情况，我需要识别患者的"ID“。XT或Crea增加)在他们的血液样本中观察到。理想情况下，病人"ID“应该归入三个组中的一个，这三个组可以称为Bad_30、Bad_40和Bad_40。如果患者没有进入“坏”组，那么他们就是非危重患者 See answer

浏览 12提问于2019-08-23得票数 0

回答已采纳

1回答

Pandas和Pandas被证明可以一起工作吗？

、、、、

我面临许多问题，集成/添加Pandas现有代码的Pandas代码。2)如果我选择使用Pandas和pandas在同一代码中处理不同的数据集，当通过map调用的函数包含任何熊猫数据时，Pyspark转换(如map)似乎根本不起作用。我在Python中已有使用熊猫和numpy的代码，并且在</em

浏览 2提问于2017-12-26得票数 6

1回答

如果不存在列，则向dataframe追加空白行

、

我有几个巨大的CSV文件(GB大小)，我正在导入与pandas。这些CSV文件是由数据采集系统收集的数据转储，我不需要其中的大部分，所以我使用usecols参数过滤掉相关数据。问题是，并不是所有CSV文件都有我需要的所有列(所使用的数据系统的属性)。问题是，如果该列不存在于文件中，而是在usecols中指定，则read_csv将抛出一个

浏览 2提问于2017-03-30得票数 1

回答已采纳

1回答

星火mapInPandas中有多少迭代器？

、、、

Databricks博客中引用的例子是：import pandas as pd 问题是，<e

浏览 14提问于2021-02-06得票数 2

回答已采纳

1回答

如何将HDF5文件转换为Parquet文件？

、、、、

我已经通过pandas和pandas.HDFStore()将大约800 GB的巨大数据帧存储到HDF5中。import pandas as pddf = pd.Dataframe() # imagine the data being mungedinto a dataframe

浏览 15提问于2017-01-06得票数 0

1回答

如何将pandas数据帧列值转换为可迭代的集合？

、、

我需要将pandas dataframe列的逗号分隔的字符串值转换为可迭代的集合，该集合可以是列表或数组，因此我们可以对获得的值集进行迭代和操作。你可以通过下面的示例数据来理解它： ____________________________________________________ 0 | val1,

浏览 34提问于2019-03-18得票数 0

4回答

python -使用具有大csv(iterate和chunksize)的pandas结构

、、、

我有一个很大的csv文件，大约600mb，有1100万行，我想创建像透视图、直方图、图表等统计数据。显然，我只是想正常地读取它：不起作用，所以我在一个类似的帖子中找到了iterate和chunksize，所以我使用iterator=True, chunksize=1000)for chu

浏览 0提问于2015-11-11得票数 25

回答已采纳

2回答

如何将数据帧导出为循环中的CSV

、、

我正在分析一个10次迭代的循环中的一些数据，每次迭代代表一个数据集。我已经设法在每次迭代的末尾创建了一个包含pandas的数据框，现在我需要用不同的名称导出每个数据框。下面是代码的摘录。,data)) [stars,Rep_s] = (Frequen

浏览 10提问于2021-01-21得票数 0

回答已采纳

4回答

将Dataset对象转换为Pandas* DataFrame的最简单方法是什么？*

、、、、

Python 基于Sqlalchemy，并公开一个函数来返回名为all()的表中的所有记录。all()返回一个可迭代数据集对象。users = db['user'].all() print(user['age']) 数据集对象转换为Pandas DataFrame对象

浏览 0提问于2018-04-23得票数 0

回答已采纳

1回答

如何向初始空的pandas* Dataframe迭代添加行？*

、

我不得不迭代地向pandas DataFrame添加行，但我发现这很难实现。另外，在性能方面，我不确定这是否是最好的方法。因此，我会时不时地从服务器获取数据，而这个来自服务器的新数据集将成为我的pandas DataFrame中的新行。import pandas as pd df = pd.<e

浏览 10提问于2019-11-09得票数 0

回答已采纳

1回答

我有一个这样的数据帧： df_encoded.head() Time Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 ..., 5, 4] 10 13 5 4 [4, 6] [54, 47, 97, 98] [19, 5, 2, 1, 0, 7, 12, 11, 8, 10] [8, 0] 所有列中的数据类型都是我可以轻松地将列的类型从OBJECT更改为int或float，因为它们不是其中的任何列

浏览 13提问于2019-03-11得票数 0

3回答

pySpark将mapPartitions的结果转换为spark DataFrame

、、

我有一个作业需要在分区的spark数据帧上运行，该进程如下所示： rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartitions(lambda x: some_function(x)) 结果是pandas.dataframe的rdd， type(rdd) => pyspark.rdd.PipelinedRDD type(rdd.collect()[0]) => pandas.cor

浏览 124提问于2019-12-10得票数 4

回答已采纳

1回答

将熊猫按一栏或另一栏分类

、、、

id name rate1 1 name2 23 3 name3 30 [0, 1, 2] [name1, name2] [1, 2, 2] 1 [3]

浏览 0提问于2018-04-19得票数 2

回答已采纳

1回答

在类似Excel VLOOKUP的Python中使用部分字符串匹配进行合并

、、、、

我有两个数据集:Sales(针对公司名称)和Marketing(针对联系人和公司名称)。我希望将营销数据集中的公司名称与销售数据集中的公司名称进行匹配，即使(特别是)存在部分匹配。样本数据 sales_df = pd.DataFrame({'CompanyName': ['EDF', 'EDF Business', 'L'Oreal France', '

浏览 32提问于2021-08-23得票数 0

1回答

数据集工程Python Pandas

、、

我试图用Pandas包修改CSV数据集。我有一个“时间”栏(第5栏)，每天有51天和4K的记录。import pandas as pdimport random file_name我的想法是创建一个空的Pandas</em

浏览 1提问于2022-02-02得票数 -1

1回答

是否可以附加到现有的羽毛格式文件？

、、

我正在处理一个包含20条million+记录的非常庞大的数据集。我正试图将所有这些数据保存到羽毛格式中，以便更快地访问，并在继续进行分析时附加这些数据。有没有办法将熊猫的数据添加到现有的羽毛格式文件中？

浏览 0提问于2018-11-26得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在azure ML中过滤TabularDataset

如何在多个条件下迭代多个数据集？

当追加多个列时，如何解释DataFrame*.assign(**kwargs)和dd[x]=y在Dask中的性能差异？*

基于多个条件查找行(列值大于)

Pandas和Pandas被证明可以一起工作吗？

如果不存在列，则向dataframe追加空白行

星火mapInPandas中有多少迭代器？

如何将HDF5文件转换为Parquet文件？

如何将pandas数据帧列值转换为可迭代的集合？

python -使用具有大csv(iterate和chunksize)的pandas结构

如何将数据帧导出为循环中的CSV

将Dataset对象转换为Pandas* DataFrame的最简单方法是什么？*

如何向初始空的pandas* Dataframe迭代添加行？*

要在pandas数据框中浮动的对象

pySpark将mapPartitions的结果转换为spark DataFrame

将熊猫按一栏或另一栏分类

在类似Excel VLOOKUP的Python中使用部分字符串匹配进行合并

数据集工程Python Pandas

是否可以附加到现有的羽毛格式文件？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐