如何使用Pandas访问N块？

、、

我相信你们中的大多数人可能会发现这是基本的，但不知何故，我发现理解在pandas中访问特定块并稍后添加它的方式非常令人困惑。我知道要追加集合，但我不知道如何根据块来识别数据例如，假设我的表有36000条记录，我将其分块到1200点，现在我只想访问第三个块。如何在熊猫身上实现这一点？

浏览 9提问于2020-08-22得票数 0

1回答

Pandas read_hdf:使用分块大小或迭代器时如何获取列名？

、、、、

我正在用pandas.read_hdf读入一个很大的(大约10 GB) hdf5表。我使用iterator=True，这样我就可以一次访问块(例如，一次访问chunksize=100000行)。如何获取所有列名或“键”的列表？另外，为什么没有类似于pandas.read_table的get_chunk方法呢？直接迭代数据块是唯一的方法("for chunk in data：")，而且你不能随意访问不同编号的数据<

浏览 6提问于2017-12-28得票数 3

回答已采纳

1回答

如何访问拆分数据文件中的元素和片？

我有一个dataframe，我把它分割成相同的块，但是我不知道如何访问这些信息。我正在考虑进行交叉验证，但不知道如何分割/处理拆分的数据集。import numpy as np N = 5 df = np.array_split(df,

浏览 2提问于2022-04-13得票数 0

1回答

如何快速高效地读取Pandas中的html表？

、、、、

阅读大熊猫中的html表是可以的，但是在10 me或大约10000行/记录的范围内的大文件让我等待了10分钟，仍然没有进展，在csv中同样的文件被快速解析。file='testfile.html'#print(dfdefault)

浏览 1提问于2019-05-02得票数 0

1回答

使用Python Pandas以块形式访问数据

、、、

我试图检索列的值(例如，第二列)，并使用numpy迭代地处理它。我正在尝试使用pandas.read_csv按块读取这个大文件。对于这个例子，让我们假设块大小是40。n_it = n_it+1 访问文件末尾时出现问题:当 Pandas试图读取比文件中包含的行数更大的行数时，会生成一个错误。但是，当我尝试访问块中的数据时，这是一个很好的方法，但是当我尝试访问数据块时

浏览 1提问于2016-05-11得票数 1

1回答

写到s3n: from Databricks给出了"PermissionError:匿名访问禁止此操作“

、

我在数据块中运行以下代码：df = pd.DataFrame( [ [1, 1, 1], [2, 2, 2] ], columns=['a', 'b', 'c'])df.to_csv('s3n://***/***/dummy.csv', index=False) PermissionError:此操作禁止匿名访问我有一个A

浏览 6提问于2022-03-18得票数 0

1回答

从生成器对象中过滤值

、

我有这个生成器类型的数据。----------它的值如下所示 print(x) field1 '2022060611121280041700000070046713963' field3 'NIL'我在想是否有可能把它转换成数据帧？我可能会创建一个脚本来循环记录的内容，但我希望有一个更干净的方法。

浏览 2提问于2022-06-09得票数 1

回答已采纳

2回答

获取/访问dask.dataframe的每个块(df、chunksize=100)

、、、

我使用下面的代码来使用dask来拆分一个数据文件：我使用下面的代码创建自定义的json文件： for我如何访问每个块？

浏览 3提问于2018-10-02得票数 0

回答已采纳

1回答

通过分块将CSV文件读取到Pandas Dataframe中，从而生成单个目标数据帧

、、、

我需要在Pandas中将一个4 4GB的大文件作为csv读取到数据帧中。下面是我当前的代码： source_data_df = pd.read_csv(temp_file, skipinitialspace=True, dtype=str, na_values=['N.A.我知道我可以使用chunksize Pandas选项来减少内存占用，并在将数据保存到磁盘之前处理数据块。在将csv文件保存到磁盘之前，我不知道如何使用块中的csv文件中的所

浏览 17提问于2021-01-13得票数 0

1回答

将熊猫时间序列切成n个月块

、、、、

鉴于熊猫系列按日期编制索引，我需要将该系列分割成n个月的块。下面的代码将数据分割成12个月的块。如何将其概括成n个月的块？# Create a pandas series indexed by dateimport numpy as np dates = pd.date_range

浏览 3提问于2015-06-28得票数 1

回答已采纳

1回答

土生大熊猫select_as_multiple

、、

假设我有一个块稀疏的DataFrame。我的意思是，有几组行具有不相交的非空列集。存储这个巨大的表将在值中使用更多的内存(nan填充)，并将表解压到行将创建一个大型索引(至少在保存到磁盘时是这样的.我不完全清楚是否有一些有效的MultiIndexing应该正在进行)。通常，我将块作为单独的DataFrames存储在一个dict或list中(删除nan列)，并创建一个具有与DataFrame几乎相同的api的类，“手动”将查询传递给块并连接结果。)) for x in randint(0, 26, m*n)

浏览 0提问于2013-09-22得票数 0

1回答

将数据分割成块

、

也许这个问题很简单，但我正试图找到一种方法，以一种自动的方式，假设我有一个数据框架，我想把它分割成块，并使用基于块的名称保存它们。我设法解决了如何分裂，但我如何能够保存在.cvs中使用名称data_1，data_2等.PS。我只需要块，所以我这里不使用滑雪板的方法。import numpy as npdf = pd.DataFrame({ 'x_values':np.random.r

浏览 5提问于2020-03-24得票数 1

回答已采纳

2回答

如何使用Python将一个excel拆分为具有公共行数分布的多个excel？

、、、、

在n_partitions中，如果我将数字放在5，那么它将在两个excel中创建5行，然后继续创建另外三个空白excel。我希望在所有行被分发之后，我的代码停止创建更多的excel。我目前使用的是is代码。import pandas as pd sub_df = df.i

浏览 2提问于2022-08-27得票数 1

回答已采纳

1回答

如何使用熊猫将大型csv文件转储到表中？

、、、

通常情况下，我使用csv将table转换为pandas。import pandas as pddf = pd.read_csv现在，由于我的文件非常大，pandas无法在data frame中加载它。因此，我在网上查找了一个解决方案，该解决方案讨论了如何在块中加载data并执行操作。file_pat

浏览 1提问于2020-04-23得票数 1

回答已采纳

2回答

大熊猫参考"/“栏

、、、

我只想查看访问过的特定区域的数据。对于在电子表格中标记为“访问(Y/N)”的访问列，我得到以下错误：这是我正在使用的代码如何让python将“访问(Y/N)”解释为一栏？import pandas as pd df=pd.read_excel("

浏览 4提问于2016-12-02得票数 1

回答已采纳

2回答

如何为pyspark.pandas使用ODBC连接

、、、、

在下面的python代码中，我可以使用ODBC连接成功地连接到MS Azure SQL Db，并且可以使用熊猫的dataframe方法将数据加载到Azure表中。但是，当我使用pyspark.pandas时，to_sql(...)方法会失败，说明不支持这样的方法。我知道火场上的熊猫API已经达到了97%的覆盖率。但我想知道是否有其他方法可以在仍然使用ODBC的情况下实现相同的目标。问题：在下面的代码示例中，如何使用pyspark.pandas的ODB

浏览 4提问于2022-04-22得票数 0

1回答

如何在连接不同的df时制作熊猫的3级多色

我有两个主要的模块来构建pandas数据框架。一个块非常简单，而另一个块是由几个熊猫数据帧构建的，这些数据帧都是一样的。在最后，我想将它们连接起来，并有一个三个多色级别的标题。让我添加一个示例 import pandas as pd df_1 = pd.DataFrame(data=[["v1", "v2", "v3"], ["v4", "v5", "v6"]], columns", "

浏览 7提问于2020-04-16得票数 1

回答已采纳

1回答

在pandas系列数据中，如何根据函数返回的数据获取键？

、

此数据被传递给pandas Series()。函数startswith("\n")用于返回每个字符串的布尔值True或False，以确定它是否以\n (空行)开头。我目前使用一个计数器i和一个条件语句来迭代和匹配startswith()函数返回的位置。import pandas as pdf = open('list-of-strings.txt','r')for line in f

浏览 1提问于2018-05-01得票数 1

1回答

如何将pd.read_table与StringIO文件对象结合使用？

、

无论如何，我想把一个表写到一个StringIO文件对象中，然后用read_table方法在pandas中打开这个StringIO文件对象，但是我得到了EmptyDataError: No columns我将要写入的文件太大，无法存储在内存中，所以我想以块的形式读取它。使用StringIO作为测试示例。使用Python 3.5.1 btwimport pandas as pd #StringIO to

浏览 3提问于2016-05-17得票数 2

回答已采纳

3回答

使用Python将大型CSV文件转换为excel的内存问题

、

我正在尝试使用python将一个大型~100 using文件转换为xlsx。我尝试了下面的解决方案，但是遇到了内存问题。下面的解决方案通过块写入来解决内存问题，但是过写文件.请有人推荐如何添加到同一个文件，而不是创建新的文件或覆盖相同的文件？import pandas as pd df = pd.read_csv("myFile.csv") for i in range(0, df.shape[0], <em

浏览 7提问于2022-11-04得票数 0

点击加载更多