如何在pandas DataFrame中找到每行的集合差异？_如何在Pandas DataFrame中找到非独占数据的长度_如何在pandas dataframe列中找到已知值的索引？ - 腾讯云开发者社区

python、pandas

在Pandas中，您可以使用来自另一个dataframe的数据更新数据。 X = pd.DataFrame({'a':[1,2,3,8],'b':[2,4,6,4]}) Y = pd.DataFrame({'b':[10,20,30,40],'c':[5,6,7,8]}) X.update(Y) a b 0 1 10 1 2 20 2 3 30 3 8 40 有没有办法做到这一点，以包括额外的列从Y？例如： X.update(Y) a b c 0 1 10 5 1 2 20 6 2

浏览 1提问于2015-01-28得票数 1

回答已采纳

1回答

熊猫:如何在一栏中计算方程

python、pandas

考虑下表： Obj Bits Eq Result A 5 5*Bits+20 45 B 10 7*Bits+8 78 C 11 12*Bits+100 232 我想要创建一个列结果，它计算列Eq中的表达式。这些方程不是固定的，每一行都会有变化。但是，方程中使用的变量将是dataframe中的一个或多个列名。我该怎么做才能做到这一点？我知道Pandas有eval方法，但在我的例子中，每行方程可能不同。谢谢你的建议。

浏览 4提问于2022-05-10得票数 0

回答已采纳

1回答

pandas中两列之间的所有非NaN元素对的新数据帧

python、pandas

尝试从DataFrame开始，其中每行都是源实体，列是一个或多个实体之间的关系类型，如下所示： import numpy as np import pandas as pd i = [['a', np.nan, np.nan, ['d', 'e']], ['b', 'f', np.nan, np.nan], ['c', np.nan, 'g', 'h']] inputs = pd.DataFrame(i, columns=['sourc

浏览 11提问于2021-11-01得票数 0

回答已采纳

1回答

如何在熊猫DataFrame中使用python集作为列标签？

python、pandas

当我试图在Pandas1.5中创建一个DataFrame时，我得到了错误ValueError: index cannot be a set。我试图像这样创建DataFrame： import pandas as pd df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=set(["a", "b", "c"]))

浏览 15提问于2022-09-19得票数 0

1回答

从Python中的Azure存储递归读取多个json文件

python、json、azure-blob-storage、azure-storage

我正在使用下面的代码从azure存储中读取多个json文件。 from azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient import json import json import pandas as pd from pandas import DataFrame from datetime import datetime import uuid connect_str = "" blob_service_client = BlobServiceClient.from_connec

浏览 3提问于2022-07-13得票数 0

回答已采纳

2回答

Python-将隐藏在列表中的字典转换为DataFrame

python、json、pandas、list、dictionary

对于被识别为列表的字典，我在使用JSON中的normalize时遇到了问题。目标是从yahoo_finance创建数据框。 from yahoofinancials import YahooFinancials import pandas as pd from pandas.io.json import json_normalize ticker = 'AAPL' yahoo_financials = YahooFinancials(ticker) balance_sheet_data_qt = yahoo_financials.get_financial_stmts(&#

浏览 36提问于2019-02-21得票数 1

1回答

根据时间列中两个值之间的差异，将数据帧中的每行重复N次

python、pandas、dataframe

这里的时间分辨率是1秒，我想把它转换成10毫秒 ? 我想将该表中的时间分辨率从1s更改为10ms，方法是减去每行之间的时间差，乘以100，然后用该数字复制每行。例如: Rown将重复时间((n+1)-n)*100 当Time=2秒(第三行)时，我们有一些值组合将保持不变，直到下一行，时间=22秒(第四行)，因此这里的时间差= 20秒，基于此，我希望重复(第三行) (20*100) Row2将重复(22-2)*100 import pandas import pandas as pd # Dataframe from Excel sheet excel_data_Outputs_df =

浏览 36提问于2020-09-20得票数 1

回答已采纳

8回答

如何计算Pandas dataframe中每行缺失值的数量？

python、pandas

如何获得Pandas dataframe中每行中缺失值的数目。我希望将dataframe拆分为不同的数据格式，它们在每一行中都有相同数量的缺失值。有什么建议吗？

浏览 0提问于2016-07-07得票数 31

回答已采纳

1回答

如何在pandas数据帧中拆分和合并

python、pandas

我有一个数据框架，比如： df = pd.DataFrame({ "from": ["'a','b'",'c','p,d'], "to": ["m",'tom','sky'], 'other':[1,2,3] }) 我想拆分from列的每一行，以便每行只包含一个项目。用熊猫的方式怎么做，让我获得如下？ df = pd.DataFrame({ "from": ["&

浏览 8提问于2021-04-23得票数 1

回答已采纳

1回答

使用Apache光束`GroupByKey`，构造一个新的列-- Python

python、json、csv、apache-beam、apache-beam-io

通过这个问题：How to group data and construct a new column - python pandas?，我知道了如何使用pandas对多列进行分组并构造一个新的唯一id，但是如果我想在Python中使用Apache beam来实现该问题中描述的相同功能，我如何实现它，然后将新数据写入换行符分隔的JSON格式文件(每行都是一个unique_id，其中包含属于该unique_id的对象数组)？假设数据集存储在csv文件中。我是Apache beam的新手，这是我现在所拥有的： import pandas import apache_beam as beam

浏览 14提问于2021-08-15得票数 0

回答已采纳

4回答

如何在熊猫数据中实现阵列的扁平

python、pandas、series、flatten

假设我有一只熊猫数据，比如 df_p = pd.DataFrame( {'name_array': [[20130101, 320903902, 239032902], [20130101, 3253453, 239032902], [65756, 4342452, 32425432523]], 'name': ['a', 'a', 'c']} ) 我想提取包含每行扁平数组的系列，而则保留顺序。预期的结果是一个pandas.core.series.Series

浏览 1提问于2019-03-12得票数 3

回答已采纳

2回答

数据熊猫每行地形图

python-3.x、pandas、dataframe、matplotlib

我有一个很大的Pandas数据，有很多列，我需要绘制一张每行的图表。现在，我的代码中包含了以下内容： import pandas as pd import numpy as np import matplotlib.pyplot as plt [...] df = pd.DataFrame() # DataFrame with 13 columns for index,row in df.iterrows(): df2 = pd.DataFrame(row) plt.set_title(row) plt.bar(df2) plt.savefig('

浏览 2提问于2020-03-18得票数 0

回答已采纳

1回答

从对象列表创建pandas DataFrame并对这些对象进行操作

python、pandas

我有一个包含5个矩阵的列表： import numpy as np import pandas as pd a=[(np.random.randint(2,size=(2,3))) for i in xrange(5)] 如何创建包含5条记录的pandas DataFrame，每行只有一列包含一个矩阵？

浏览 8提问于2017-07-02得票数 0

回答已采纳

2回答

AttributeError：“”DataFrame“”对象没有属性“”_data“”

python、apache-spark、pyspark、databricks、azure-databricks

在pandas dataframe上并行化时Azure Databricks执行错误。代码能够创建RDD，但在执行.collect()时中断设置： import pandas as pd # initialize list of lists data = [['tom', 10], ['nick', 15], ['juli', 14]] # Create the pandas DataFrame my_df = pd.DataFrame(data, columns = ['Name', 'Age']

浏览 1052提问于2020-12-28得票数 5

2回答

对Pandas DataFrame中的两列应用特定函数

python、pandas

我有一个包含两列的Pandas DataFrame，每行包含一个元素列表。我正在尝试使用pandas.apply方法找出每行两列之间的集合差异。以我的df为例 A B 0 ['a','b','c'] ['a'] 1 ['e', 'f', 'g'] ['f', 'g'] 所以它应该看起来像这样： df.apply(set_diff_func, axis=1) 我想要实现的是：

浏览 61提问于2019-04-05得票数 0

回答已采纳

1回答

Python Pandas识别错误数据

python、pandas、csv

我有一个用逗号分隔的csv文件，每行有215列。文件非常大，我使用pandas dataframe pd.read_csv()和块来读取数据。文件中的一行有214列，而不是215列，但dataframe读取数据时将NaN应用于最后一列。有没有办法在pandas dataframe中标识此行，因为我更喜欢dataframe而不是csv_reader。注意:最后一列也可以为null，因此按等于null的最后一列过滤数据帧将不起作用

浏览 19提问于2020-09-30得票数 0

2回答

如何在潘达斯中有效地展开日期范围？

python、pandas

我有一个Pandas (attendance_records)。它包含了当地学校的出勤率记录。每行有4列: 1)缺席学生的姓名(姓名)，2)学生地址(地址)，3)缺勤的第一天(开始)，4)缺勤的最后一天(结束)。例如，一行可以是： Bobby 101 1st Street 9/1/2014 9/3/2014 这意味着鲍比在9/1和9/3 (包括在内)之间每天都缺席。我想把这张桌子展开如下： Bobby 101 1st Street 9/1/2014 Bobby 101 1st Street 9/2/2014 Bobby 101 1st Street 9/3/2014 到目前

浏览 0提问于2014-09-17得票数 4

回答已采纳

2回答

如何在Google Colab中查看完整行

python、google-colaboratory

我正在使用Google Colab python 3.x，我有一个如下所示的Dataframe。我想查看每行和每列上的所有单元格。我该怎么做呢？我尝试过pd.set_option('display.max_columns', 3000)，但它不起作用。 # importing pandas as pd import pandas as pd # dictionary of lists dict = {'name':["a1", "b2", "c2", "d3"], &

浏览 0提问于2020-02-01得票数 5

回答已采纳

1回答

将Pandas DataFrame传递给Scipy.optimize.curve_fit

python、pandas、scipy、mathematical-optimization、model-fitting

我想知道使用Scipy来适应Pandas DataFrame列的最佳方式。如果我有一个包含列(A，B，C，D和Z_real)的数据表(Pandas DataFrame)，其中Z依赖于A，B，C和D，我想要拟合每个系列行( DataFrame )的一个函数，该函数对Z (Z_pred)进行预测。要拟合的每个函数的签名是 func(series, param_1, param_2...) 其中，series是与DataFrame的每一行对应的Pandas Series。我使用Pandas Series，以便不同的函数可以使用不同的列组合。我尝试使用以下命令将DataFrame传递给scipy.

浏览 0提问于2016-02-06得票数 2

回答已采纳

1回答

'\n‘在循环时不使用line ()将file.write()发送到下一行

python、text-files

我的问题很简单(太简单了……)。我正在通过with打开一个新的文本文件，并试图将每一行从一个pandas.DataFrame写入该文件。具体来说，我试图将列条目放置在每行非常特定的字符位置，因为这是接收我的文件的人所需要的格式。 df在下面的代码中表示我的pandas.DataFrame。 with open(os.path.join(a_directory_var, 'folder/myfile.txt'), 'x') as file: for index, row in df.iterrows(): file.seek(1)

浏览 0提问于2018-09-13得票数 0

回答已采纳

1回答

ModuleNotFoundError:虽然我已经安装了它，但没有一个模块名为“熊猫”

python-3.x、pandas、visual-studio-code、jupyter-notebook

虽然我在虚拟环境中安装了熊猫，但它仍然显示了VScode .Even中的ModuleNotFoundError: No module named 'pandas'，但我正试图在朱庇特笔记本中运行一个python(3.9.0)代码。我尝试了python3 -m pip install pandas，它显示没有找到Python；运行时不需要从Microsoft安装参数，或者禁用设置>管理应用程序执行别名的快捷方式。我再次使用pip3 install pandas安装了熊猫，然后它显示出已经满足了.But的要求--我还在获取ModuleNotFoundError import

浏览 18提问于2022-06-12得票数 0

1回答

计算两个pandas列之间的向量的余弦相似度？

python-3.x、cosine-similarity

我有以下Pandas Dataframe，需要按行查找余弦相似度。但是我的代码返回一个值矩阵。 <code>A0</code> 我需要有一个额外的列和每行的余弦值的输出。

浏览 34提问于2019-08-22得票数 0

1回答

熊猫:从数据栏中计算相邻的差异

python、pandas、numpy

如何通过仅使用Pandas命令来计算名为'y'的dataframe列中相邻数字的差异？下面是一个示例，我首先将列'y'转换为numpy，然后使用np.diff。 import numpy as np import pandas as pd np.random.seed(10) df = pd.DataFrame(np.random.randint(0,10,size=(10,2)),columns=['x', 'y']) y=df['y'].values diff_y=np.diff(y) print(

浏览 1提问于2022-02-25得票数 0

回答已采纳

2回答

如何在Python3.7中将未知.XLS文件的名称转换为变量

python、excel、python-3.x、pandas、filenames

我使用的是Python 3.7。每次将excel文件(.xls)下载到特定的下载文件夹位置时，都必须下载该文件，该文件具有唯一的文件名。然后使用Python和Pandas，我必须打开excel文件并将其读取/转换为数据帧。我想自动化这个过程，但我在告诉Python获取XLS文件的全名作为变量时遇到了问题，然后pandas将使用该变量： # add dependencies and set location for downloads folder import os import glob import pandas as pd download_dir = '/Users/

浏览 1提问于2018-10-31得票数 1

2回答

Pandas:如何从excel文件中读取DataFrame文件，其中多行有时用换行符分隔(\n)

python、excel、pandas、dataframe、parsing

我正在尝试用pandas读取一些excel文件。在某些文件中，感兴趣的表的格式不是很好，即多行被格式化为单行，但每行都有多行。因此，当您查看excel文件时，数据显示得很好。此外，当使用pandas解析它时，每行的末尾确实有一个换行符(\n)。问题是，当我使用read_excel()函数读取它时，它将它转换成一个DataFrame，它不将换行符视为单独的行，而是将其放入包含\n的一行中。我想写一段代码，将每一行都转换为N行(使用换行符作为新行的指示符)。在解析文件或在Python中对数据帧进行后处理时，有没有办法做到这一点？在这里，我提供了一个非常简单的版本我的虚拟excel文件和一些代

浏览 6提问于2019-04-11得票数 6

2回答

使用Python和Pandas的状态计算器

python、performance、pandas、numpy、dataframe

我正在练习Pandas，Lambda函数，并且面临着一项艰巨的任务。我已经有了一个“形式上”正确的解决方案，但效率绝对低下。这就是问题：我有一个类似如下的Pandas DataFrame df (在本文末尾生成此示例的代码)： id type 0 1003 G 1 1003 A 2 1002 T 3 1002 A 4 1001 A 5 1003 A 6 1002 G 7 1003 A 8 1001 T 9 1001 A 预期输出:每个不同的类型(A、C、G、T)都有一个新列，其中

浏览 58提问于2018-07-03得票数 -1

回答已采纳

1回答

我们如何在pandas和python中将一个函数应用于整个组？

python、pandas、dataframe

在python中，我们如何将一个函数应用于pandas dataframe中的整个组？这是我到目前为止所拥有的代码： df_grouped = df.groupby(['key1', 'key2']) result_with_bla = df_grouped.magic_apply(myfunc) 基本上，我想要一个在df_grouped的每个子组而不是每行上调用myfunc的magic_apply函数。这真的存在吗？

浏览 0提问于2013-12-11得票数 1

1回答

如何在Pandas函数中使用np.Vectorize()？

python、pandas、numpy、vectorization、apply

我有一个以Pandas DataFrame格式操作的函数。它适用于pandas.apply()，但不适用于np.Vectorize()。请查找以下功能： def AMTTL(inputData, amortization = []): rate = inputData['EIR'] payment = inputData['INSTALMENT'] amount = inputData['OUTSTANDING'] amortization = [amount] if amount - payment &l

浏览 17提问于2022-09-21得票数 0

1回答

如何在一个列表中显示所有数据，在jupyter笔记本中每一行显示一条数据

python、jupyter-notebook

我有一张数据列表： type(l) output: list type(l[0]) output: pandas.core.DatFrame 我想要dataframe.head(5)，但是在jupyter笔记本中每行都有一个数据。我能做到： for dataframe in l: print(daframe.head(3)) 但是我把所有的数据都放在同一条线上，读起来很不错。是否有更好的方法来显示所有数据，在jupyter中每一行一个？虚拟df： df=pd.DataFrame({'area':['lab','class_room'

浏览 18提问于2022-04-15得票数 0

1回答

连接一行中的多个列

python、pandas、concatenation

我用下面的代码制作了一个矩阵，并将某些数据存储在其中。 df = [] r = 5000 c = 50 for i in xrange(r): r = [''] * c table.append(r) 因此矩阵看起来如下： 0 1 2 3 4 5 6 7 ... 3 NaN Nestlé Africa Import 4 NaN Nutella Europe Report 201

浏览 4提问于2017-04-11得票数 1

3回答

用Pandas DataFrame计算每行的0个数？

python、pandas

给定一个DataFrame，我想计算每行的0个数。我怎么用Pandas来计算呢？这就是我目前所做的，它返回0的索引 def is_blank(x): return x == 0 indexer = train_df.applymap(is_blank)

浏览 3提问于2015-03-24得票数 28

回答已采纳

2回答

检查pandas dataframe列中是否有字符串列表

python、pandas、filter

我需要检查整个字符串列表是否都在一列中。这是我的代码： import pandas as pd frame=["foo", "abc", "story"] df = pd.DataFrame({'col1': ['foo abc', 'foobar abc', 'bar32', 'abc 45'], 'col2': ['story', 'epic', 'story', 'baz']})

浏览 20提问于2020-04-16得票数 0

回答已采纳

1回答

如何从pandas中不包含在另一列中的一列中获取id列表

python、pandas、list、dataframe、data-analysis

pandas dataframe有两列，这两列列出了需要获取id的id，s不包含在另一列中 id Column_1 Column_2 1 [1,2,5,7,9] [1,2,5,7] 2 [4,8,2,7] [4,8,2,7] 3 [5,7,2,9] [9] 4 [4,7,2,9] [3] I want to result like id Column_1 Column_2 result 1 [1,2,7] [1,2,5,7,9] [5,9] 2 [4,8,2,7] [4,8,2,7] [] 3 [5,7,2

浏览 25提问于2019-05-17得票数 1

1回答

取无遗漏日期的最大值

python、date、pandas、types、null

我有一个带有nan和date值的Pandas DataFrame (浮点和日期时间的混合)： import datetime import numpy as np import pandas as pd df = pd.DataFrame({"A": [np.nan, datetime.date(2016, 1, 2), np.nan], "B": [datetime.date(2016, 1, 1),

浏览 2提问于2016-11-16得票数 1

回答已采纳

1回答

包含列表的列条目上的Pandas .isin

python、pandas、dataframe

我尝试使用isin()函数过滤数据帧，方法是传入一个列表，并与也包含列表的dataframe列进行比较。这是下面问题的延伸： How to implement 'in' and 'not in' for Pandas dataframe 例如，现在每行包含一个国家/地区列表，而不是每行一个国家/地区。 df = pd.DataFrame({'countries':[['US', 'UK'], ['UK'], ['Germany', 'France'], ['

浏览 23提问于2019-08-22得票数 1

回答已采纳

1回答

遍历每一排熊猫的简单计算

python、pandas

如何使用计算过的列创建一个新的dataframe bigdf，该列迭代来自另一个df的每一行？我在新的dataframe bigdf中接收空行。 # Import pandas library import pandas as pd import numpy as np # DataFrame data = [['tom', 10], ['nick', 15], ['juli', 14]] df = pd.DataFrame(data, columns = ['Name', 'Age']) 遍历每一行，计算每

浏览 1提问于2021-06-16得票数 0

回答已采纳

2回答

熊猫数据-使用WildCards选择行

python、pandas

我是蟒蛇的新手。我的问题有点含糊不清。如果单元格中的任何字符串与特定通配符规则匹配，我希望从dataFrame中选择行。让我们假设这个例子：表到屏幕： df=pd.DataFrame({'Column':[ 'select rows in pandas DataFrame using comparisons against two columns', 'select rows from a DataFrame based on values in a column in pandas', 'use a list

浏览 5提问于2017-02-12得票数 2

回答已采纳

1回答

如何在函数开头的样式中呈现数据帧？

pandas

使用jupyter notebook，这段代码 import pandas as pd df = pd.DataFrame([[71,62,13], [75,76,77]], columns=list("ABC")) df 给出此样式的输出 ? 如果我把它放在一个函数中， def prepare(): import pandas as pd df = pd.DataFrame([[71,62,13], [75,76,77]], columns=list("ABC")) print(df) prepare() 我以这种方式获取数据

浏览 10提问于2021-07-10得票数 0

2回答

作为DataFrame列的Scipy稀疏矩阵

python、pandas、dataframe、scipy、sparse-matrix

我正在开发基于pandas DataFrame对象的工具。我希望将scipy稀疏矩阵保留为DataFrame的列，而不是将其按行转换为dtype('O')的列表/数值数组。下面的代码片段不起作用，因为pandas将矩阵视为标量，并建议添加索引。当在矩阵中的行索引上提供pd.RangeIndex时，矩阵将对数据帧中的每一行重复(因为pandas认为它是标量)。 ma = scipy.sparse.rand(10, 100, 0.1, 'csr', dtype=np.float64) df = pd.DataFrame(dict(X=ma)) 这是可行的： df

浏览 12提问于2016-09-12得票数 4

回答已采纳

4回答

如何才能发现熊猫数据在价值上首次出现显著差异？

python、pandas、numpy、dataframe

在Pandas DataFrame中，如何发现两个相邻索引的两个值之间第一次出现巨大差异？举个例子，如果我有一个DataFrame列A和data [1, 1.1, 1.2, 1.3, 1.4, 1.5, 7, 7.1, 7.2, 15, 15.1]，我想要索引容纳1.5，也就是5。在下面的代码中，它会给我包含7.2的索引，因为15 - 7.2 > 7 - 1.5。 idx = df['A'].diff().idxmax() - 1 我应该如何解决这个问题，从而得到第一个“大差异”发生的指数？

浏览 0提问于2020-07-20得票数 3

回答已采纳

1回答

如何根据某个时间段后不发生或确实发生的ID来过滤熊猫数据帧

python、pandas、datetime、filter、pandas-groupby

我有一个pandas Dataframe示例，尝试通过IDS创建经过一段时间后不会出现的过滤数据帧另外，如果可能的话，我知道我的要求太多了，DF有一个额外的列，按分组的IDS进行分组，其中包含true或false，这是发生或没有发生的 ID timestamp 0 x1 2015/09/27 09:10:30 1 x2 2015/10/11 05:10:30 2 x2 2015/12/20 11:10:30 3 x1 2015/11/17 01:10:30 4 x3 2015/09/09 17

浏览 0提问于2018-10-16得票数 0

1回答

如何在每个执行器节点收集火花数据？

spark-dataframe

我的应用程序读取一个大的parquet文件，并执行一些数据提取，以获得一个小型的spark对象。在计算的下一阶段，必须在每个executor节点上显示此数据的所有内容。我知道我可以通过收集广播来做到这一点，就像在这个火星雨片段中一样。 sc = pyspark.SparkContext() sqlc = HiveContext(sc) # --- register hive tables and generate spark dataframe spark_df = sqlc.sql('sql statement') # collect spark dataframe co

浏览 1提问于2016-04-20得票数 5

2回答

从Excel到datetime变量的日期字符串

python、dataframe、datetime

我正在使用pandas读入一个Excel文件，并将数据放入一个dataframe中。我尝试获取dataframe每行中的日期值，并将其转换为datetime对象，以便更改格式。数据框中的日期格式如下: 2020-07-28 00:00:00。我的最终目标是以不同的格式获取日期，并将其附加到我要从网站下载的文件名中。谢谢!

浏览 31提问于2020-09-12得票数 0

回答已采纳

1回答

Pandas:检测一个df和另一个df之间缺少的列

python、pandas、dataframe、assert

我有以下代码 import pandas as pd expected_df = pd.DataFrame({'One': [20], 'Two': [30], 'Three': [90]}) df = pd.DataFrame({'One': [20], 'Two': [30]}) assert expected_df.equals(df), 'Test Failed: df is missing column/s' # returns 'Test Failed: df is mi

浏览 0提问于2021-06-08得票数 0

1回答

Python中最有效的数据行操作工具是什么？

python、pandas、performance

我做了很多工作，需要跨行执行操作，使用行中其他列上该行列中的数据。最近，我不得不对120万行数据集(27列，300 Mb)进行一些处理，这些数据集需要对大约30万行进行逐行修改。有些事务被分割成多个记录，我想聚合它们。这包括用延迟删除将它们向上折叠，将5列相加，并在第6列上做加权平均值。一开始我尝试使用Pandas。熊猫花了12+几个小时跑到80,000排(我在办公室用的机器是垃圾)。我可能会看到，如果我删除行，它必须在每一行之后将300 Mb数组重新放置在内存中，但它甚至没有删除行，因为这是在结束时设置的。我通常看到，围绕Pandas的情绪似乎是“不要在dataframe的行上迭代

浏览 0提问于2021-05-13得票数 0

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

pandas、dask

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。 # data is a pandas dataframe dask_df = ddf.from_pandas(data, 30) data = data[dask_df[['length', 'country']].apply( lambda x: myfun

浏览 67提问于2019-10-04得票数 1

1回答

按ID对pandas行进行分组，为时间条目创建新列

python、pandas、dataframe、grouping

我有一个pandas dataframe，它有重复的I，因为每一行代表一个时间度量。 pd.DataFrame([[1, 2], [1, 3], [2, 6], [2,7]], columns=['id', 'colA']) 我希望以这样一种方式对其进行转换，即每行表示一个ID，并在新列中捕获数据的时间序列方面。即:我希望输出如下所示： pd.DataFrame([[1,2,3],[2,6,7]],columns=["id","colA_0","colA_1"]) 我该如何实现这一点？

浏览 0提问于2020-02-25得票数 0

1回答

为什么pandas.DataFrames上的简单操作要比numpy.ndarrays上的相同操作慢呢？

python、pandas、numpy、dataframe

为什么pandas.DataFrame的操作这么慢？！看下面的例子。计量：创建一个由随机浮点数填充的numpy.ndarray 创建一个用相同的填充的pandas.DataFrame I度量下列操作的时间 numpy.ndarray的 - Take the sum along the 0-axis - Take the sum along the 1-axis pandas.DataFrame的 - Take the sum along the 0-axis - Take the sum along the 1-axis pandas.DataFrame.values ->

浏览 5提问于2020-05-27得票数 4

1回答

为什么在Pandas.DataFrame上使用Pandas.DataFrame

pandas

什么时候应该在一列Pandas.Series上使用Pandas.DataFrame？我觉得单列dataframe提供了更多的灵活性，所以也许这只是一个什么时候这种灵活性可能会带来更大的伤害而不是好处的问题？有什么性能问题我应该考虑吗？

浏览 2提问于2014-06-23得票数 1

回答已采纳

1回答

将一列的值与另一列的值进行比较并合并

python、pandas、dataframe

我有两个数据，第一个dataframe包含来自给定位置的数据，第二个dataframe有带有坐标的数据以从第一个dataframe识别这些位置。我希望比较从第一个dataframe到第二个dataframe的县值的列值，然后在第一个dataframe的确切位置名称上附加坐标。以下是第一份数据文件： import pandas as pd boxes = {'ID': ['43001','43002','43003','43004','43005','43006','430

浏览 4提问于2022-05-20得票数 0

回答已采纳