在Python Pandas中:如何在没有聚合的情况下将行重塑为列？_在没有聚合函数的情况下将行显示为列 - 腾讯云开发者社区

python、pandas

我已经使用编写器在python中创建了一个csv文件。我将这个csv文件称为“数据”，它由一列40行组成。然后，我在一个新的python脚本中导入这个csv文件，并创建一个dataframe。但是，在我的新数据框架中，我希望将这40个数据点分成4列，每列10行。到目前为止，我尝试了以下几点： data=pandas.read_csv("location/data.csv", header=None) frame=pandas.DataFrame(data[:10]) frame['second column']=data[10:20] 这

浏览 1提问于2017-12-01得票数 1

回答已采纳

1回答

使用regex按行过滤pandas数据帧

python、regex、pandas、dataframe

我相信可能会有一个简单的解决方案，但我对Python还很陌生。我有一个包含字符串和NaN值的Pandas DataFrame。在这个Dataframe中，我想搜索字符串的特殊部分。这应该逐行完成，找到的字符串将被写入与数据帧相同行数的列表中(这意味着如果我正在查找的部分字符串不能在行中匹配，则列表中的条目应为'none')。我尝试过：result.loc[result[0].str.contains("hello", na=False)]，但这只返回了第一列包含单词hello的行…… 我正在考虑在每一行中使用正则表达式进行for循环搜索： row = df.i

浏览 2提问于2019-02-25得票数 0

1回答

使用pandas和python根据单元格内容组合来自不同行的数据，并基于单元格值创建新列

python、pandas、pandas-groupby

我在csv文件中有数据，其中每一行都有一个名称，一个水果和与水果相关的数量。我想要的是将来自不同行的数据组合到一行中，其中与某个名称相关的水果的所有金额都在一行下。我很难找到一种合适的方法来读取水果列中的所有数据，并将这些水果值转换为单独的行。此外，必须将空值转换为零(但这可能很容易做到)。我正在使用python和pandas dataframe，但我对编码和pandas非常陌生，所以我不太熟悉这样做。这是我所拥有的数据的一个例子。 name, fruit, amount Mike, Banana, 2 Mike, Kiwi, 3 Anna, Apple,

浏览 8提问于2019-11-06得票数 0

回答已采纳

1回答

将形状(m，n)的输入转换为(m，k，n)，其中k“隐藏”为数组的字符串表示？

python、arrays、tensorflow、keras

我有一个与下图类似的数据集，其中包含m行(=批处理大小)和n列(v1, v2, ... vn)，每个列代表一个特性。对于dataset中的每个示例，每个特性都是浮点数数组的字符串表示形式，因此类似于这个'[-0.05, 1.12, -0.23, ..., 1.22]'。“隐藏”数组表示为字符串，如果转换为浮点数数组，则长度为k。这个输入直接输入到Tensorflow/Keras模型，而不需要任何预处理:数据集与model.fit一样被传递给model.fit，因此无法在Pandas或Numpy中进行转换和整形。是否有一种方法来转换和重塑模型内部，作为第一层？该模型采用形状(m

浏览 2提问于2020-08-17得票数 2

2回答

如何在Pandas Dataframe中总结时间序列数据中缺少的值？

python、python-3.x、pandas、dataframe、time-series

我有一个timeseries数据集，如下所示：正如所看到的，通道值有三列与同一组时间戳成对。每个通道都有一组NaN值。我的目标是创建这些NaN值的摘要，如下所示：我的方法(效率低下)：创建一个for循环，首先遍历每个通道列，然后创建另一个嵌套的for循环，以遍历通道的每一行。然后，当它无意中遇到NaN值集时，它可以以单独的行(或列表)的形式注册开始时间戳、结束时间戳和持续时间，我最终可以将它们作为最终的输出叠加在一起。但是，我的逻辑看起来非常低效和缓慢，特别是考虑到我的原始数据集有200个通道列和10k行。我确信在Python中应该有一种比这更好的方法。有人能帮我解决

浏览 7提问于2022-02-23得票数 1

回答已采纳

1回答

将pandas数据框保存到csv文件时的附加列

python、python-2.7、csv、pandas、dataframe

这里是处理和保存csv文件的代码，以及原始输入csv文件和输出csv文件的代码，在Python2.7上使用pandas并想知道为什么在保存文件时在开头有一个额外的列？谢谢。 c_a,c_b,c_c,c_d hello,python,pandas,0.0 hi,java,pandas,1.0 ho,c++,numpy,0.0 sample = pd.read_csv('123.csv', header=None, skiprows=1, dtype={0:str, 1:str, 2:str, 3:float}) sample.columns = pd.Index(dat

浏览 3提问于2016-08-28得票数 5

回答已采纳

1回答

为什么这个数据单元格包含的不是一个值，而是一个序列？

python、pandas、dataframe、series

我从CSV中读到python中的dataframe。我有一个DateTimeIndex和两个我感兴趣的列，我们称它们为number和upper_limit。我按索引进行排序，删除属于旧时间戳的不必要的列和行。然后，我计算出这两个列的min、max和avg numbercol = pd.to_numeric(df.iloc[:,0], errors='coerce') upperlimitcol = pd.to_numeric(df.iloc[:,1], errors = 'coerce') 这个很好用。现在，我想检查数字比upper_limit大的频率 for

浏览 0提问于2019-02-08得票数 0

回答已采纳

1回答

Python大熊猫dataframe缩短从十六进制字符串到int的转换时间。

python、pandas、dataframe

我的意图是将整个数据从十六进制字符串转换为int。目前，我能够根据提供的答案来做这件事。 df = df.apply(lambda : x.astype(str).map(lambda : int(x，base=16) 然而，它的运行非常慢，特别是当数据是大的时候。我从那里看到了一个答案，它说lambda是不必要的，并且增加了开销。我试图实现它，但是我得到了这个错误。 df2 = pd.read_csv(path+temp_file, dtype=str) df2 = df2.dropna() df2 = df2.apply(int,base=16) 应用(int，base=16)跟踪(最

浏览 2提问于2020-09-09得票数 1

回答已采纳

1回答

如何在CSV中查找引发错误的行："ValueError:未能将字符串转换为浮动“

python、pandas、csv

我使用以下命令将CSV导入到中： df=pandas.read_csv("import.csv", names=["Year", "Month", "Day", "Time", "ColA"], encoding='iso-8859-1') 但是，Pandas将ColA作为数据类型对象导入。我尝试使用它将该列转换为浮动： df['ColA'] = df['ColA'].astype(float) 但是，会引发此错误： ValueError: co

浏览 0提问于2018-02-19得票数 2

回答已采纳

1回答

当第3行的数据长度大于标题长度时，Python pandas.readexcel(文件路径，header=[0,1])会失败。欢迎任何解决方案的建议

python、excel、pandas、numpy、dataframe

我已经定义了我的excel(xlsx)的前两行，即0,1作为头文件。为简单起见，excel文件只有一张工作表。在最初的两行之后，文件中的数据行很少。由于有两个头文件，pandas给了我一个多索引的数据帧，这很好。 dataframe = pandas.readexcel(filepath, header=[0,1]) 当一个文件的所有行都达到头的宽度时，上面这行代码就会给我一个有效的数据帧。这是问题所在。在我的一个excel文件中，标题行有65个excel列，有些数据行有66列。熊猫无法执行 dataframe = pandas.readexcel(filepath, header=[0,

浏览 0提问于2018-11-29得票数 0

1回答

使用多列将包含多个elif分支的IF语句传递给Pandas数据with

python、pandas、if-statement

以下是我的dataframe (Mrp)快照：我试图将以下逻辑应用于每一行，并将结果保存到一个新列中： def planning_period(x): if x <= 30: return mrp['p01'] + mrp['p02'] elif x <= 60: return mrp['p01'] + mrp['p02'] + mrp['p03'] elif x <= 90: return mrp['p01'

浏览 3提问于2022-07-23得票数 -1

1回答

Python中最有效的数据行操作工具是什么？

python、pandas、performance

我做了很多工作，需要跨行执行操作，使用行中其他列上该行列中的数据。最近，我不得不对120万行数据集(27列，300 Mb)进行一些处理，这些数据集需要对大约30万行进行逐行修改。有些事务被分割成多个记录，我想聚合它们。这包括用延迟删除将它们向上折叠，将5列相加，并在第6列上做加权平均值。一开始我尝试使用Pandas。熊猫花了12+几个小时跑到80,000排(我在办公室用的机器是垃圾)。我可能会看到，如果我删除行，它必须在每一行之后将300 Mb数组重新放置在内存中，但它甚至没有删除行，因为这是在结束时设置的。我通常看到，围绕Pandas的情绪似乎是“不要在dataframe的行上迭代

浏览 0提问于2021-05-13得票数 0

3回答

熊猫- DataFrame总行为古怪

pandas、numpy、dataframe、aggregate、series

与和相关考虑一下这个数据 import pandas as pd import numpy as np df = pd.DataFrame(index=range(10)) df['a'] = [ 3 * x for x in range(10) ] df['b'] = [ 1 -2 * x for x in range(10) ] 根据 for aggregate，您应该能够指定使用如下所示的dict聚合哪些列： df.agg({'a' : 'mean'}) 回传 a 13.5 但是，如果您尝试使用用户定义的函数(如此函

浏览 2提问于2019-02-26得票数 1

回答已采纳

1回答

将元素为字典的列拆分为多个列

python、pandas

我有一个包含字典作为元素的单一专栏的熊猫DataFrame。这是下列代码的结果： dg # is a pandas dataframe with columns ID and VALUE. Many rows contain the same ID def seriesFeatures(series): """This functions receives a series of VALUE for the same ID and extracts tens of complex features from the series, storing th

浏览 1提问于2014-11-05得票数 0

回答已采纳

1回答

基于一列返回条件的Pythonfor循环将导致另一列

python、pandas、loops

我有一个excel电子表格，其中有一个名为"Description“的列，我想迭代一遍。在本专栏中，我使用项作为标准对每一项进行分类。例如，如果描述列中写着“投资利息”，我希望代码在“描述”栏中看到这一点，并在另一列“类别”中返回“投资收入”。我已经试过了，但似乎无法让它起作用。您可以在下面看到，我尝试过不同的方法，我认为我遗漏了一些简单的东西，比如对字符串进行分类，尽管我也尝试过这样做。如果有任何问题，请让我知道，或如果需要更多的信息，因为我只是学习。 import pandas as pd GLDetail = pd.read_excel("GL_DetailFY19.x

浏览 3提问于2020-09-14得票数 1

2回答

pandas和seaborn中的图形绘制

pandas、seaborn

我有一个有5列、8000行的表： Market DeliveryWindowID #Orders #UniqueShoppersAvailable #UniqueShoppersFulfilled NY 296 2 2 5 MA 365 3 4 8 我如何在pandas或seaborn中绘

浏览 16提问于2020-07-09得票数 0

1回答

如何减少在Amazon Redshift中将pandas数据帧写为表的时间

python、python-3.x、pandas、dataframe、amazon-redshift

我正在亚马逊Redshift中编写python pandas data frame，使用的是- df.to_sql('table_name', redshiftEngine, index = False, if_exists = 'replace' ) 虽然我的数据帧有几千行和50-100列，但写一个表需要15-20分钟。我想知道这是不是红移的正常表现？有没有办法优化这个过程并加快写表的速度？

浏览 1提问于2018-06-19得票数 0

3回答

如何在Python中筛选出包含某个字符串的多列

python、pandas

我刚接触python，尤其是熊猫，所以我真的不知道我在做什么。我有10列，100000行和4个字母串。我需要过滤掉所有列/行中不包含'DDD‘的行。我试着用iloc和loc来做这件事，但是不起作用： import pandas as pd df = pd.read_csv("data_3.csv", delimiter = '!') df.iloc[:,10:20].str.contains('DDD', regex= False, na = False) df.head() 它返回一个错误：'DataFrame‘对象没有

浏览 0提问于2019-11-11得票数 2

1回答

使用python实现sklearn.linear_model.SGDClassifier

machine-learning、classification、python、svm、regression

我有一个excel文件，其中包含与确定葡萄酒质量有关的细节，我希望使用函数sklearn.linear_model.SGDClassifier(支持向量机=>铰链损失)和(对数回归=>log损耗)使用python实现线性模型概念。我通过scikit学习网站了解了这些功能的基本知识，我无法使用excel文件实现该模型。我对python和机器学习非常陌生，我发现很难实现这个模型。我在python中打开了excel文件，并尝试从文件中提取两列随机，并使用它作为输入来调用模型中可用的fit函数。但是，我发现了一个错误，说明未知的标签类型:数组。我也尝试过几种其他方法，但都没有用。有人能指导

浏览 0提问于2015-06-15得票数 3

3回答

从(行，列，值)的元组列表构造pandas DataFrame

python、python-2.7、pandas、pivot

我有一个元组列表，比如 data = [ ('r1', 'c1', avg11, stdev11), ('r1', 'c2', avg12, stdev12), ('r2', 'c1', avg21, stdev21), ('r2', 'c2', avg22, stdev22) ] 我想把它们放到一个pandas DataFrame中，行由第一列命名，列由第二列命名。似乎处理行名的方法类似于pandas.DataFrame([x[1:] for x in data],

浏览 115提问于2013-11-14得票数 83

回答已采纳

1回答

如何在熊猫的多个列上交叉值

python、pandas

请在下面找到我的输入/输出(所需)： INPTUT： Col1 Col2 Col3 Col4 Col5 0 A NaN NaN NaN NaN 1 NaN B C NaN NaN 2 NaN NaN NaN D NaN 3 NaN E NaN NaN NaN 4 NaN NaN NaN NaN F 产出(所需)： Col1 Col2 Col3 Col4 Col5 Intersection 0 A NaN NaN NaN NaN A 1 NaN B C NaN

浏览 5提问于2022-09-22得票数 1

回答已采纳

2回答

在Python中的dataframe列中添加产品数量

python、excel、pandas、numpy

在Numpy/Pandas的帮助下，我试图计算excel表中包含产品标题的列中的权重之和。我已经成功地将工作表加载到dataframe中，并隔离包含我正在寻找的特定产品的行： dframe = xlsfile.parse('Sheet1') dfFent = dframe[dframe['Product:'].str.contains("ABC") == True] 但是，由于问题的复杂性(如下图所示)，我似乎找不到一种方法来总结它的权重。就像。如果列“Product”包含的值如下- 1 gm ABC 98%纯12克ABC 0.25公

浏览 2提问于2017-11-16得票数 1

回答已采纳

1回答

Pandas DataFrame中嵌套列表的列太多错误

python、pandas、python-2.7、dataframe

我有一个嵌套列表的数据结构。pandas DataFrame中的每个单元格都应该有一个嵌套列表。我尝试过以下几种方法：首先，我有一个标题列表： headings = ["heading1", "heading2", "heading3", "heading4", "heading5", "heading6"] 然后我有了我的数据结构： data_list = [[foo, bar], [foo1, bar1], [foo2, bar2], [foo3, bar3], [foo4, bar4],

浏览 105提问于2019-05-20得票数 0

回答已采纳

1回答

如何在读取csv文件时设置正确的参数(python，大熊猫)

python、pandas、csv、numpy、merge

训练数据= test data= import numpy as np import pandas as pd train_data = pd.read_csv('adult.data.txt',sep= ',', header= None) test_data = pd.read_csv('adult.test.txt',sep= ',', header= None) 当我这样做时，读取测试数据，而不是训练数据时出现了错误，尽管布局是相同的： Traceback (most recent call last): Fi

浏览 3提问于2017-10-28得票数 0

回答已采纳

1回答

使用googletrans批量转换Pandas数据帧中的字符串

python、pandas、loops、optimization

浏览 4提问于2020-07-23得票数 1

回答已采纳

1回答

Pandas从apply函数返回DataFrame吗？

python、python-2.7、pandas

sdf = sdf['Name1'].apply(lambda x: tryLookup(x, tdf)) tryLookup是当前接受字符串的函数，该字符串是sdf列中Name1的值。我们使用apply将函数映射到sdf DataFrame中的每一行。有没有办法让tryLookup返回我想要与sdf DataFrame合并的DataFrame，而不是只返回一个字符串的sdf？tryLookup有一些额外的信息，我想通过将它们作为新列添加到sdf中的所有行来包括在结果中。因此，tryLookup的返回值如下： return pd.Series({'BEST MATC

浏览 0提问于2017-09-15得票数 4

1回答

熊猫高级索引作业

python、pandas

在Pandas (v0.8.0) DataFrame中，我希望用另一列覆盖一段列。下面的代码将引发列出的错误。实现这一目标的有效替代方法是什么？ df = DataFrame({'a' : range(0,7), 'b' : np.random.randn(7), 'c' : np.random.randn(7), 'd' : np.random.randn(7), 'e' : np.random.randn(7), 'f' : np.random.randn(7), 'g' :

浏览 5提问于2012-07-13得票数 2

回答已采纳

2回答

如何在python中导入excel表格中的特定列并将其值存储在变量数组中？

python

我想将excel表格中的四列导入到python中，并将它们存储为不同的数组。我试过使用'pandas‘模块，但无法正确地实现我的需求。 import pandas as pd df = pd.read_excel("Book2.xlsx","Sheet4") tg1f = df['A'] 我希望将不同列的值存储在单独的数组中。例如，excel工作表第一列中的值应该存储在一个名为“Temperature”的变量中。

浏览 79提问于2019-07-04得票数 2

回答已采纳

4回答

如何在Pandas中将单列数据帧转换为单行数据帧？

python、pandas

我得到了以下数据帧： 0 0 Aachen 1 1 2 Valid 3 L5 4 21 5 Fell 6 01/01/1880 12:00:00 AM 7 50.775 8 6.08333 9 (50.775000, 6.083330) 我希

浏览 51提问于2019-01-31得票数 0

回答已采纳

1回答

如何实现熊猫群对象的聚合功能？

pandas、signature

下面是这个问题的设置： import numpy as np import pandas as pd import collections as co data = [['a', 1], ['a', 2], ['a', 3], ['a', 4], ['b', 5], ['b', 6], ['b', 7]] varnames = tuple('PQ') df =

浏览 0提问于2014-09-04得票数 2

1回答

计算Pandas Dataframe中多列的日平均值，然后插入一行

python、python-3.x、pandas、dataframe、csv

我使用Pandas向数据帧输入了一个CSV文件，并希望计算其中列的日平均值。有两个列不会被平均化，时间和日期(日期是数据分组的日期)。然后，我希望在该日期的最后一行下面插入一行，在date列中插入“Average”( time列中没有任何内容)，然后在正确的列中插入相应的平均值。我只使用了Pandas一段时间，所以我不知道最简单的方法是什么。任何帮助都将不胜感激。

浏览 12提问于2022-06-17得票数 0

2回答

KeyError使用s.loc和s.first_valid_index()

python、pandas、pandas-loc

我有类似于这篇文章的数据：也就是说，我有一些观察会议的数据，每一次会议都有一个焦点个人。这位协调人只被记录了一次，但我想在该届会议期间填写每一行的焦点ID数据。所以，数据看起来是这样的： Focal Session 0 NaN 1 1 50101 1 2 NaN 1 3 NaN 2 4 50408 2 5 NaN 2 基于上面链接的帖子，我使用了以下代码： g = data.groupby('Session') g['Focal'].transform(l

浏览 4提问于2013-09-24得票数 3

回答已采纳

2回答

使用熊猫udf返回包含平均值的完整列

pandas、dataframe、pyspark

这是非常奇怪的，我尝试在星星之火的df上使用熊猫udf，只有当我选择并返回一个值，即列的平均值时，它才能工作。但是，如果我试图用这个值填充整个列，那么它就不能工作。以下工作： @pandas_udf(DoubleType()) def avg(col ) : cl = np.average(col) return cl df.select(avg('col' )) 这将工作并返回包含列的值平均值的一行的df。但是下面这些都不起作用 df.withColumn('avg', F.lit( avg(col)) 为什么？如

浏览 19提问于2022-10-26得票数 0

1回答

如何修复一个热编码错误- IndexError？

python、scikit-learn、one-hot-encoding

目前，我正在研究一种包含LSTM的深度学习模型，以训练人体运动的关节，但在一次热编码过程中，我一直出现错误。我检查了几个网站的说明，但无法解决代码/数据之间的差异： import pandas as pd import numpy as np keypoints = pd.read_csv('keypoints.csv') X = keypoints.iloc[:,1:76] y = keypoints.iloc[:,76] 其结果如下：关键点= (63564，77) X= (63564，75) Y= (63564，) 关节的所有关键点都在x中，y包含

浏览 0提问于2019-07-31得票数 1

回答已采纳

1回答

使用Pandas -Exception导入数据表:索引(列0)具有重复值[nan]

io、pandas

我是pandas的新手，所以如果我忽略了一些显而易见的事情，请原谅我，但我似乎在前面的问题中找不到答案。我试图将一个表导入到Pandas中，该表有任意数量的空格作为分隔符。下面是数据的一个示例： *PRODUCT : Backscatter Ratio - 1064.0 nm ^ Altitude 2010/03/23 17:01:00 2010/03/23 17:03:00 ... 1.50 1 1

浏览 6提问于2012-06-12得票数 1

4回答

查找二维列表中特定列的长度

python、list、multidimensional-array、multiple-columns、content-length

在Python 3中，如果我有一个二维列表，其中最后一行没有完整填写(如下例所示)，如何获得特定列的长度？ [[1, 2, 3,], [4, 5, 6,], [7, 8,]] 例如，第0列和第1列的长度为3，而第2列的长度为2。有没有办法在不使用pandas模块的情况下做到这一点？

浏览 59提问于2018-08-11得票数 2

回答已采纳

1回答

当NA为有效值时检测CSV文件截断

python、pandas

如果我使用Pandas read_csv()函数，那么在默认情况下，短行的元素将映射到NaN。在将NA解释为NaN时，我想抑制这种映射。由于传输问题，我主要对文件截断感兴趣，但是文件中间的短行应该具有相同的missing"值。我尝试使用na_filter=False和keep_default_na=False，虽然它们似乎都将空单元格映射到空字符串，但两者都没有将字符串NA映射到NaN。有没有办法让我的蛋糕(NA => NaN)也吃(缺少的值没有映射到NaN)？(我正在使用Pandas 0.22.0 w/ Python 3.6.) 示例： col1,col2,col3,col4

浏览 0提问于2018-07-31得票数 0

回答已采纳

1回答

如何从文本文件中读入值，并计算一个值重复多少次，然后求出平均值？

python、pandas、dataframe

我有一个名为text.txt的文本文件，如下所示： 5.H6 7.891 0.3 6.H6 7.693 0.3 7.H8 8.16859 0.3 8.H6 7.446 0.3 5.H6 7.72158 0.3 9.H8 8.1053 0.3 8.H6 7.65014 0.3 10.H6 7.54 0.3 12.H6 8.067 0.3 13.H6 8.047 0.3 14.H6 7.69624 0.3 6.H6 7.70272 0.3 17.H8 7.169 0.3 16.H8 8.27957 0.3 18.H6 7.385 0.3 19.H8 7.657 0.3 20.H8 7.78512

浏览 6提问于2017-08-24得票数 1

回答已采纳

2回答

在写入CSV时操作Pandas输出

python、pandas、dataframe、csv

我正在试着写一些能做以下事情的东西：读取超过1m行、100列数据的CSV；按照从最大行到最少行的顺序列出重复行的出现情况来总结每列到目前为止，我所拥有的： import pandas as pd df = pd.read_csv (r'infile.csv') outfile = ('outfile.csv') for i in df: df.pivot_table(index=i, aggfunc='size').to_csv(outfile, mode='a') 下面的代码输出如下： ColumnA,0 as

浏览 31提问于2020-08-24得票数 0

回答已采纳

1回答

更改DataType的GroupBy方法

pandas、pandas-groupby

使用Python3和Anaconda，我在ipython上导入了pandas和os。我有一个非常大的csv文件。在对文件使用read_csv之后，我尝试对两列使用.groupby()，但它将数据类型从DataFrame更改为DataFrameGroupBy，并且我不能再对其运行数据框方法。我想不出任何可以尝试的东西。我对熊猫的经验很少，通过codecademy获得的。我的代码似乎可以在那里工作。 import os import pandas as pd totals = pd.read_csv('filename') band_gaps = totals.groupb

浏览 19提问于2019-06-21得票数 0

回答已采纳

2回答

如何在Server中使用分组集对特定列进行排序？

sql、sql-server、sorting、group-by、sql-order-by

如果我没记错的话，在Server中，如果已经有了分组集合，则不建议使用"ORDER“。我有两列: UPC#和Description都是varchar。我的分组集如下： GROUP BY GROUPING SETS ( ([UPC],[Description]) ,() ) 我没有“ORDER”，但它会自动对描述列进行排序。如果我添加了第三列sum(Qty)，那么它不再按描述排序。但如果我加上 ORDER BY [Description] 总金额(Qty)将位于第一行而不是最后一行。是否有一种方法可以对Description列进行排序，但仍然让总计的

浏览 0提问于2014-08-21得票数 3

回答已采纳

2回答

KeyError：<class‘class’>熊猫._libs.tlibs.timestamps.TimeSTAMP>保存数据到excel时class=‘class 10’>

python、excel、python-3.x、pandas、dataframe

早上好，我已经使用python大约一年半了，我发现自己面临着一个我无法解决的基本问题。我有一个简单的dataframe (df)，不太大(大约12k行和10列)，其中包括一个列( "datetime64ns“格式)、一个"float64”列和所有其他列都是"object“。我进行了调试，可以说错误来自datetime列。当我将这个df保存到Excel中时，我会得到以下消息：文件"test.py"，第16行，在test.to_excel(编写器，'test')文件第1766行，在to_excel engine=engine中，文件&

浏览 1提问于2018-09-04得票数 7

回答已采纳

1回答

对按另一列分组的pandas数据帧列值求和，然后使用Sum更新行并删除重复项

python、python-3.x、pandas、dataframe

我尝试在下面的例子中为每个Actor在pandas df中求和两列(在下面的例子中是Seasons和Rating)。然后，我希望存储每个Actor的合计，并删除包含该Actor的任何其他行。在下面的例子中，保留或丢弃的'Name‘并不重要。例如，这是输入DF： import pandas as pd series = [('Stranger Things', 3, 5, 'Millie'), ('Game of Thrones', 8, 8, 'Emilia'), ('

浏览 19提问于2021-07-08得票数 1

回答已采纳

1回答

ImportError:无法导入名称的时间增量

python

我得到了错误ImportError: cannot import name 'timedelta'. 在我的代码中的这一行： from datetime import timedelta, datetime 我刚用pip install pandas和conda install -f pandas安装了熊猫我写import pandas时没有任何错误。当我编写which python时，当我想要调试时，我得到/Users/zpu/miniconda3/bin/python，第一行是 /Library/Frameworks/Python.framework/Versions/3

浏览 4提问于2016-07-07得票数 1

回答已采纳

2回答

我需要在x轴上的csv文件和y轴上的时间上做一个散点图，我如何编码这个？

python、pandas、datetime、matplotlib、scatter-plot

我需要创建一个包含X轴上的日期和Y轴上的时间的散点图。如果这件事重要的话，日期看起来是(4/10/2019)，时间看起来是(23:55:00)。我试过以下代码。 import numpy as np import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("Crimes_-_2001_to_present.csv") plt.scatter(df["Date_1"],df["Time_1"]) plt.xlabel('Date', fontsi

浏览 0提问于2019-04-18得票数 2

1回答

X和y有不相容的形状

python、scikit-learn

I试图在1997年训练样本的一维特征向量上拟合一个分类器，样本大小相同，其中包含my‘s： clf = svm.SVC() j = 0 a = 0 listX = [] listY = [] while a <= 1996: ath_X = "".join(linesplit[a]) listX = listX + [int(ath_X)] a+=1 while j <= 1996: jth_Y = "".join(linesplit1[j]) listY = listY + [((int(jth_

浏览 2提问于2014-07-24得票数 2

回答已采纳

1回答

Python --老熊猫合并的结果比新的熊猫多。

python、pandas

我有两个环境：环境#1: Python3.7.5Pandas 0.23.4 环境#2: 3.8.10Pandas 1.3.4 Python 我在两个版本中都有相同的代码，没有对其进行任何修改。但是，我有这一行特定的代码，这些代码似乎导致了问题/产生了不同的输出： df_result = pd.merge(df_l, df_r, left_on=left_on, right_on=right_on, how='inner', suffixes=suffixes) df_l和df_r只是读取Excel文件。我在两个版本的调试器中检查了它们，它们是完全相同的，所以应该没问题。另外

浏览 1提问于2021-12-14得票数 0

回答已采纳

4回答

有效地对矩阵求平均

python、numpy、scipy

在Python中，给定一个n x p矩阵，例如4 x 4，我如何返回一个4 x 2的矩阵，它简单地对矩阵的所有4行的前两列和后两列求平均？例如，给定： A= array([1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16]) 返回一个矩阵，该矩阵的平均值为a:，0和a:，1，以及a:，2和a:，3的平均值。假设n的平均列数显然可以被n整除，我希望它适用于n x p的任意矩阵。让我澄清一下:对于每一行，我想取前两列的平均值，然后取最后两列的平均值。因此它将是：新矩阵1+2/ 2，3+4/2 <-行1，新矩阵5+6/ 2，7+8/2 <-行2，等等。

浏览 3提问于2010-06-05得票数 6

1回答

内置功能，将3d阵列压平成熊猫df？

python、pandas

我有一个数字数组，如下所示： import pandas as pd import numpy as np np.random.seed(10) data = np.random.randint(0, 10, size=(1000, 4, 3)) 我希望能够将这些数据压缩成一个包含12列和1000行的df。我所做的是： df = pd.DataFrame( index=range(data.shape[0])) for i in range(data.shape[1]): for j in range(data.shape[2]): df[str(i)+'_

浏览 1提问于2018-09-29得票数 1

回答已采纳

1回答

从URL创建名称

python、pandas

我正在DataFrame中创建一个NAME列，并根据另一列中包含的子字符串设置它的值。有没有更有效的方法来做到这一点？ import pandas as pd df = pd.DataFrame([['www.pandas.org','low'], ['www.python.org','high']], columns=['URL','speed']) print(df.head()) df['Name'] = df['URL'] print(df

浏览 0提问于2020-06-25得票数 3

回答已采纳