使用Pandas实现复杂的分组_Python Pandas复杂分组_pandas分组索引和分片的实现 - 腾讯云开发者社区

python、pandas、dask

我正在尝试使用Dask来处理一个大文件(50 gb)。通常，我会将其加载到内存中并使用Pandas。我想按两列"A“和"B”分组，每当"C“列以一个值开头时，我想为那个特定的组重复该列中的值。在熊猫中，我会做以下事情： df['C'] = df.groupby(['A','B'])['C'].fillna(method = 'ffill') Dask中的等价物是什么？此外，我还有点迷惑于如何在Dask中构建问题，而不是在Pandas中，谢谢, 我到目前为止的进展是：第一组索引： df1

浏览 7提问于2016-08-12得票数 3

1回答

列中的重复行- python/pandas

python、pandas、dataframe、compare、rows

我最近开始使用python和现在的pandas来读取excel文件。我有点纠结于一个问题，我没有找到任何类似的例子。假设我有来自不同机器的不同分钟的数据。发生的情况是，一台机器有多个信息。例如，在下图中，如果考虑机器13.5，则在5 5分钟内有5个关于成本和温度的信息。我需要成本、温度和分钟信息的平均值，也就是说，每个machine.Considering只有一行。例如，我只需要一个输出来表示成本，即34，4(34+35+35+35+33/机器13.5)。下面是我的代码。 import pandas df = pandas.read_excel(

浏览 14提问于2021-11-03得票数 0

1回答

在滚动函数熊猫中使用时间的错误

python、pandas

我正在计算平均值，即每10秒的移动平均值，比如1到10秒，11秒到20秒等等。在这个下面吗？在滚动函数中使用“60秒”时会出现错误，我认为这可能是由于字符串类型的"ltt“列造成的，我正在将其转换为datetime，但仍然会出现错误。如何解决此错误？以及如何对每10秒采集的样本进行平均处理。这是即将到来的流数据，但是为了测试目的，我在record1中使用静态数据。 import pandas as pd import numpy as np records1 = [ {'ltt': 'Mon Nov 7 12:12:05 2022', '

浏览 1提问于2022-11-08得票数 -1

回答已采纳

1回答

pandas HDF5查询中的算法

pandas、hdf5、pytables

当我尝试对HDF5 where子句中的常量进行简单的算术运算时，为什么会出现错误？下面是一个例子： >>> import pandas >>> import numpy as np >>> d = pandas.DataFrame({"A": np.arange(10), "B": np.random.randint(1, 100, 10)}) >>> store = pandas.HDFStore('teststore.h5', mode='w') >

浏览 1提问于2015-10-11得票数 2

2回答

熊猫按习俗分类

python、python-3.x、pandas、group-by、aggregate-functions

这应该很简单。我想要的是根据函数的结果进行分组的能力，就像在SQL中一样，您可以按表达式进行分组： SELECT substr(name, 1) as letter, COUNT(*) as count FROM table GROUP BY substr(name, 1) 这将计算以字母表中的每个字母开头的name列的行数。我希望在python中也这样做，所以我假设我可以将一个函数传递给groupby。但是，这只会将索引列(第一列)传递给函数，例如0、1或2。 import pandas # Return the first letter def first_letter(row):

浏览 6提问于2015-12-09得票数 4

回答已采纳

1回答

python pandas为列I group by提供了一个键错误，即使布尔表达式显示该列是数据帧的一部分

python、pandas、dataframe、pandas-groupby、keyerror

我似乎无法打印以下行：summarydata["Name"].groupby(["Tag"]).size() 不会得到错误： File "C:\Users\rspatel\untitled0.py", line 76, in <module> print(summarydata["Name"].groupby(["Tag"]).size()) File "C:\Users\rspatel\Anaconda3\lib\site-packages\pandas\core\serie

浏览 0提问于2021-09-20得票数 2

1回答

合并Pandas Dataframe值，但保留列值

python、pandas、dataframe

我有一个包含多个行的pandas数据框，这些行基于id列是彼此重复的，除了它们各自行中的其余值不是重复的。我的目标是将这些行合并到一行中，而不会丢失其余列中的数据。我希望预期的结果如下所示：

浏览 1提问于2020-03-01得票数 0

2回答

使用[groupby]时中间列的Python Pandas排序

python、pandas

我正在使用python pandas，并希望根据下表的中间列对输出进行排序(我已经显示了我正在获得的输出和我想要获得的输出)。我在pandas中使用groupby函数来获得输出，但是它是按计数列排序的(参见下面的输出表)，而我想要按YOB列排序(请参见所需的输出表)。另外，我如何计算每个国家的平均出生年份？ import pandas as pd xlpath= "C:/Users/Username/documents/Datafile.xlsx" df = pd.read_excel(eval('xlpath')) y = df.groupby(&

浏览 20提问于2019-10-14得票数 0

回答已采纳

2回答

在Pandas上，SQL "GROUP BY What“的等价物是什么？

python、pandas、pandas-groupby

在pandas中使用groupby和并行应用过滤器的最有效方法是什么？基本上，我在SQL中请求的等价物是 select * ... group by col_name having condition 我认为有许多用例，从条件均值，总和，条件概率，等等，这将使这样的命令非常强大。我需要一个非常好的性能，所以理想情况下，这样的命令不会是在python中完成的几个分层操作的结果。

浏览 0提问于2014-03-01得票数 60

回答已采纳

2回答

按月分组日期

python

我尝试将我的数据按月分组，然后使用 wti_month = wti.groupby(pd.Grouper(freq='M')), 但是当我打印它显示的数据时 <pandas.core.groupby.generic.DataFrameGroupBy object at 0x12408d540> 这是怎么发生的？我如何打印数据？

浏览 4提问于2022-04-28得票数 0

2回答

根据属性对对象进行分组，并将列表中的其余列组合在一起，得到了不可散列的类型：' list‘

python、pandas

我有这个对象： obj = [ {"mode":1,"items":[{"id":1}],"people":[{"id":8888}],"value":{"v":1000}}, {"mode":1,"items":[{"id":1}],"people":[{"id":8888}],"value":{"v":2000}}, {"mode

浏览 17提问于2020-11-11得票数 1

回答已采纳

2回答

用Python恢复用于方差分析的SAS输出

python、pandas、dataframe

我有以下数据： import pandas as pd m1 = [3129, 3000, 2865, 2890] m2 = [3200, 3300, 2975, 3150] m3 = [2800, 2900, 2985, 3050] m4 = [2600, 2700, 2600, 2765] t_dict = {'mix1': m1, 'mix2': m2, 'mix3': m3, 'mix4': m4} df = pd.DataFrame.from_dict(t_dict, orient='index', c

浏览 3提问于2021-09-26得票数 2

回答已采纳

1回答

Pandas DataFrame中的多步聚合

python、python-3.x、pandas

在Pandas中，如何在同一个数据集中进行多步/顺序聚合？好像每个步骤都是下一个步骤的“子查询”。在SQL中，我可以这样想： SELECT x.A, COUNT(x.B) as B_COUNT, SUM(x.C_SUM) as C_SUM FROM ( SELECT df.A, df.B, SUM(df.C) as C_SUM FROM df GROUP BY df.A, df.B ) x GROUP BY x.A 在Python3.4和Pandas0.19.2中工作，我有这样一个数据框架： import pandas import numpy numpy.rand

浏览 0提问于2016-12-30得票数 1

回答已采纳

1回答

土生大熊猫select_as_multiple

python、pandas、pytables

假设我有一个块稀疏的DataFrame。我的意思是，有几组行具有不相交的非空列集。存储这个巨大的表将在值中使用更多的内存(nan填充)，并将表解压到行将创建一个大型索引(至少在保存到磁盘时是这样的.我不完全清楚是否有一些有效的MultiIndexing应该正在进行)。通常，我将块作为单独的DataFrames存储在一个dict或list中(删除nan列)，并创建一个具有与DataFrame几乎相同的api的类，“手动”将查询传递给块并连接结果。这很好，但是需要少量的特殊代码来存储和处理这些对象。最近，我注意到pytable提供了类似于此的特性，但仅用于。在熊猫身上有什么办法来解决这个问题

浏览 0提问于2013-09-22得票数 0

1回答

在Dask dataframes中命名返回的聚合列

python、pandas、dataframe、dask

当使用pandasv0.25及更高版本时，我可以生成具有自定义名称的聚合列。 import pandas as pd data = {"x": [1, 1, 2], "y": [-1, 0, 0]} pd_df = pd.DataFrame(data) this_is_valid = pd_df.groupby("x").agg(my_custom_name=("y", "mean")) 但是，当我尝试使用dataframe做同样的操作时，我会得到一个“意外的关键字参数”错误。 import dask.data

浏览 3提问于2021-11-18得票数 1

回答已采纳

1回答

熊猫SparseDtype不与GroupBy合作

python、pandas、pandas-groupby

data.groupby(by="DAY").agg({"CLOSING_DATE": min}) 为什么当我试图按我的数据获取稀疏列的最老日期(CLOSING_DATE大部分是空的)时，我会得到以下错误？ Traceback (most recent call last): File "<ipython-input-23-37f9fe161304>", line 1, in <module> data[:10000].groupby(by="DAY").agg({"CLOSING_DATE"

浏览 9提问于2021-02-26得票数 2

回答已采纳

1回答

Python火花作业优化

python、pandas、apache-spark、pyspark、google-cloud-dataproc

我在Dataproc集群上运行PySpark (2.3) 3个节点(4个CPU) 每个内存8GB。数据有近130万行，列有4列，即： Date,unique_id (Alphanumeric) , category(10 distinct values) and Prediction (0 or 1) P.S -这是时间序列数据我们正在使用Facebook预言家模型进行预测建模，因为先知只接受Pandas数据格式作为输入，下面是我正在做的工作，以便将Spark数据格式转换为Pandas数据格式。 def prediction_func(spark_df): im

浏览 3提问于2018-09-02得票数 1

3回答

如何使石斑鱼和中轴线的长度相等？

python、csv、matplotlib、pandas、matplotlib-basemap

对于我的作业，我应该使用matplotlib在地图上绘制20个飓风的轨迹。然而，当我运行我的代码时，我得到了错误：AssertionError:Grouper and axis must be the same length 下面是我的代码： import numpy as np from mpl_toolkits.basemap import Basemap import matplotlib.pyplot as plt from PIL import * fig = plt.figure(figsize=(12,12)) ax = fig.add_axes([0.1,0.1,0.8,0

浏览 0提问于2013-10-21得票数 6

回答已采纳

2回答

尝试通过保留第一个条目来组合csv文件中的条目

python、csv

我正在尝试编写一个python脚本，它将条目组合到csv文件中。 a, 1, A a, 2, B b, 3, C b, 4, D 至 a, 1, A, 2, B b, 3, C, 4, D 下图显示了我的csv文件的更完整的图片。我试过使用csv和pandas库，但是我迷路了。我是个编程新手，现在对此还不太了解。编辑:每个字母不一定是2行，可能会有所不同，如果是这样的话，每个字母都会添加到行上，例如，它可能是 a、1、A、2、B、3、C、4、D b、5、E、6、F c、7、G、8、H、9、J、10、K、11、L、12、M-

浏览 5提问于2021-07-13得票数 0

1回答

基于准则组合值的PySpark设计模式

python-3.x、pyspark

嗨，我是PySpark的新手，我想要创建一个函数，它使用一个重复行表和{field_names：“源代码”：“获取记录的方法”}作为输入并创建一个新记录。新记录将等于优先级列表中的第一个非空值，其中每个“方法”都是一个函数。例如，对于特定组件，输入表如下所示：鉴于这一优先事项：输出记录应该如下所示：新记录看起来是这样的，因为对于每个字段，都有一个选择函数，指示如何选择值。(例如，phone等于0.75，因为Amazon最完整的记录为null，所以您可以合并到列表中的下一个方法，也就是Google =0.75中最完整记录的phone值)。本质上，--我想编写一个吡火花

浏览 4提问于2022-05-22得票数 0

回答已采纳

3回答

熊猫.groupby将返回一个地址

python、pandas、dataframe

我真的不明白为什么在为“课程”创建一个带有groupby的Dataframe时，我会得到一个入口位置输出？代码： import pandas as pd technologies = ({ 'Courses':["Spark","PySpark","Hadoop","Python","Pandas","Hadoop","Spark","Python","NA"], 'Fee' :[22000,250

浏览 22提问于2022-10-22得票数 0

回答已采纳

1回答

熊猫群

python、pandas、group-by、dataframe

我想将数据分组到一个dataframe中，我有oo列"Count“和另一列"State”。我想输出一个列表列表，每个子集列表只是每个状态的计数。实例输出：[120,200，40，20，40，.] 120和200对加州来说是很重要的我尝试了以下几点： df_new = df[['State']].groupby(['Count']).to_list() 我收到一个键错误：“计数” 回溯： Traceback (most recent call last): File "C:\Users\Michael\workspace\UCII

浏览 3提问于2015-08-09得票数 0

回答已采纳

1回答

如何对与Pandas创建的每个组相关的一系列数据求和？

python、pandas、pandas-groupby

在Python pandas数据框中，假设我使用pandas groupby()方法对数据进行分组，结果如下：我如何从Third列中分别计算每个组(这里是A和B)的值的总和，这样我就可以在一个单元格中获得每个主要组的总和值？例如，我可以将12+32+43放在组A的新单元格中，将145+231+123放在组B的另一个单元格中。我的代码是： import pandas as pd data = pd.read_excel('file.xlsx') mydf = data.groupby[['First','Second']].sum()

浏览 0提问于2018-08-05得票数 0

1回答

在JQGrid中创建复杂的页眉布局和单元格中的颜色

javascript、jquery、css、jqgrid

我有一个表格，需要实现，其中有一个复杂的布局的标题和颜色编码的单元。有没有人能建议一下如何实现布局？请提供您的输入。

浏览 0提问于2014-06-06得票数 0

1回答

覆盖数据帧中的数据，根据最大值

python、pandas

我在Pandas数据框中存储了一组数据，其中包含部件使用位置的跟踪信息。数据看起来像这样：在上图中，我需要能够用蓝色突出显示的值覆盖以橙色突出显示的值。此覆盖需要基于be表条目号(越高越低)以及项目名称。控件是"Item“和"Project Name”。在上面的例子中，第#2、#3、#4行将被98754-48覆盖。这将基于“项目”中具有该“客户工作ID”的最大值，并且“项目名称”是相同的。这在VBA中是相当直接的，但由于涉及的卷(每天100k个条目、多达50k个部件、100台计算机和100+客户端)，这很快就会变得难以实现有没有什么快速的方法可以使用数据帧来实

浏览 8提问于2020-05-06得票数 1

回答已采纳

1回答

将pyspark groupedData转换为pandas DataFrame

python、pandas、pyspark、apache-spark-sql、spark-dataframe

我需要通过Spark分组一个大型数据集，我将其加载为两列的Pandas数据框架，然后重新转换为Pandas:基本上是做Pandas -> 'pyspark.sql.group.GroupedData‘-> Pandas。两列中的元素都是整数，分组后的数据需要以列表的形式存储，如下所示： df.a df.b 1 3 2 5 3 8 1 2 3 1 2 6 ... spark_df = spark.createDataFrame(df

浏览 1提问于2017-08-03得票数 1

1回答

Pandas "Group By“查询HDFStore中的大数据？

python、pandas、pytables

在一个超过60列的HDFStore中，我有大约700万行。数据太多了，我放不进内存。我希望根据列"A“的值将数据聚合到组中。pandas 的文档假设我已经将所有数据放在一个DataFrame中，但是我不能将整个存储读取到内存中的DataFrame中。在HDFStore中对数据进行分组的正确方法是什么

浏览 2提问于2013-04-04得票数 21

回答已采纳

1回答

熊猫:按分位数分组并计算统计数据

python、pandas、grouping、quantile

我有99个人的年收入数据： import pandas, random incomes = pandas.DataFrame({'income':[round(random.triangular(20,80,200),0) for i in range(99)]}) 如何：将他们分成3个分位数，“贫穷”、“中等”、“富有”，每个分位数为的平均收入。抱歉，听起来像个新手的问题。我在学习。谢谢!

浏览 2提问于2020-06-09得票数 1

1回答

PySpark:带有标量Pandas的无效returnType

apache-spark、pyspark、apache-arrow

我正在尝试从pandas_udf返回一个特定的结构。它在一个集群上工作，但在另一个集群上失败。我尝试在组上运行udf，这需要返回类型为数据框架。 from pyspark.sql.functions import pandas_udf import pandas as pd import numpy as np from pyspark.sql.types import * schema = StructType([ StructField("Distance", FloatType()), StructField("CarId", IntegerTy

浏览 2提问于2018-03-26得票数 5

回答已采纳

1回答

GUI类似于Blackberry应用程序的消息视图

user-interface、blackberry、custom-controls、listfield

我想以与Blackberry原生消息应用程序完全相同的方式显示应用程序中的消息。我如何在listfield中实现它？此外，我想添加日期标头，将显示在他们收到的顺序的消息。请帮帮忙。提前谢谢。

浏览 1提问于2009-12-09得票数 0

1回答

将整个数据帧写入csv文件

python、pandas、dataframe、csv

我正在尝试将此数据帧写入csv文件。这是我的代码： import pandas as pd import numpy as np import os import fnmatch import re path = "/home/sarah/verilator-dev/PyDev/cov_add/TotalCoverage" file_list = os.listdir(path) df_list = [] line_list = [] coverage_list = [] for file in file_list: if fnmatch.fnmatch(file

浏览 0提问于2021-06-07得票数 1

1回答

使用astype更改熊猫数据类型时出错

python、pandas、dataframe

我在这里发现了一个类似的问题，但这个解决方案对我没有用。有人能帮我明白我做错了什么吗？ >>> df.dtypes Name object Country object Product object Price object dtype: object >>> df['Price'] = df['Price'].astype(str).astype(int) Traceback (most recent call last): File "<stdin>"

浏览 1提问于2021-09-10得票数 1

回答已采纳

1回答

将特定列值复制到与特定字符串匹配的另一列

python、pandas

我使用的是Python lib pandas。对于数据框中特定列与特定字符串匹配的所有行，我希望将该值从左侧的列复制到当前列。例如，对于具有值为'not available‘的列City的所有行，我希望将值从左边的列复制到当前列City。 import pandas as pd df = pd.DataFrame({'Country': ['France','England','U.S.A','Spain'], 'City': ['Paris'

浏览 11提问于2020-02-09得票数 0

回答已采纳

1回答

为什么股票代码和日期不同？

python、pandas、date

这是我使用Python的早期尝试。我正在从雅虎获得股票数据，但我可以看到股票代码，日期列标题低于高，低，开盘收盘价。我肯定漏掉了什么。那是什么？ import pandas as pd import numpy as np import datetime import pandas_datareader as pdr py.init_notebook_mode(connected=True) # we download the stock prices for each ticker and then we do a mapping between data and name of t

浏览 3提问于2020-04-08得票数 2

1回答

如何准备熊猫的纵向数据，然后从学习算法中使用？

python-3.x、pandas、machine-learning

我正在使用Pandas清理和准备我的数据集，以供学习算法使用，例如用于分类的随机森林或用于聚类的K-means。我曾经有过这样的数据集(举例说明)：然而，在我的数据集中，我面对的是一种不同的类型:纵向数据，如下图所示：正如您所看到的，对于每个单独的实例(人员或汽车)，同一特性都有多个值，其中每个值都是在特定的时间点添加的。以下是数据集中经过编辑的示例： "ID","Temperature","***", "001","36","***", "001",&#

浏览 3提问于2015-03-29得票数 1

1回答

使用pandas TimeGrouper对数据进行分组，间隔为5- 25分钟、25 - 45分钟、45 - 05分钟

python、pandas

我是python pandas的新手，我正在尝试每隔20分钟对我的数据进行分组。如果我使用Data.groupby([pd.TimeGrouper('20Min'))，它是工作的，但它给出了分组的数据，从0到20分钟，20-40分钟等。但我想分组我的数据在5到25分钟，25到45分钟等。你能帮我实现这个熊猫TimeGrouper吗？提前谢谢。

浏览 1提问于2017-08-04得票数 0

2回答

Python: str.contains和df.groupby在熊猫上的成功结合

python、pandas、dataframe、pandas-groupby、partial

我是一个相当新的程序员，我真的在努力做一个我正在做的项目。我有一个电影数据列表，在这里我试图显示一部电影在特定类型下的前十名。以下是我到目前为止所拥有的： import pandas from pandas import DataFrame data = pandas.read_csv('movies.csv') columns = data[['Title', 'Year', 'Score', 'Genre', 'Director', 'Runtime', 'Reven

浏览 9提问于2020-05-07得票数 0

回答已采纳

1回答

在Server 2008列中找到类似的匹配

sql-server、sql-server-2008

我在表中有一个数据类型varchar(30)的列TreeName，该表中有类似的条目，这些条目在表中输入错误，如： abc] abc， -ab c abc 桉树桉树；桉树桉树我们不能控制条目，但是我们需要找到相似的匹配并纠正它们。在同一列中查找可能的类似匹配(SQL查询)的最佳方法是什么？查询应该返回( abc ] abc，-ab c值与abc类似。一旦找到这些匹配项，就会用正确的值更新表。谢谢!

浏览 5提问于2015-09-24得票数 2

回答已采纳

1回答

Pandas并排堆叠条形图

python、pandas、matplotlib、plot、bar-chart

我想创建的堆叠条形图。剧情需要按"Pclass“、"Sex”和"Survived“分组。我已经设法通过大量乏味的麻木操作来生成下面的归一化图(其中"M“是男性，"F”是女性) 有没有办法使用pandas内置的绘图功能来做到这一点？我已经尝试过了： import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('train.csv') df_grouped = df.groupby(['Survived','Sex','

浏览 4提问于2017-11-26得票数 6

回答已采纳

3回答

“熊猫群”系列不起作用

python、pandas

我不能做一个熊猫系列的对象群。DataFrames很好，但我似乎不能用系列赛来做群比。有人能让这件事成功吗？ >>> import pandas as pd >>> a = pd.Series([1,2,3,4], index=[4,3,2,1]) >>> a 4 1 3 2 2 3 1 4 dtype: int64 >>> a.groupby() Traceback (most recent call last): File "<stdin>", line 1, i

浏览 7提问于2013-07-29得票数 10

回答已采纳

1回答

如何实现我自己的describe()函数，以便在resample()中使用

python、pandas

我正在处理表示向量(幅度和方向)的时序数据。我想要我的数据，并使用describe函数作为how参数。但是，describe方法使用标准平均值，我想使用一个特殊的函数来平均方向。因此，我在pandas.Series.describe()实现的基础上实现了我自己的describe方法 def directionAverage(x): result = np.arctan2(np.mean(np.sin(x)), np.mean(np.cos(x))) if result < 0: result += 2*np.pi return result d

浏览 1提问于2013-02-13得票数 5

回答已采纳

2回答

熊猫群中的例外

python、python-2.7、group-by、pandas、time-series

我刚刚开始学习用python进行网络分析的方法，使用的书，当我做一些groupby的时候，我被一个异常弄糊涂了。这是我的情况。我有一个NetFlow数据的CSV，我已经输入到熊猫。这些数据看起来类似于： dt, srcIP, srcPort, dstIP, dstPort, bytes 2013-06-06 00:00:01.123, 123.123.1.1, 12345, 234.234.1.1, 80, 75 我导入并索引数据如下： df = pd.read_csv('mycsv.csv') df.index = pd.to_datetime(full_set.pop(&

浏览 2提问于2013-09-17得票数 2

回答已采纳

1回答

如何在Dask中使用regex删除行？

python、python-3.x、pandas、dask

有没有办法在dask dataframe上使用regex条件来删除行？我有一个大约有1亿行的dask dataframe，我想在处理它之前删除B列中包含'the ocean‘的行。有没有办法做到这一点？下面是数据帧的样子： df = pd.DataFrame({ "A":[34,12,78,84, 96], "B":['land', '', 'human', 'seagull by the ocean', 'running fox'] }) patternDel = &#

浏览 0提问于2019-05-01得票数 0

1回答

具有聚合功能的pd.merge_asof

python、pandas、time-series

给定一个开始时间为新时间段(新工作班次)的数据帧，将截至下一时间段(工作班次)的所有销售额相加。 import pandas as pd df_checkpoints = pd.DataFrame({'time':[1,5,10], 'shift':['Adam','Ben','Carl']}) df_sales = pd.DataFrame({'time':[2,6,7,9,15], 'soldCount':[1,2,3,4,5]}) # This is the wanted

浏览 15提问于2021-04-18得票数 2

回答已采纳

1回答

迭代pandas groupby对象

python、python-3.x、numpy、pandas、iterator

下面的代码使用python 2.x而不是python 3.x执行。 df = pd.DataFrame(data) gb = df.groupby(['style']) for a, b in gb: #any command, iteration fails 错误是： Traceback (most recent call last): File "/root/anaconda3/lib/python3.4/site-packages/pandas/core/algorithms.py", line 143, in factorize so

浏览 6提问于2015-07-31得票数 1

1回答

创建自定义Jupyter小部件

jupyter、custom-widgets

我正在尝试创建一个自定义的jupyter小部件，它接受pandas.dataframe作为输入，并简单地呈现数据帧的修改后的html版本作为输出。在将数据帧定义为小部件的输入方面，我在一开始就陷入了困境我尝试过遵循在线示例，我认为我可以接受小部件的大多数字符串输入，但在尝试将数据帧作为输入时，我就迷失了方向我只是希望能够将一个数据帧传递到我的自定义小部件中，并验证它是一个数据帧

浏览 12提问于2019-07-11得票数 0

1回答

如何冻结pandas.describe()中的索引列？

python、pandas、dataframe、jupyter-notebook

嗨，伙计们，我有一个问题:如何冻结表pandas.describe()的第一列(索引)？图片中红色框中的内容谢谢!

浏览 0提问于2021-02-16得票数 0

回答已采纳

1回答

熊猫中仅用m>n键对m的n个变量进行分组和求和

python、pandas

我有下面的df df_dict = {"week":[1,1,1,4,5], "store":["A","B","C","A","C"], "var": [1,1,1,1,1]} df = pd.DataFrame(df_dict) week store var 0 1 A 1 1 1 B 1 2 1 C 1 3 4

浏览 0提问于2022-07-30得票数 1

回答已采纳

2回答

LINQ嵌套组性能

c#、performance、linq、entity-framework、grouping

我有一个完整的外部联接查询，从中提取数据(我使用EF6进行映射)： var query = from entry in left.Union(right).AsEnumerable() select new { ... } into e group e by e.Date.Year into year select new { Year = year

浏览 2提问于2015-01-30得票数 1

回答已采纳

2回答

新的Dataframe列作为其他行的通用函数(熊猫)

python、pandas、dataframe、vectorization

是在 DataFrame 中创建一个新列的最快(也是最有效)的方法，它是 pandas 中其他行的函数。请考虑以下示例： import pandas as pd d = { 'id': [1, 2, 3, 4, 5, 6], 'word': ['cat', 'hat', 'hag', 'hog', 'dog', 'elephant'] } pandas_df = pd.DataFrame(d) 产生的结果： id word 0 1 ca

浏览 2提问于2018-01-09得票数 4

回答已采纳