Pandas有效地应用依赖于索引值的函数_pandas dataframe groupby:应用涉及分组索引值的函数_Pandas:将函数应用于特定的行值和索引 - 腾讯云开发者社区

amazon-redshift、dask

有没有人有一种很好的、整洁和稳定的方式来达到以下目的： pandas.read_sql(sql, con, chunksize=None) 和/或 pandas.read_sql_table(table_name, con, schema=None, chunksize=None) 与SQLAlchemy & psycopg2连接到红移，直接进入DataFrame？解决方案应该能够处理大量的数据。

浏览 3提问于2017-09-27得票数 3

回答已采纳

1回答

为什么滑雪板的火车/测试分裂加上PCA使我的标签不正确？

python、pandas、scikit-learn、pca

我在Scikit中探索PCA -学习( Python 3上的0.20)使用Pandas来构造我的数据。当我应用测试/训练分割(仅当)时，我的输入标签似乎不再匹配PCA输出。 import pandas import sklearn.datasets from matplotlib import pyplot import seaborn def load_bc_as_dataframe(): data = sklearn.datasets.load_breast_cancer() df = pandas.DataFrame(data.data, columns=data.fe

浏览 1提问于2018-11-01得票数 1

回答已采纳

2回答

熊猫索引过滤器比非索引列过滤器慢。

python、pandas、optimization、indexing

我对两个Pandas查询进行了计时，希望通过索引实现更高的速度。然而，事实恰恰相反。有人能解释一下为什么吗？还是我做的事情不对？我的理解是，Pandas索引作为哈希表工作，查找将在固定时间内发生。就行过滤而言，我相信这是一种顺序过滤，每次应用一个过滤器时，数据帧中的所有行都会被扫描。数据集大约有800万行和7列。我试图通过数据不唯一的列中字符串值的组合进行筛选。 In [1]: import pandas as pd In [2]: df = pd.read_csv("/path/to/file", header=None, sep='\t', usecol

浏览 2提问于2018-02-07得票数 1

回答已采纳

2回答

从列中删除NaN值时会发生什么？

python、nan

在Pandas中，从列中删除NaN值后，在删除NaN值的索引处存储的值是什么？我能够成功地从列中删除NaN值，但是df的形状是完好无损的，但是该特定列的大小发生了变化。 1445 70.0 **1446 NaN** 1447 80.0 1448 70.0 1449 21.0 1450 60.0 1451 78.0 1452 35.0 1453 90.0 1454 62.0 1455 62.0 1456 85.0 1457 66.0 1458 68.0 1459 75.0 Name: LotFronta

浏览 16提问于2020-07-11得票数 0

回答已采纳

1回答

conda更新不工作包版本在conda列表中保持不变。

python、pip、jupyter-notebook、anaconda、conda

我正在尝试将pandas库更新为最新版本，但conda似乎没有这样做。我运行了下面的一行 conda update pandas 这是我得到的输出 Collecting package metadata (current_repodata.json): done Solving environment: done # All requested packages already installed. 然而，它似乎没有更新，因为版本仍然没有在我的木星笔记本工作。我还通过运行命令对此进行了测试 conda list | grep "pandas" 并收到了这个输出 pandas

浏览 5提问于2020-06-10得票数 1

回答已采纳

2回答

您会在ORDER BY子句中对时间戳使用CONVERT_TZ()吗？

mysql、convert-tz

谁能给我一个理由，为什么你一定要在ORDER BY子句的时间戳上使用CONVERT_TZ()。在这种情况下，时间戳将始终使用UTC。我在我正在使用的一段代码中发现了它，由于mysql_tzinfo_to_sql的原因，这段代码现在有错误，所以我只想删除它。我可以看到在其他地方使用它的原因，比如SELECT和WHEN。但是，在ORDER BY中使用它有什么合理的理由吗？

浏览 3提问于2012-10-06得票数 0

回答已采纳

1回答

Pandas中插值函数的不确定性

python、numpy、pandas、scipy

我正在使用pandas中的插值函数。下面是一个玩具示例，用于说明情况： df=pd.DataFrame({'Data':np.random.normal(size=200), 'Data2':np.random.normal(size=200)}) df.iloc[1, 0] = np.nan print df print df.interpolate('nearest') 我的问题是：interpolate函数是否适用于多列？也就是说，它是否使用多元分析来确定缺失字段的值？或者它只是简单地查看单个列？

浏览 10提问于2016-03-30得票数 2

1回答

如何解析guess_language以读取30000条tweet？

python、pandas、nltk

我正在使用来检测学校项目的推文语言。我用熊猫来读.csv文件。我大约有30000排。然而，我的问题是，猜测语言一次只能读一条推文。 Guess_language(“顶级新闻： “恩” 我是python的新手，我一直在试图找出这个循环，以及它的语句，已经有一天了，他们一直只返回一条推特。谢谢，如果这个问题很烂的话，我很抱歉。我使用了Kareem.下面建议的代码从guess_language import guess_language resdf = nodupdf[ nodupdf‘’text‘..apply(Guess_language) == 'en’] 它适用于小文件(1

浏览 3提问于2020-03-20得票数 0

回答已采纳

1回答

处理附加到数据帧的抽象

python、python-3.x、pandas、dataframe、reference

如果我有一个对dataframe的“引用”，在pandas中似乎没有办法附加到它，因为append和concat都不支持inplace=True参数。一个(过于)简单的例子： chosen_df, chosen_row = (candidate_a_df, candidate_a_row) if some_test else (candidate_b_df, candidate_b_row) chosen_df = chosen_df.append(chosen_row) 现在，因为Python做了类似于按值复制引用的事情，所以chosen_df最初将是对传递给some_test的任何候选

浏览 22提问于2019-08-21得票数 1

回答已采纳

1回答

PHP:内存中搜索

php、memcached

我的PHP应用程序需要支持来自web浏览器的Ajax调用，这些浏览器提供带有搜索字符串的控制器函数。该搜索字符串是针对内存中的名称+ID“数组”搜索的。当找到名称时，名称+ ID将添加到AJAX调用的返回结果中。最初，名称+ ID驻留在数据库中。我正在寻找最佳实践，PHP服务器的每个实例都懒洋洋地在第一次调用时从数据库加载列表，并在内存中对所有后续搜索执行子字符串搜索。 memcached对此有用吗？我知道它是内存中的键值存储库，但是它能处理子字符串搜索吗？还有什么最好的办法吗？

浏览 7提问于2015-05-28得票数 1

回答已采纳

1回答

loc方法来更新现有列一致性中的值？

python-3.x、pandas、dataframe

我有一个数据帧的玩具示例： import pandas as pd df = pd.DataFrame({'a':[1, 2, 3, 4, 5], 'b':['aa', 'bb', 'cc', 'dd', 'ee']}) 下面是我正在做的事情： df.loc[df.a < 3, 'a'] = df.a * 0.95 请建议熊猫如何“知道”将df.a调整为仅前2行(输出将是a列的前2行(0.95，1.90)？ a b 0 0.95

浏览 9提问于2021-03-30得票数 1

回答已采纳

1回答

关于pd.dataframe.reset_index()中的drop=True的问题

python、pandas

在Pandas数据帧中，可以使用reset_index()方法重置索引。一个可选参数是drop=True，根据文档： drop : bool, default False Do not try to insert index into dataframe columns. This resets the index to the default integer index. 我的问题是，第一句话是什么意思？如果我保留if False，它会尝试在df中将整数索引转换为新列吗？另外，我的行顺序是否会被保留，或者我是否也应该排序以确保正确的排序？

浏览 64提问于2019-04-18得票数 2

回答已采纳

1回答

在dask dataframe中使用行号作为索引，使用chunksize和skiprows过滤输入文件

dask

我有大约70 MD的MD模拟输出。固定行数解释和固定行数数据的模式在文件中有规律地重复。如何逐块读取Dask Dataframe中的文件，其中的解释行被忽略？我成功地在pandas.read_csv的skiprows参数中编写了一个lambda函数，以忽略解释行，只读取数据行。我将pandas输入的代码转换为dask one，但它不起作用。在这里您可以看到用dd.read_csv替换pandas.read_csv所编写的dask代码： # First extracting number of atoms and hence, number of data lines: with open(f

浏览 0提问于2019-10-04得票数 0

3回答

Pandas数据帧按索引切片

python、pandas、dataframe、indexing、slice

我正在尝试对带有索引的数据帧进行切片，但它给出了错误，因为'TypeError：'Int64Index(1，dtype='int64')‘是一个无效的键’ data = [['Alex', 10], ['Bob', 12], ['Clarke', 13]] df = pd.DataFrame(data, columns=['Name', 'Age']) index = df.index[df['Name'] == 'Bob'] print(index)

浏览 7提问于2019-03-01得票数 1

回答已采纳

2回答

ColumnarToRow是如何在Spark中高效运行的

apache-spark、pyspark、apache-spark-sql、query-optimization

在我的理解中，列格式更适合于MapReduce任务。即使对于某些列的选择，columnar也能很好地工作，因为我们不必将其他列加载到内存中。但是在Spark3.0中，我看到在查询计划中应用了这个ColumnarToRow操作，根据我从可以理解的，查询计划将数据转换为行格式。它如何比柱状表示更有效，管理该规则应用的洞察力是什么？对于下面的代码，我附加了查询计划。 import pandas as pd df = pd.DataFrame({ 'a': [i for i in range(2000)], 'b': [i for i in re

浏览 13提问于2020-11-12得票数 10

2回答

基于另一列在熊猫数据中添加新列

python、pandas、dataframe

我有一个数据，它有一个列用于，bmi，，基于该列，我想创建另一个列，它将显示bmi范围与该行的bmi值有关。下面是我的代码： for i in range(df["bmi"].count()): if df["bmi"][i] < 18.5: df["bmi_category"] = "Under Weight" elif 25 > df["bmi"][i] >= 18.5: df["bmi_category"] = "Healthy Weight"

浏览 3提问于2021-04-02得票数 0

回答已采纳

2回答

Pandas DataFrame查询

python、pandas

我是Python新手，我正在尝试从DataFrame中获取行/列的子集： In [1]: from pandas import Series, DataFrame import pandas as pd import numpy as np In [2]: example=DataFrame(np.random.rand(6,5),columns=['a','b','c','d','e']) In [3]: example.a={2,4,6,8,10,12} In [4]: example Out[4]:

浏览 1提问于2016-04-12得票数 0

回答已采纳

2回答

pandas:使用numba的groupby应用

python、pandas、pandas-groupby、numba

使用pandas v1.1.0。 pandas文档中有一个很好的例子，介绍了如何使用numba来加速rolling.apply()操作 import pandas as pd import numpy as np def mad(x): return np.fabs(x - x.mean()).mean() df = pd.DataFrame({"A": np.random.randn(100_000)}, index=pd.date_range('1/1/2000', periods=100_000, freq=

浏览 5提问于2020-08-05得票数 4

1回答

在_id上使用UUID而不是它的字符串表示可以提高性能？

mongodb、performance、key、uuid

在REST应用程序中，我需要将UUID字符串表示(在json中接收)转换为UUID Object，以便将其存储在MongoDB的_id字段中。我正在这样做，因为我听说在使用UUID和String时，查找/插入时间会提高性能。当使用UUID作为_id在MongoDB上而不是它的字符串表示时，真的有性能提高吗？(即使是小的性能提升也会对我产生很大的影响) PS:我看到说ObjectID的性能更好(不完全相同，不确定它是否适用于UUID)，但唯一的原因似乎是ObjectID和String的潜在规模更小。

浏览 2提问于2017-09-20得票数 4

回答已采纳

1回答

如何以MarkLogic cts开始查询: query ()

xquery、marklogic

我正在通过REST使用结构化查询访问MarkLogic数据库(v8.0-3)。我不知道如何配置索引来“以”文本字段的查询开始。例如，如果一家公司被命名为“星期日阳光公司”。我想通过搜索“太阳”(也包括“阳光”)找到它。这样的查询--以“太阳”开头--应该找不到公司。例如，下面的“开始”查询应该找不到文档，但是它找到了： xquery version "1.0-ml"; xdmp:document-insert("/test/doc",<a>Sunday Sunshine Inc.</a>); let $term := "sun

浏览 1提问于2015-09-04得票数 3

回答已采纳

1回答

从Pandas输出中删除行数

python-3.x

我使用pandas接收一个csv文件，只提取一列，并将其输出到一个文本文件。我的问题是，当它输出时，它会添加一行带有行号的行。我需要那个行号不存在。到目前为止，我已经尝试了以下代码：(当/如果我让它工作时，打印将被file.write(df)替换。 import pandas as pd from pandas import DataFrame pd.set_option('display.max_rows', None) pd.set_option('display.max_columns', None) file=open('BlockedIPs

浏览 19提问于2019-07-26得票数 2

1回答

从系列中为熊猫数据添加行

python、pandas

让df成为一个pandas.DataFrame对象。让se成为一个pandas.Series对象。 df列是se的指标。我希望从df中向se添加一个新行，并将索引设置为555。我使用的命令是df.loc[555]=se。似乎起作用了？我知道A值正试图从DataFrame错误/警告中在片的副本上设置。我明白了，我看过文件了。不过，有两个问题：我真的应该关心这个警告吗？这样做的推荐方法是什么，这样就不会弹出警告？谢谢。

浏览 3提问于2014-12-08得票数 0

回答已采纳

1回答

键错误:从索引列“Date”绘制一行时的“日期”

pandas、plot、line、timeline

我正试图用我的第一列“日期”作为x轴来绘制熊猫的一个相当简单的图表，但是我偶然发现了一个关键的错误，我不知道问题在哪里。我在Anaconda发行版下使用Python 2。 import pandas as pd import numpy as np import matplotlib.pyplot as plt #read file df=pd.read_csv("C:\Users\sophi\Desktop\ResidentialLoans.csv",index_col='Date') #extracting the individual componen

浏览 0提问于2018-12-07得票数 1

1回答

获取NaN值在pandas中的所有行和列位置

python、pandas、tuples、nan

我怎样才能得到Pandas中有NaN值的所有位置。例如, sample = pd.DataFrame(np.zeros(shape=[5,5])) sample.iloc[0,0] = np.nan sample.iloc[2,3] = np.nan sample.iloc[4,3] = np.nan 是Pandas数据帧，其中诸如(0,0)、(2,3)和(4，3)的位置具有NaN值。因此，我想要一个这样的元组列表 [(0,0),(2,3),(4,3)] 我从哪能买到这个？问候

浏览 0提问于2017-02-10得票数 0

1回答

使用django模型方法作为静态函数

python、django、pandas、class、django-models

我想使用django模型方法作为静态函数。更具体地说，我想在我的表Patient的一个实例上使用一个名为age的模型方法，如下所示，但我还想使用pandas apply函数将age函数应用于pandas数据帧中的行。这是可能的吗?还是我必须专门编写另一个函数来处理我的数据帧？ class Patient(models.Model): pat_id1 = models.AutoField(db_column='Pat_ID1', primary_key=True) birth_dttm = models.DateTimeField(db_column='

浏览 0提问于2019-12-26得票数 0

1回答

应用scipy filter函数后保留pandas行号(使用NANs)

python、pandas、scipy

给定pandas数据帧： PT011 0 -0.160 1 -0.162 2 NaN 3 -0.164 4 NaN 5 NaN 6 -0.166 7 -0.167 丢弃NaNs后...： signal_PT011: 0 -0.160 1 -0.162 3 -0.164 6 -0.166 7 -0.167 我应用了scipy.butter函数。我希望保留pandas行号，因为过滤后的数据应该回到新列中的原始pandas数组，并与“旧”行号对齐。当我应用scipy.butter函数时，我得到了没有行数的列表： Filtered signal PT011

浏览 2提问于2019-08-09得票数 0

回答已采纳

4回答

如何查找具有所有重复值的行并将其删除

python、pandas、duplicates

假设我们有一个这样的行 -------------------- a a a a a a b a a a a a a a a a a a a a a a a a a a b a a a 我希望删除第一行和第三行，所有行值都需要相同，但不需要其他任何值。我该怎么做呢？ # Converting d to pandas Data Frame dfObj = pd.DataFrame(d_balanced) # Checking for duplicates doop = dfObj.duplicated().any() print(doop) # Remove duplicates an

浏览 0提问于2021-04-11得票数 0

1回答

尝试使用df.index.get_loc(recession_start)时返回密钥错误

python、pandas、jupyter-notebook

我试图通过观察df列中连续值的趋势来找出衰退何时结束。我想回到GDP连续两个季度上升的季度。我已经在下面的函数中准确地指出了衰退开始的时间： def get_recession_start(): df = get_data() for i in range(1, len(df) - 1): if (df.iloc[i]['GDP'] < df.iloc[i - 1]['GDP']) and (df.iloc[i + 1]['GDP'] < df.iloc[i]['GDP']):

浏览 0提问于2019-09-18得票数 2

1回答

如何有效地将字典中的数据添加到dataframe中？

python、python-3.x、pandas

在for循环中，我使用函数返回的字典填充数据。也许我没有用正确的术语进行搜索，或者我解决这个问题的方法是错误的，但是我还没有在网上找到一个适用的解决方案。我认为我目前做这件事的方式效率很低。我对Pandas相当缺乏经验--我尝试了一些尝试使用合并方法，以及一些concat、append和remove_duplicates的组合，但是我还没有完全管理好我想要的东西。我目前的解决方案是迭代字典项： for company in Company.instances: for resource in company.resources: for product in res

浏览 0提问于2019-08-24得票数 0

回答已采纳

2回答

从熊猫栏索引位置检索数据并粘贴到PyQt中

python、pandas、pyqt、qlineedit

我希望检索Pandas数据帧的一个索引位置的日期，并将其粘贴到LineEdit应用程序的PyQt中。到目前为止，我得到的是： purchase = sales [['Total','Date']] pandas_value = purchase.iloc[-1:]['Date'] # last position of the "Date" column pyqt_value = str(pandas_value) # This returns : 67 2016-10-20

浏览 1提问于2016-10-23得票数 2

回答已采纳

1回答

大熊猫更新后应用功能存在的问题

python、pandas、apply

我无法使用Pandas的新版本0.9.1 (在Python2.7下)运行以前版本的特定代码。我运行的代码如下： myfunc = lambda x: makeDfCurve(frame,x) dates = Series(frame.index, index = frame.index) # new Time series filled temporarily # with dates taken from a certain dataframe 'frame' index # and here's where the code crash: frame['c

浏览 0提问于2012-11-21得票数 0

2回答

将序列索引设置为具有更多级别的另一个索引

python、pandas、dataframe

我试图用一个比系列的原始索引包含更多级别的索引( Series，ix)来设置a1的索引。 >>> a = pd.DataFrame({'a': [1, 2, 3], 'b': ['b', 'b', 'b'], 'x': [4, 5, 6]}).set_index(['a', 'b']) >>> a x a b 1 b 4 2 b 5 3 b 6 >>> >>> a1 = a

浏览 1提问于2019-05-15得票数 1

回答已采纳

3回答

为什么所有虚假bools列表的numpy.argmax值为零？

python、numpy

我使用numpy.argmax来计算第一个索引，其中True可以在bools向量中找到。调用pandas.Series给出的是Series索引，而不是元素索引。我在代码中发现了一个微妙的错误，当向量全部为False时会弹出；在本例中返回索引0似乎很危险，因为True很可能是在第一个元素中的True。这个返回值的设计选择是什么？ >>> numpy.argmax([False,False,False]) 0 >>> numpy.argmax([True, False, True]) 0 >>> s = pandas.Series( [ F

浏览 3提问于2017-08-18得票数 6

回答已采纳

1回答

组合一个数据文件列表

python-3.x、pandas、indexing、concat

我有一个有几个..csv文件的文件夹。每个包含数据的时间，高，低，开放，Volumefrom，Volumeto，加密货币关闭。我成功地将.csvs加载到一个数据文件列表中，并删除了列Open、High、Low、Volumefrom、Volumeto，这是我不需要的，给我留下了时间，并关闭了每个数据帧。现在我想把数据列表组合成一个数据，索引以最小的硬币的时间戳开始，在这个例子中是iota。这是我到目前为止编写的代码： import pandas as pd import os # Path to my folder PATH_COINS = r"C:\Users\...\C

浏览 1提问于2018-09-25得票数 0

1回答

TypeError:使用替换映射时不能调用“dict”对象

python-2.7、pandas

我有一个dataframe (df1)，如下所示： Date Value 19920507 1.02 19930602 1.11 19980802 6.07 我想基于第二个数据like (df2)重新映射df2，如下所示： Date1 Date2 19920507 1 19930602 2 19980802 3 我将在第一个数据文件中替换Date，如下所示： list_1=df2.Date1.tolist() list_2=df.Date2.tolist() replacement_map = {int(i1): int(i

浏览 3提问于2016-12-04得票数 0

回答已采纳

1回答

如何在dask中执行group-by聚集后保留分区

python、pandas、dataframe、distributed、dask

在我的应用程序中，我使用groupby对dask数据帧执行聚合，并按某个id排序。但是，我希望聚合保持分区划分，因为我打算执行与其他相同分区的数据帧的连接。 import pandas as pd import numpy as np import dask.dataframe as dd df =pd.DataFrame(np.arange(16), columns=['my_data']) df.index.name = 'my_id' ddf = dd.from_pandas(df, npartitions=4) ddf.npartitions #

浏览 0提问于2018-02-17得票数 4

2回答

如何获取pandas序列中某个值的索引

python、pandas

在pandas序列数据结构中获取一个值的索引的代码是什么？ animals=pd.Series(['bear','dog','mammoth','python'], index=['canada','germany','iran','brazil']) 提取“长毛象”索引的代码是什么？

浏览 60提问于2018-12-31得票数 1

1回答

为什么.str方法改变了熊猫序列的形状？

python、pandas、dataframe

数据的类型 In [1]: print(type(ebola_melt)) <class 'pandas.core.frame.DataFrame'> 感兴趣的列是这样创建的 In [2]: ebola_melt['str_split'] = ebola_melt['type_country'] .str.split('_') In [3]: print(type(ebola_melt['str_split'])) <class 'panda

浏览 0提问于2017-07-25得票数 0

3回答

如果我使用python pandas，还需要结构化数组吗？

numpy、scipy、pandas

既然pandas提供了数据帧结构，那么numpy中还需要结构化/记录数组吗？我需要对需要这种结构化数组类型框架的现有代码进行一些修改，但从现在开始，我正在考虑使用pandas代替它。我会不会发现我需要一些pandas不提供的结构化/记录数组的功能？

浏览 2提问于2012-08-21得票数 22

回答已采纳

1回答

绘制datetime数据框会导致错误视图限制最小值-36495.50013946759小于1

python、pandas、matplotlib

我想使用matplotlib绘制一个数据帧。为什么在绘制数据帧时出现错误？ ds列应该只包含日期时间值。这至少是我所期望的。 import pandas as pd import numpy as np import datetime import matplotlib.pyplot as plt np.random.seed(42) start = pd.datetime(2000, 1, 1, 0, 0, 1) ds = start value = 10.0 df = pd.DataFrame(columns=["ds", "y"]) for runn

浏览 13提问于2019-02-11得票数 1

回答已采纳

1回答

多索引数据帧，熊猫

python、pandas、dataframe、multi-index

我正在尝试操作excel文件中的数据，但是它合并了列的标题，我设法将它们转换为pandas。请参考下面的原始数据示例。所以我转换成了这种格式。我的最终目标是获得下面的格式，并绘制一段时间内的品牌商品及其销售数量和价格，但是我不知道如何访问多索引数据框架中的信息。你能给我提个建议吗？谢谢。我的代码： import pandas as pd df = pd.read_excel('path.xls', sheet_name = 'data', header = [0,1]) a = df.columns.get_level_values(

浏览 4提问于2021-03-10得票数 0

1回答

在yaiImpute包中构建yai对象时的k个数

我正在尝试在yaImpute包(1.0-19)提供的yai函数中找到马氏最近邻方法中使用的最佳近邻数目。我尝试用不同数量的k用'mal‘方法运行yai函数： mal<-yai(x=x,y=y,method="mahalanobis", k=5, noTrgs= FALSE, nVec=NULL, pVal=.05, ann=F) mal<-yai(x=x,y=y,method="mahalanobis", k=20, noTrgs= FALSE, nVec=NULL, pVal=.05, ann=F) 但是，当我观察它们的rmsd (均方根

浏览 6提问于2013-10-09得票数 1

1回答

如何使用应用于每行的函数替换Pandas缺少的值？

python、pandas、missing-data

给定以下源数据： import pandas as pd, numpy as np import re data = [ ("1 Bedroom 1 Bathroom Apartment", 1, 1), ("We've got a great 2br2ba over here!", np.nan, np.nan), ("Luxurious Apartment. Bedrooms: 3 Bathrooms: 3", np.nan, np.nan)] df = pd.DataFrame(data, columns = ['des

浏览 0提问于2020-10-14得票数 0

1回答

是否适用于非分组数据？

python、pandas

尝试实现一个简单的函数，将一个组标记为True (随机) Dataframe: In [145]: df = pd.DataFrame({'a': [1,1,1,2,2], 'b': [3,3,3,3,3]}) In [146]: df Out[146]: a b 0 1 3 1 1 3 2 1 3 3 2 3 4 2 3 函数： def pickone(df, group, out): u = df[group].unique() p = np.random.choice(u, 1)[0] df[out]

浏览 5提问于2017-07-23得票数 0

回答已采纳

2回答

熊猫系列不能获得索引

python、pandas

不知道这里有什么问题..。我想要的是这个系列中的第一个也是唯一的元素。 >>> a 1 0-5fffd6b57084003b1b582ff1e56855a6!1-AB8769635... Name: id, dtype: object >>> len (a) 1 >>> type(a) <class 'pandas.core.series.Series'> >>> a[0] Traceback (most recent call last): File "<pys

浏览 1提问于2017-07-13得票数 4

回答已采纳

2回答

不使用默认键的Spring可缓存

spring、spring-boot、spring-cache

当我使用默认键时，Spring不会缓存我的函数，例如- @PostMapping("getDashboardDataNew") @Cacheable(value="myDash") public DashboardDto getHomeDashboardDataNew(@RequestBody DashboardRequest dashboardRequest) { LOGGER.info(" Get All the Dashboard Information : "); //code return dashboardDt

浏览 0提问于2019-07-09得票数 0

回答已采纳

1回答

应该索引只能以0或1作为值的列吗？

mysql、sql

我有一个SQL表，其中有一个名为enable的列，它只能存储0或1。我想问一下，是否在这个列上应用索引。如果是的话，它将如何提高性能？，PS，，表中有很多行，0和1的比例几乎相等。值为0的行数=值为1的行数

浏览 0提问于2020-03-27得票数 0

2回答

使用Pandas DataFrame中的多列键查找单个值

python、pandas、dataframe

这条线似乎没有涵盖我经常遇到的情况。如何使用一组列条件作为键返回单个值，而不是序列或数据？这似乎是一种共同的需要。假设你有一个信息数据库，你需要从其中提取问题的答案，但你需要一个答案，而不是一系列可能的答案。我的方法看上去像是“无赖”-不是毕达克？也许是因为技术原因不好。 import pandas as pd d = {'A': [1, 1, 1, 2, 2, 2, 3, 3, 3], 'B': [1, 2, 3, 1, 2, 3, 1, 2, 3], 'C': [1, 3, 5, 2, 9, 7, 4, 3, 2]} df =

浏览 3提问于2021-07-13得票数 1

回答已采纳

2回答

使用包含括号的字符串索引选择行

python、pandas、dataframe、indexing

我的表review_cp是在啤酒名上索引的。我从下面的代码中得到了前三位啤酒的名字。 top_3_spacy = review_cp.groupby('Name')['Average Evaluation Score'].mean().sort_values(by='Average Evaluation Score', ascending = False).index[:3].tolist() 结果是['Rodenbach Caractère Rouge', 'Dorothy (Wine Barrel Aged)'

浏览 2提问于2020-10-03得票数 1

回答已采纳

2回答

按整数编制熊猫数据索引

python、pandas

我似乎找不到一种优雅的方法来通过整数索引来一个。在下面的示例中，我希望从'A'列的第一个元素获得'a‘值。 import pandas df = pandas.DataFrame( {'A':['a','b', 'c'], 'B':['f', 'g', 'h']}, index=[10,20,30] ) 我希望df['A'].ix[0]和df['A'][10]都能返回'a'

浏览 3提问于2012-07-23得票数 11

回答已采纳