Pandas -如何创建从两个连续行的值派生的新列？_如何从给定列的值派生新列？_Pandas:基于其他列的值创建新列(按行) - 腾讯云开发者社区

python、pandas、dataframe

我正在使用pandas数据帧，我想根据情况更新我的列“signal”。在迭代列时，如果值为“1”或“-1”，并且下一行具有相同的数字，则第二个“1”或“-1”必须更新为0。最后，不应该有两个连续的1或-1。我正在尝试此代码，但没有得到任何更改。 for i in df['signal'].iteritems(): if i == 1 : while next() == 1: i=0 elif i == -1: while next() == -1: i=0

浏览 32提问于2020-12-17得票数 1

回答已采纳

1回答

Python --老熊猫合并的结果比新的熊猫多。

python、pandas

我有两个环境：环境#1: Python3.7.5Pandas 0.23.4 环境#2: 3.8.10Pandas 1.3.4 Python 我在两个版本中都有相同的代码，没有对其进行任何修改。但是，我有这一行特定的代码，这些代码似乎导致了问题/产生了不同的输出： df_result = pd.merge(df_l, df_r, left_on=left_on, right_on=right_on, how='inner', suffixes=suffixes) df_l和df_r只是读取Excel文件。我在两个版本的调试器中检查了它们，它们是完全相同的，所以应该没问题。另外

浏览 1提问于2021-12-14得票数 0

回答已采纳

1回答

pandas数据框中2列在一定条件下的差异

python、pandas、pandas-groupby

我有一张这样的床单。我需要计算“当前高”的绝对值--特定“工具”和“符号”的“前一天收盘价”。所以我使用pandas数据帧的.shift(1)函数创建了一个滞后关闭列，然后我减去了当前高和滞后关闭列，但也减去了两个不同的“仪器”和“符号”。但如果出现新的符号或仪表，我希望第一行为NULL，而不是减去当前的高电平和滞后的关闭列。我该怎么办？

浏览 0提问于2020-06-15得票数 0

1回答

如何根据蓝色数据工厂中的列数据类型将动态表中的空值替换为“均”或“未知”？

azure-data-factory、data-migration

我有来自两个数据源的数据，即SQL和PostgreSQL。对于每个表，如果列类型为整型，则替换具有“空值”的列，如果列类型为字符串，则替换为“未知”。我尝试过使用派生列，但不确定如何传递动态列值。我创建了一个包含“LookUp”活动和“ForEach”活动的管道，并调用了数据流。从SQL到Postgres的迁移正在进行，因此需要验证表和空值。

浏览 3提问于2022-08-16得票数 1

1回答

Django迁移:如何使现有模型非抽象？

django、database-migration

我有两个模型类Base和派生(从Base继承)和Base是抽象的。现在我意识到基地应该是具体的。我如何创建为我做转换的迁移呢？目前，我面临的主要问题是派生表中需要的base_ptr_id列，这是一个主键。必须添加该列并接收指向表基中相应行的正确值。目前，我正在执行这些迁移操作：创建模型库使用RunSQL将数据从派生表复制到基表。将OneToOneField base_ptr添加到使用primary_key=False派生的使用RunSQL将ids复制到base_ptr_id列中从派生的id列中删除将OneToOneField base_ptr改为prima

浏览 3提问于2015-05-20得票数 2

回答已采纳

1回答

在第一个和最后一个实值之间寻找具有递归nan级数的列

python、dataframe

我目前正在清理一个相当大的时间序列文件。正如您在下面的dataframe中所看到的，大多数列都是以一些NaNs开头和结尾的。 import pandas as pd import numpy as np df = pd.DataFrame({ 'a': [np.NaN, np.NaN, 3, 4, 5, 3, 2, 1, 2, 1, np.NaN, np.NaN], 'b': [np.NaN, 80, 84, 30, 3, np.NaN, np.NaN, np.NaN, 4, 3, 2, 1],

浏览 6提问于2020-05-28得票数 0

回答已采纳

1回答

使用Pandas groupby.apply删除复制时出错

pandas、pandas-groupby、valueerror

我有一个Pandas数据框架，它有一些重复的值，而不是行。我想使用groupby.apply删除复制。一个例子如下。 df = pd.DataFrame([['a', 1, 1], ['a', 1, 2], ['b', 1, 1]], columns=['A', 'B', 'C']) A B C 0 a 1 1 1 a 1 2 2 b 1 1 # My function def get_uniq_t(df): if df.shape[0] > 1:

浏览 3提问于2019-12-07得票数 1

回答已采纳

1回答

如何从一个单元格中获取一个值，并将其用作另一个单元格中一个术语的前缀？

google-sheets

我在一个电子表格中有两个表，其中包括所有单词/定义的列表，如下所示： 📷 另一个是衍生词，像这样： 📷 在派生的单词表中，我希望它在C列中添加“定制”单词，加上单词"trut“。就像{custom} trut。它通过使用派生表中的B列作为查找主表中行的键来提取custom。然后从主表中提取相应的custom列值。这是如何做到的呢？我知道如何实现基本公式，但不知道如何完成模板，以及如何使用输入作为键。

浏览 0提问于2022-09-29得票数 1

回答已采纳

2回答

Python dataframe减去累积列

python、pandas、dataframe、date-range

我有一些数据，我正在导入到一个Pandas的数据。这些数据是“累积的”，并按时间序列编制索引，见下文： Raw data 2016-11-23 10:00:00 48.6 2016-11-23 11:00:00 158.7 2016-11-23 12:00:00 377.8 2016-11-23 13:00:00 591.7 2016-11-23 14:00:00 748.5 2016-11-23 15:00:00 848.2 数据每天更新，因此时间序列将每天向前移动一天。我需要做的是

浏览 2提问于2016-11-24得票数 6

回答已采纳

2回答

将csv读入pandas数据帧，但避免NaN行

python-3.x、pandas、csv

我有一个csv文件，其中有73行数据和16列，我想读取它并将其传递给pandas数据帧，但当我这样做时 data_dataframe = pd.read_csv(csv_file, sep = ',') 我得到了3152行和22列，73行和16列的数据，其余的只有纯NaN值。如何告诉pandas读取有效的行和列数据，并避免所有这些额外的NaN数据？

浏览 43提问于2021-11-16得票数 0

回答已采纳

2回答

如何永久地从DataFrame中删除数据

python、pandas、dataframe

读取CSV数据文件后，使用： import pandas as pd df = pd.read_csv('data.csv') print df.shape 我得到DataFrame 99行(索引)长： (99, 2) 为了清除DataFrame，我继续并应用了dropna()方法，该方法将其减少到33行： df = df.dropna() print df.shape 其中的指纹： (33, 2) 现在，当我迭代这些列时，它会打印出所有的99行，就像它们没有被删除一样： for index, value in df['column1'].iteritems

浏览 3提问于2016-10-16得票数 3

回答已采纳

2回答

将新列插入到数据帧中会给出'ValueError:值的长度(4)与索引的长度(6)不匹配‘

python、python-3.x、pandas、data-science

我用pandas库创建了一个数据帧。我想向dataframe中添加一列。然而，我得到了以下error.But，我想我必须输入与lines.How数量一样多的数据，我可以在我想要的行和列中输入信息吗？如果不输入数据，如何创建列？ import pandas as pd kd = pd.DataFrame(data) insertColumns = kd.insert(0, "Age", [21, 23, 24, 21],True ) print(kd) 错误： ValueError: Length of values (4) does not match length o

浏览 302提问于2020-10-10得票数 2

回答已采纳

1回答

如何在Pandas中解析带有制表符分隔值的csv文件(在行元素中使用制表符分隔值)

pandas

如何读取制表符分隔的文件，该文件的某些列中包含竖线'|‘。当我尝试使用pd.read_csv(filename, sep='\t')读取它时，pandas将带有'|‘文件的字符串解释为单独的列，我得到一个解析错误。我是不是遗漏了什么？示例数据集： Col1|Col2|Col3 1|2|3 4|5|6 7|a||9 Pandas将第三行解释为有四列，因为行元素'a|‘中有一个'|’。相反，我希望熊猫将'a|‘读作属于Col2。在Python中有没有更好的库来做这件事，或者有一种正确的方法来解析这种数据？

浏览 48提问于2020-08-31得票数 1

1回答

每十行递增一个计数器

excel、count、runtime

我有一个超过50,000行的Excel电子表格，我想添加一个列，通过向下每10行分配一个递增的数字，有效地将数据分组为10行。为了澄清，这就是我要做的： Col A Col B Decile 1 * * 1 2 * * 1 3 * * 1 4 * * 1 5 * * 1 6 * * 1 7 * * 1 8 *

浏览 0提问于2015-11-06得票数 1

3回答

Mysql根据另一列更改一个列值

php、mysql、mysqli

我有一个自动增量列。我想根据这个自动增加的列值更改另一个列的值。 another column value ==> (auto increment column value/3) +1 如何通过query来实现？有可能吗？我想为新创建的行做这件事。

浏览 0提问于2015-10-24得票数 1

1回答

熊猫:用布尔值代替给出不一致的结果

python、pandas、boolean

我有一个dataframe，它由像x和v这样的检查点组成，用下面的行替换为booleans： df.replace({'v': True, 'x': False}, inplace=True) 在运行df.replace()之前，根据df.dtypes，所有列的类型都是object。在replace()之后，除了一个类型为bool的列之外，其他所有列都仍然是object，并且其中的值都是numpy.bool_类型。Pycharm为True值显示这个红色背景的特定列，如下所示。为什么会发生这种事？object不适合存储布尔人吗？为什么pandas要为这

浏览 0提问于2018-06-10得票数 3

回答已采纳

1回答

Pandas中基于条件的行的求和

python、pandas

我试图理解如何根据Pandas中的两个索引来总结行的子集。第一个索引对行进行分组，第二个索引将确定要和的行。在一个最小的例子中，假设我有dataframe index1 | index2 | value ------------------------ a | 1 | 10 a | 2 | 11 a | 3 | 12 b | 1 | 20 b | 2 | 21 b | 3 | 22 如何将对应于索引1、和 2 的行和起来，但仍将它们按索引、a 和 b**.分组即以

浏览 2提问于2017-03-06得票数 1

回答已采纳

1回答

将数据从SQL复制到azure数据湖gen 2时创建的

sql、azure、azure-data-factory

我希望将数据从ADLS gen2中的csv文件复制到SQL。在Sql表中，有一个名为created on的列。但是csv文件没有那个列。如何与其他列一起复制创建的当前日期？

浏览 4提问于2022-11-17得票数 0

回答已采纳

1回答

如何添加在Pandas DataFrame中特定行处开始和停止的计数器列？

python-3.x、pandas

我在Pandas中有一个现有的DataFrame，该列包含3个不同的值(Column1)。我希望能够创建一个列，以便它在每个“开始”(Start)处计数每一行，并在下一个"End“(Column2)停止计数。做这件事最好的方法是什么？我不知道如何处理这个问题，输出是一个严格的要求。样本输出： Column1 Column2 0 0 0 0 0 0 0 0 Start 1 0 2 0 3 0

浏览 0提问于2019-07-08得票数 1

回答已采纳

1回答

从SQL到SSIS派生的列月份名称和月份的第一次

sql-server、ssis

我有以下sql格式从SQL到SSIS派生的列月份名称和月份的第一次 DATENAME(MM，DATEADD(mm，DATEDIFF(mm，0，GETDATE())，0)) -月份名称 DATEADD(mm，DATEDIFF(mm，0，GETDATE())，0) -月1日无法使这些在SSIS中作为派生列工作我如何转换请小组

浏览 0提问于2019-01-28得票数 -1

回答已采纳

2回答

在具有identity列的两个SQL数据库之间迁移数据

sql、sql-server

这是一个场景。我有两个数据库(A和B)，它们的模式相同，但记录不同。我想在DB A中将B's数据转移到相应的表中。假设我们在两个数据库中都有名为Question和Answer的表。DB A在Question表中包含10条记录，在Answer表中包含30条记录。这两个表都有以1(& auto increment)开头的identity列Id，并且Question和Answer之间存在一对多的关系。在DB B中，Question表中有5个条目，Answer表中有20个条目。我的要求是将两个表的数据从源DB B复制到目标DB A中，并且在数据传输过程中保持两个表之间的关系，同时

浏览 0提问于2018-09-18得票数 0

1回答

熊猫DataFrame前测值减去最小值

python、pandas、dataframe

我想将DataFrame中列的最小值从其上方的值中减去。在R中，我会这样做： df <- data.frame(a=1:5, b=c(5,6,7,4,9)) df a b 1 1 5 2 2 6 3 3 7 4 4 4 5 5 9 df$b[which.min(df$b)-1] - df$b[which.min(df$b)] [1] 3 我如何在pandas中做同样的事情呢？更普遍的情况是，如何提取满足特定条件的pandas DataFrame中的行号？

浏览 1提问于2017-04-11得票数 0

回答已采纳

1回答

如何组合dataframe列

python、pandas

我有一个dataframe df，它看起来像： <class 'pandas.core.frame.DataFrame'> RangeIndex: 810 entries, 0 to 809 Data columns (total 21 columns): event_type 810 non-null object datetime 810 non-null datetime64[ns] person 810 non-null object ... from_file 0 non-null float64 dt

浏览 2提问于2019-02-24得票数 0

回答已采纳

1回答

TA-LIB Python金融库-在新的数据方法上的应用

ta-lib

我在日线图上对5000只股票应用了塔里布，并将结果集保存到文件/数据库中。现在，一天结束时的新数据-每只股票一行新数据到达。我们如何处理新的数据。 GIven每个指标都有自己的回看功能--目前使用默认值--我是否需要将过去X天的数据回调到pandas框架中，然后重新应用该指标，然后只保存具有TA值的最新行？或者让程序循环无限地将pandas帧保存在缓存中，然后应用TA并保存最后一行？人们可以评论一下这是如何使用的吗-每天-4小时-1小时和1分钟的间隔数据将被应用。请分享想法和代码，如果有的话，如何最好地处理这个问题。

浏览 16提问于2020-08-11得票数 0

2回答

Python 2.7将两个值作为列表连接到两个不同列的同一行(来自csv文件)

python-2.7、list、csv、row、col

我有一个.csv文件，其中包含两个感兴趣的列‘纬度’和‘经度’，并填充了值我想返回两列中每一行的纬度、经度对作为列表... 10.222，20.445……以此类推，对于我的csv的每一行... > import pandas colname=‘纬度’，‘经度’data = pandas.read_csv('path_name.csv'，names=colnames)的问题 latitude = data.latitude.tolist() longitude = data.longitude.tolist() 它为每个纬度和经度列的所有值创建了两个列表如何在pytho

浏览 4提问于2017-06-26得票数 0

2回答

更新几个烤柱之一的成本

postgresql、performance、postgresql-performance

我在Postgresql 12中有一个表，它有--除其他列之外--两列a和b类型的bytea，它们大部分时间都是TOASTed。对于他们两个，STORAGE都被设置为EXTENDED。假设所有其他列都可以存储在非烤表中，那么对列b的更新是否需要再次写入列a？Postgres是将一行的a和b列的值存储在烤面包桌的一行中，还是存储在两行中，还是取决于此？然后呢？您可以假设a和b中的值通常占据多个to，最高可达几百to。

浏览 0提问于2019-10-30得票数 1

回答已采纳

1回答

从系列中为熊猫数据添加行

python、pandas

让df成为一个pandas.DataFrame对象。让se成为一个pandas.Series对象。 df列是se的指标。我希望从df中向se添加一个新行，并将索引设置为555。我使用的命令是df.loc[555]=se。似乎起作用了？我知道A值正试图从DataFrame错误/警告中在片的副本上设置。我明白了，我看过文件了。不过，有两个问题：我真的应该关心这个警告吗？这样做的推荐方法是什么，这样就不会弹出警告？谢谢。

浏览 3提问于2014-12-08得票数 0

回答已采纳

1回答

使用[]而不是点访问Dataframe列时的“SettingsWithCopyWarning”

python、python-2.7、pandas

当从两个现有列创建新列时，为什么pandas要抛出一个SettingsWithCopyWarning A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead 跑步时 df['c'] = df['a'] - df['b'] 但跑的时候不行 df.c = df['a'] - df['b'] 此外，c列是使用df['c'

浏览 6提问于2015-10-04得票数 1

1回答

熊猫-附加DataFrame

python、pandas、dataframe

当附加到熊猫DataFrame时，附加的值不会添加到DataFrame中。我正在尝试创建一个空的DataFrame，然后能够在后面的代码中添加更多的行。 import pandas df = pandas.DataFrame(columns=["A"]) df.append(DataFrame([[1]])) print(df) 输出： Empty DataFrame Columns: [date, start_time, end_time] Index: [] 知道我可能做错了什么吗？根据文档，这应该像预期的那样在A列下的一个新的值1行中工作，但是，如上所述，它没有追

浏览 4提问于2021-06-19得票数 1

回答已采纳

2回答

如何在pandas中使用向量化而不是for循环

python、pandas、dataframe、for-loop、vectorization

我正在尝试为我的工作建立一个机器学习算法。我用于训练和测试的数据有17k行和20列。我试着在另外两个列的基础上添加一个新列，但是我编写的for循环太慢了(需要3秒才能执行) for i in range(0, len(model_olculeri)): if (model_olculeri["Bel"][i] != 0) and (model_olculeri["Basen"][i] != 0): sum_column = (model_olculeri["Bel"][i]) / (model_olculeri["

浏览 59提问于2021-10-25得票数 0

回答已采纳

1回答

SSIS:如何在数据流中生成日期值？

ssis

我使用SSIS将数据从SQLAnywhere转换为Server，这两个数据库中的模式大致相同。但是我引入了一个新的列CreatedAt datetimeoffset not null，我需要为它生成一个值到SSIS数据流中。我在寻找source组件来生成自定义值，但只找到可以配置为用作源的脚本组件。是否有一种更简单的方法来生成数据流中的值？

浏览 3提问于2016-11-03得票数 0

2回答

Hbase Shell命令

hbase

我想了解一些关于hbase shell命令的基本知识。我可以在创建hbase表之后添加新的列家族吗？根据两列获取行键和列数据的hbase命令是什么？我创建了一个hbase表，如下所示。 create 'employee' ,'personaldetails' 我插入了一些行并添加了一些列。 put 'employee','1000','personaldetails:name','surender' put 'employee','1000',&

浏览 3提问于2014-06-14得票数 0

2回答

基于python中的索引对数据行进行迭代

python、pandas、dataframe、loops、rows

我正在尝试构建一个循环，迭代几个Dataframes的每一行，以便创建两个新列。原始数据文件包含两列(时间和速度)，它们可以变长并存储在嵌套字典中。下面是其中一个例子： time velocity 0 0.000000 0.136731 1 0.020373 0.244889 2 0.040598 0.386443 3 0.060668 0.571861 4 0.080850 0.777680 5 0.101137 1.007287 6 0.121206 1.207533 7 0.141284 1.402833 8 0.161388 1

浏览 3提问于2022-04-05得票数 0

回答已采纳

1回答

当第3行的数据长度大于标题长度时，Python pandas.readexcel(文件路径，header=[0,1])会失败。欢迎任何解决方案的建议

python、excel、pandas、numpy、dataframe

我已经定义了我的excel(xlsx)的前两行，即0,1作为头文件。为简单起见，excel文件只有一张工作表。在最初的两行之后，文件中的数据行很少。由于有两个头文件，pandas给了我一个多索引的数据帧，这很好。 dataframe = pandas.readexcel(filepath, header=[0,1]) 当一个文件的所有行都达到头的宽度时，上面这行代码就会给我一个有效的数据帧。这是问题所在。在我的一个excel文件中，标题行有65个excel列，有些数据行有66列。熊猫无法执行 dataframe = pandas.readexcel(filepath, header=[0,

浏览 0提问于2018-11-29得票数 0

1回答

使用单个列将数据映射到表数组

vba、excel

假设我有两个列，C1和C2，每个列都包含实际值的数据。我想从这些列创建一个二维表，其中每一行都是C1中的一个特定范围的值(例如400-500)，而每一列是C2中的特定范围的值(例如10-14)。通过对C1和C2进行排序并确定合理的范围，这是非常容易的。我的关键问题是，我有第三列C3，我想用它的值填充表。特别是，我希望能够选择C3，让它检查C1和C2中的关联值，并使用这些信息将值放在表的这两个值的交集的适当单元格中。这是否需要VBA？

浏览 4提问于2014-03-23得票数 2

回答已采纳

1回答

由于片数，红移复制命令标识列是备用值。

amazon-redshift、sql-insert、identity-column、csv-import

在运行copy命令时，我试图在Redshift的identity列中实现顺序增量值。是一篇很好的文章，我跟随它慢慢地走向我的目标，但是即使在遵循列表的最后一步并使用清单文件之后，我也只能得到(或者递增)1，3，5，7.或者2，4，6，8.ID列值。在创建表时，我将该列指定为： bucketingid INT IDENTITY(1, 1) sortkey 我能够理解这种行为是因为我的dc2.大型单节点集群有两个片，因此我得到了这个问题。我试图上传一个csv文件从S3到红移。如何实现顺序增量ID？

浏览 1提问于2019-04-11得票数 1

回答已采纳

1回答

在Panda中平均两个相同格式的数据帧

python、pandas

我有两个从CSV文件加载的pandas数据帧。每个CSV都有两列，列A是一个id，在两个CSV中具有相同的值和顺序。列B是一个数值。我需要创建一个新的CSV，A列与前两个相同，B列是两个初始CSV的平均值。我正在创建两个数据帧，如下所示 df1=pd.read_csv(path).set_index('A') df2=pd.read_csv(otherPath).set_index('A') 如果我这样做了 newDf = (df1['B'] + df2['B'])/2 newDf.to_csv(...) 则newDF在A列

浏览 10提问于2020-01-20得票数 0

回答已采纳

1回答

如何创建pandas.Interval对象的联合

python、pandas、intervals

假设我有以下范围列表，所有这些范围都关闭在同一侧，存储为pandas.Interval对象 [[0, 5), [5, 10), [15, 20), [18, 24)] 假设列表已经排序(或已经来自pandas.arrays.IntervalArray对象)，如何生成组成间隔为 [[0, 10), [15, 24)] 也就是说，repr of IntervalArray应该打印 <IntervalArray> [[0, 10), [15, 24)] Length: 2, closed: left, dtype: interval[int64] 而不是 <IntervalArra

浏览 3提问于2021-01-23得票数 1

2回答

如何添加与CSV文件相关的列中的值(Pandas)

python、pandas、csv

我对编程非常陌生，所以提前向您道歉。我的计算机上有一个名为SouthKoreaRoads2的CSV文件，下图是该文件的示例(名称、年份和长度)： ? 使用以下代码，我基于原始数据创建了一个新表，但只包括年份小于1975的行(包含这些行的列称为简化日期)。 import pandas as pd import os SouthKoreaRoads2 = pd.read_csv("SouthKoreaRoads2.csv") SouthKoreaRoads2[SouthKoreaRoads2['Simplified Date'] < 1975] 现在，

浏览 22提问于2021-07-22得票数 1

2回答

如何在多把钥匙上使用熊猫石斑鱼？

datetime、pandas-groupby

我需要通过datetime列和另一个str(object)列来转换一个dataframe，以便按组应用函数，并将结果分配给组的每个行成员。我理解，但不能同时为这两个条件创建一个pandas.Grouper。因此：如何在多列上使用pandas.Grouper？

浏览 6提问于2018-09-05得票数 16

回答已采纳

1回答

如何在一个csv中查找另一个csv中的行并删除不存在的行

python、pandas、dataframe

我想使用一个CSV作为参考，并在另一个CSV中搜索这些值。如果没有找到该值，我需要删除该行。例如 import pandas as pd df1 Column A B C 1 5 10 10 5 5 df2 Column A B C 3 5 10 10 5 5 给定这两个df，我想使用df1作为使用列A的引用，从df2中搜索列A并删除第一行，因为它不在df1中。应该只使用感兴趣的值创建一个新的df。 df1 = pd.

浏览 13提问于2020-10-06得票数 0

回答已采纳

1回答

向pandas DataFrame添加新列时的NaN值

python、pandas、dataframe、nan

我正在尝试在一个pandas DataFrame中生成一个新列，该列与另一个pandas DataFrame中的值相等。当我尝试创建新列时，我只得到新列值的NaNs。首先，我使用API调用来获取一些数据，'mydata‘DataFrame是按日期索引的一列数据。 mydata = Quandl.get(["YAHOO/INDEX_MXX.4"], trim_start="2001-04-01", trim_end="2014-03-31", collapse

浏览 1提问于2014-10-07得票数 26

回答已采纳

1回答

对原始表的MongoDb索引引用

mongodb、indexing、mongodb-query

我测试了索引在MongoDB中是如何工作的，一分钟也不明白。我有一个包含数据(10000行)的测试集合：此外，我还创建了新索引： collection.createIndex({ SomeValue1: 1, SomeValue2: -1 }) 我不明白索引是如何将自己的条目映射到原始表的。我认为它使用了'_id‘列，但这两个查询告诉我，这不是真的： #1： collection .find() .sort({ SomeValue1: 1, SomeValue2: -1 }) .projection({ SomeValue1: 1, SomeValue2: 1 }) .e

浏览 4提问于2021-04-08得票数 1

回答已采纳

1回答

如何在不创建临时列的情况下从pandas数据框列计算最小值？

python、pandas、dataframe、min

假设我有一个包含A、B和C列的pandas数据框df。我想计算列上算术运算符的行最小值，特别是df['D']=min(df['A']+dF['B']*3, df['C']*np.sqrt(12))。我已经看到了相关问题，似乎需要首先为min函数中的参数创建两个列，然后它们执行min of axis =1。我想知道是否有其他方法，而不是创建临时列。

浏览 3提问于2020-06-02得票数 3

回答已采纳

1回答

计算Pandas Dataframe中多列的日平均值，然后插入一行

python、python-3.x、pandas、dataframe、csv

我使用Pandas向数据帧输入了一个CSV文件，并希望计算其中列的日平均值。有两个列不会被平均化，时间和日期(日期是数据分组的日期)。然后，我希望在该日期的最后一行下面插入一行，在date列中插入“Average”( time列中没有任何内容)，然后在正确的列中插入相应的平均值。我只使用了Pandas一段时间，所以我不知道最简单的方法是什么。任何帮助都将不胜感激。

浏览 12提问于2022-06-17得票数 0

1回答

在Pandas DataFrame中填充FRED数据中的漏洞

python、pandas、dataframe

我的名字是Nick，我是编程新手。我最近完成了Codeacademy的使用Python分析金融数据的课程。我已经开始做我自己的一些项目，但我遇到了一个障碍。我正在使用pandas-datareader从美联储API (FRED)导入股指每日收盘价数据： import numpy as np import pandas as pd import pandas_datareader.data as web import matplotlib.pyplot as plt from datetime import datetime start = datetime(2020, 1, 1) sp

浏览 18提问于2020-04-21得票数 0

回答已采纳

1回答

连续剧集

spss-modeler

下午好。我有这样的数据 ID Indicator 1 0 1 1 1 0 1 1 1 0 1 1 2 0 2 1 2 1 2 1 2 1 2 1 2 1 2

浏览 4提问于2019-08-06得票数 0

1回答

如何将每个dataframe分区写入不同的表

python-3.x、pyspark、azure-databricks

I使用Databricks连接到Eventhub，其中从EventHub发出的每条消息可能与另一条消息有很大的不同。在信息中，我有一个身体和一个身份。我正在寻找性能，所以我避免收集数据或做没有必要的处理，我也想通过分区并行保存。然而，我不知道如何正确地做到这一点。 --我想把每个ID的主体附加到一个不同的和特定的表中--，这个ID将提供我需要保存在正确表中的信息。为了做到这一点，我一直在尝试两种方法：分区:重新分区(numPartitions，ID) -> ForeachPartition 分组: groupBy('ID').apply(myFunction

浏览 2提问于2019-07-03得票数 0

回答已采纳

2回答

Pandas惯用的将json列表映射到dataframe的方式

python、json、pandas

我有一个从json输入派生的数据集，我希望将其映射到pandas dataframe。假设对应于表的各个行的json如下所示： popo = {'foo': 3.14, 'bar': [1, 2, 3]} 也就是说，与我的表中所需列之一对应的键本身是一个固定长度的列表。使用pandas.DataFrame.from_dict或pandas.io.json.json_normalize加载这类字典的列表，会产生一个包含两列的数据帧: foo和bar。在这两种情况下，bar都是object类型，这些对象是python列表。 df = pd.DataFrame.f

浏览 46提问于2019-03-04得票数 2

2回答

从pandas Dataframe中提取在特定列中具有特定值的所有行

python、pandas、dataframe

我是Python/Pandas的新手，正在努力从pd.Dataframe中提取正确的数据。我实际拥有的是一个包含3列的Dataframe： data = Position Letter Value 1 a TRUE 2 f FALSE 3 c TRUE 4 d TRUE 5 k FALSE 我想要做的是将所有真正的行放入一个新的Dataframe中，这样答案将是： answer = Position Letter Value 1 a TRUE 3

浏览 1提问于2013-07-02得票数 11

回答已采纳