如何在Pandas中计算2个数据帧列的分钟时间差_pandas数据帧中的计算列_计算pandas数据帧中两个cols之间的时间差(秒) - 腾讯云开发者社区

r、datetime、for-loop、if-statement

我有一个数据帧，其中每一行都是一个不同的时间戳。数据帧中较旧的数据以30分钟为间隔收集，而较新的数据以15分钟为间隔收集。我想运行一个for循环(或者ifelse语句)来计算每一行之间的时间差，如果时间差等于30分钟(下面的例子使用1800秒)，那么循环继续，但是如果循环遇到15分钟的时间差(下面的例子使用900秒)，它会停止并告诉我这第一次发生在哪一行。 x <- as.POSIXct("2000-01-01 01:00", tz = "", "%Y-%m-%d %H:%M") y <- as.POSIXct("2000-0

浏览 17提问于2020-05-21得票数 1

回答已采纳

1回答

从行中提取特定列并合并列

python、pandas

我将一系列的时间差存储在一个名为min_time_diff的变量中。现在，我想返回时间差最小的行。 out = df3.loc[min_time_diff.idxmin()] 但我只想让它返回一个名为'Date'的特定列值，并创建一个包含几个列值的新pandas数据帧。我已经把它们存储在像a，b，c...etc这样的独立变量中了，我是不是每次都要用df['col1']=a，df['col2']=b，还是有更简单，更简单的方法呢？ edit-当我这样做的时候- out = df3.locmin_time_diff.idxmin()，它返回一个包含很

浏览 0提问于2018-07-12得票数 0

1回答

Pandas Dataframe计算每个组的时间差以及两个不同组之间的时间差

python、pandas、dataframe

我创建了一个数据帧，如下所示： import pandas as pd d = {'Time': ['01.07.2019, 06:21:33', '01.07.2019, 06:32:01', '01.07.2019, 06:57:33', '01.07.2019, 07:24:33','01.07.2019, 08:26:25', '01.07.2019, 09:12:44'] ,'Action': ['Opened', 'Cl

浏览 62提问于2020-11-24得票数 1

回答已采纳

1回答

如何只减去2个Pandas列中的时间(不包括日期)？

python、pandas、datetime

很难找到关于这方面的信息。我每天都在跟踪几个完成时间，以根据目标完成时间来衡量它们。我正在将完成日期和时间读取到pandas数据帧中，并使用df.map映射完成时间的字典，以便在数据帧中创建“目标时间”列。示例数据： Date Process 1/2/2020 10:20:00 AM Test 1 1/2/2020 10:25:00 AM Test 2 1/3/2020 10:15:00 AM Test 1 1/3/2020 10:00:00 AM Test 2 使用df.map()创建一个包含目标时间的列： goalmap={ '

浏览 0提问于2020-03-03得票数 2

3回答

查找数据帧中以分钟为单位的时间差，并将其添加为一列

r、time

首先，我想在下面的数据帧(有时是在第2行)中找到时间差( tm2 )和tm1 之间的时间差(以分钟为单位)。 dat1 <- data.frame(id=1:2, tm1=c("01:00","23:00"), tm2=c("05:00","03:00")) 其次，我将把它添加到数据框架"dat1“中，作为一个名为time_diff的额外列。

浏览 5提问于2021-05-16得票数 0

回答已采纳

1回答

如何在MySQL中显示两个时间字段之间的分钟数？

php、mysql、time、html-table、difference

我正在开发一个时间管理系统，目前被卡住了。我正在尝试使用PHP来计算两列(from和to)之间的小时/分钟数。这两种类型都设置为“时间”类型，因此MySQL将其识别为时间数据类型。我已经在PHP中尝试了以下内容： $from= isset($_GET['from']) ? '%'.$_GET['from'].'%' : ''; $to = isset($_GET['to']) ? '%'.$_GET['to'].'%' : ''

浏览 3提问于2014-02-22得票数 1

1回答

数据帧内列表的元素差异

python、pandas

我有一个在其中一列(LOG_TIMES)中包含列表的pandas数据帧，如何使用列表元素的时间差(以秒为单位)创建新列？ DATE_RECORDED PERSON LOG_TIMES 0 2018-03-22 11:58:23.585 JOHN [15/03/2018 10:30:48, 15/03/2018 10:29:48, ... 1 2018-03-22 11:58:23.585 JOHN [20/03/2018 14:28:36, 20/03/2018 14:26:36, ... 预期的输出将是具有显示时间差(以秒为单位的值)的列的d

浏览 24提问于2018-06-08得票数 0

回答已采纳

1回答

如果满足条件，如何将1添加到R中的列中？

r、conditional-statements

我试图根据以下条件在数据帧( R)中填充一个新列： df$B<- ifelse(difftime(df$A,lag(df$A))>minutes(30), increment(1), increment(0)) 在这里，A列是时间。因此，在A中，每次I行和第1-1行之间的时间差大于30分钟，我就将新列B增加一个。 A B 1:00 1:31 2 1:40 2 2:30 3 示例任何帮助都是非常感谢的，谢谢。

浏览 0提问于2020-10-11得票数 0

回答已采纳

1回答

如何将具有字符串格式(例如:1小时50m)的持续时间详细信息的Pandas列转换为以分钟为单位的整数列

python、pandas、dataframe

假设我有如下数据： import pandas as pd import numpy as np df = pd.DataFrame({'Duration': ['1h 50m', '50m', '3h', '2h 30m', '5h', '60m'] }) df 产生的产出： 📷 在熊猫数据帧中创建的列包含字符串格式的持续时间细节，如1h、50m、50m、3h等。我需要知道如何将这个列转换为一个整数，其值以分钟为单位显

浏览 0提问于2019-03-08得票数 0

回答已采纳

1回答

对于Pandas时间序列中的每一行，如何获得延迟到期前的最后一个值？

python、pandas、numpy

我有一个时间序列，在Pandas中只有一个值A。我想生成第二列B，它包含在某个延迟(相对于原始行的时间)过期之前的最后一个值。这些行没有恒定的时间差。有没有办法在Pandas (或Numpy)中有效地实现这一点？数据帧可能包含数百万行，我希望此操作最多需要几秒钟。下面是一个示例： time A 10:00 10 11:00 20 11:05 30 11:15 20 让延迟为10分钟。那么结果应该是： time A B 10:00 10 10 # In 10 minutes the value is still the same 11:00 20 30 # In 5 <

浏览 5提问于2019-08-06得票数 3

回答已采纳

2回答

优化PySpark与pandas DataFrames之间的转换

pandas、pyspark、apache-spark-sql、azure-databricks、pyarrow

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true") 但是，

浏览 11提问于2021-11-19得票数 0

1回答

如何减少在Amazon Redshift中将pandas数据帧写为表的时间

python、python-3.x、pandas、dataframe、amazon-redshift

我正在亚马逊Redshift中编写python pandas data frame，使用的是- df.to_sql('table_name', redshiftEngine, index = False, if_exists = 'replace' ) 虽然我的数据帧有几千行和50-100列，但写一个表需要15-20分钟。我想知道这是不是红移的正常表现？有没有办法优化这个过程并加快写表的速度？

浏览 1提问于2018-06-19得票数 0

1回答

如何在R中分配超过1分钟的多个时间间隔值？

我有一个数十万辆汽车的数据，看起来是这样的： df <- data.frame( 'ID' = c('1','1','1','2','2','2'), 'start' = c('06:00', '08:00', '12:15', '06:00','12:30', '18:00'), 'end' = c('07:00', '0

浏览 18提问于2020-05-02得票数 0

回答已采纳

2回答

熊猫资料栏第二栏值与第一栏值之比较？

python、pandas、iteration

如何为同一数据帧中第一列的所有相同值提取和比较数据帧中第二列的值？我有一个数据框架为'df'： Name Datetime Bob 26-04-2018 12:00:00 Claire 26-04-2018 12:00:00 Bob 26-04-2018 12:30:00 Grace 27-04-2018 08:30:00 Bob 27-04-2018 09:30:00 我希望将一个新列添加到数据框架中，作为df' Id‘，这样，对于具有相同名称的用户，如果日期时间值的差值

浏览 2提问于2019-07-09得票数 1

回答已采纳

1回答

如何使用Cassandra/ScyllaDB/MongoDB来存储具有动态列的pandas并更新它？

python、pandas、mongodb、cassandra、scylla

我有一个timeseries pandas数据帧，它每分钟动态增加列：首字母： timestamp 100 200 300 2020-11-01 12:00:00 4 3 5 下一分钟： timestamp 100 200 300 500 2020-11-01 12:00:00 4 3 5 0 2020-11-01 12:01:00 4 3 5 25 数据帧每分钟都有这些更

浏览 41提问于2020-11-28得票数 0

2回答

Group by并添加日期之间具有最小值的新列- pandas

python、sql、pandas、dataframe、pandas-groupby

我有这个Pandas数据帧： ? 我想要一个新的DF根据'ticked_id'，'time_a‘对它们进行分组，并添加一个带有最小时间差(hh)的新列，SQL代码： SELECT ticket_id, DATEDIFF('hh', time_a, MIN(time_b)) each_diff from ... 我尝试对它们进行分组，但结果是出现了一个我看不见的对象

浏览 14提问于2021-07-22得票数 0

回答已采纳

2回答

如何在pandas dataframe中使用列表作为值？

python、csv、numpy、pandas、dataframe

我有一个数据帧，它要求列的子集具有具有多个值的条目。下面是一个包含“runtime”列的dataframe，其中包含程序在各种条件下的运行时： df = [{"condition": "a", "runtimes": [1,1.5,2]}, {"condition": "b", "runtimes": [0.5,0.75,1]}] df = pandas.DataFrame(df) 这就形成了一个数据帧： condition runtimes 0 a [1,

浏览 0提问于2014-11-08得票数 8

回答已采纳

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

pandas、dask

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。 # data is a pandas dataframe dask_df = ddf.from_pandas(data, 30) data = data[dask_df[['length', 'country']].apply( lambda x: myfun

浏览 67提问于2019-10-04得票数 1

2回答

如何在列的数据类型将是字典的情况下创建pandas数据框架？

python、pandas

有没有办法创建一个由两列组成的pandas数据帧？第一列的数据类型是int，第二列的数据类型是字典。然后迭代地将数据插入到数据帧中。

浏览 0提问于2018-07-29得票数 0

2回答

比较Pandas Dataframe的列名

python、pandas、numpy、machine-learning、data-science

如何比较2个不同Pandas数据帧的列名。我想要比较测试数据帧中缺少某些列的训练数据帧和测试数据帧？？

浏览 0提问于2018-05-07得票数 13

回答已采纳

1回答

如何在spark中使用pandas split-apply-combine风格策略和scala api？

pandas、scala、apache-spark、split-apply-combine

我有一个scala函数，它接受一个spark dataframe并返回一个单值，也就是说两个值。这个函数很复杂，使用在DataFrame类中定义的聚合，调用其他java库，并且不能用SQL表达。它需要整个数据帧的内容来进行计算，它不能一次添加一行并建立一个结果。我有一个大的dataframe，其中包含一个列，我想用它将dataframe分成小块，并对每个小块执行上述计算。然后，我想返回一个新的数据帧，其中包含每个组的一行和两列，一列包含groupby值，另一列包含结果。使用PandasUDF这将是一个相对简单的任务，但是我不知道如何在Scala中做到这一点。我尝试使用group by列对

浏览 28提问于2020-04-22得票数 0

2回答

将小时列添加到常规分钟列表中，并按其分组，然后在Python中对数据求平均值

python、pandas、time

我也在寻找类似的问题，但似乎都没有解决下面的挑战。我有一个pandas dataframe，包含分钟列表和相应的值，如下所示： minute value 0 454 1 434 2 254 该列表是一个长达一年的列表，因此计算60分钟* 24小时* 365天= 525600个观察值。我想添加一个名为hour的新列，它实际上表示一天中的小时(假设分钟0-59是12AM，60-119是1AM，依此类推，直到第二天序列重新开始)。然后，一旦添加了小时列，我将按它对观察值进行分组，并计算一年中每个小时的平均值，最后得到一个包含24个观察值的数据帧，每个观

浏览 24提问于2020-01-03得票数 0

回答已采纳

1回答

在R中，如何组合两个数字列来创建分钟:第二？

我有一个包含一分钟和第二列的数据框架，这两个列都是数字：通过使用以下方法组合这两个值，我能够创建一个新列： preshot_time <- transform(preshot,time=interaction(minute,second,sep=':')) 但是，我想将它们转换为某种分钟:第二次签名，其最终目标是计算一行和下一行之间的时间差。我对R中的数据操作比较陌生，所以任何帮助都将是非常受欢迎的。谢谢!

浏览 4提问于2022-03-13得票数 0

回答已采纳

11回答

如何在pandas中获取数据帧的列切片

python、pandas、numpy、dataframe、slice

我从CSV文件加载一些机器学习数据。前2列是观测值，其余列是特征。目前，我做了以下工作： data = pandas.read_csv('mydata.csv') 这给出了一些类似的东西： data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde')) 我想将这个数据帧分成两个数据帧:一个包含列a和b，另一个包含列c、d和e。不可能写出像这样的东西 observations = data[:'c'] features = data['c':] 我不确

浏览 4提问于2012-05-19得票数 304

回答已采纳

1回答

Dask: DataFrame计算耗时太长

python、pandas、dask

我从一个大约50K行和5列的Pandas数据帧创建了一个Dask数据帧： ddf = dd.from_pandas(df, npartitions=32) 然后我将一堆列(~30)添加到dataframe中，并尝试将其转换回Pandas dataframe： DATA = ddf.compute(get = dask.multiprocessing.get) 我查看了文档，如果我没有指定num_workers，它将默认使用我的所有内核。我在一个64核的EC2实例上，上面的代码行已经花费了几分钟时间，还没有完成... 你知道如何提高速度吗?或者我做错了什么？谢谢!

浏览 1提问于2017-07-28得票数 4

1回答

Pandas median的奇怪行为

python、pandas、dataframe

考虑以下数据帧： b c d e f g h 0 6.25 2018-04-01 True NaN 7 54.0 64.0 1 32.50 2018-04-01 True NaN 7 54.0 64.0 2 16.75 2018-04-01 True NaN 7 54.0 64.0 3 29.25 2018-04-01 True NaN 7 54.0 64.0 4 21.75 2018-04-01 True NaN 7 54.0 64.0 5

浏览 13提问于2019-02-19得票数 17

2回答

熊猫系列时刻表(秒)

python、pandas、python-datetime、timedelta

我的Pandas dataframe有一个已排序的日期时间列： print(df.Time) 返回 0 2019-10-30 13:14:49 1 2019-10-30 13:15:25 2 2019-10-30 13:32:44 ... 997 2020-02-04 13:53:35 998 2020-02-04 14:22:46 999 2020-02-04 14:52:43 Name: Time, Length: 1000, dtype: datetime64[ns] 我尝试的非常简单的事情是导

浏览 7提问于2020-02-05得票数 0

回答已采纳

1回答

如何在pandas dataframe中创建布尔型空列？

python、pandas、boolean

我想向给定的pandas数据帧添加一个空的布尔列。现在我已经这样做了(df是我的数据帧)： <code>A0</code> 然后，我的专栏如下所示： <code>A1</code> 这并不表示某些值可能丢失，并且该列实际上是空的。在pandas数据帧中获取boolean类型的空列是不可能的吗？

浏览 9提问于2019-03-28得票数 4

2回答

如何在Pandas中将带有数字列表的列转换为np.array格式

python、pandas、numpy

如何在pandas数据帧中将一列的所有行转换为numpy数组格式？示例数据帧： df=pd.DataFrame({ "actual":["1,0,0,1","0,0,1,0"], "predicted":["[1,0,0,0]","[0,1,1,1]"] }) 理想数据帧：我尝试使用下面的代码将actual列转换为数组格式，但失败了。 df['actual']=df.actual(lambda x: np.array([int

浏览 17提问于2021-05-16得票数 0

回答已采纳

1回答

Dask:合并后写入csv非常慢(python)

python、merge、dask

我有一个小的Pandas数据帧(2000行，35列)，我将它与一个大的Dask数据帧(600万行，550列)合并在一起。我将小Pandas数据帧转换为Dask数据帧，并使用以下代码进行合并： final_df=dd.merge(left=small_df,right=big_df,how='inner',on=('var1','var2','var3')) 合并操作非常快，但运行这些代码需要一段时间： final_df.head() 或者： final_ddf.to_csv('file.csv',header=T

浏览 28提问于2020-07-16得票数 0

回答已采纳

1回答

基于一列值组合的熊猫数据有效分割

python、pandas、dataframe、pandas-groupby、combinations

假设我有一个有一个列的dataframe，它有3个唯一的值。 import pandas as pd df = pd.DataFrame(['a', 'b', 'c'], columns = ['string']) df 我想把这个数据帧分割成更小的数据帧，这样每个数据帧就会包含两个唯一的值。在上述情况下，我需要3个数据帧3c2(nCr) = 3. df1 -a b df2 -a c df3 -b c。请点击下面的链接查看我当前的实现。 import itertools for i in itertools.combinati

浏览 1提问于2021-05-25得票数 1

2回答

R中行之间的日期-时间差异

我想计算R中的时间差(增量时间)。时间戳存储在两列数据帧中，时间为日期-时间(年-月-日小时:分钟: sec.msec)，例如，对于前三行： c_id c_time 6875 2012-08-15 00:00:40.169 6874 2012-08-15 00:01:40.055 6876 2012-08-15 00:02:40.542 我想输出一个有差异的列。 c_diff 0 00:01:0.886 00:01:0.487 有人能告诉我怎么做吗？如果您有其他/更好的建议，如何保持结果，将非常感谢提前感谢！密书

浏览 0提问于2013-03-20得票数 9

回答已采纳

1回答

如何聚合Python索引值之间具有一致时间增量的Pandas DataFrame行？

python、pandas、dataframe、datetime、grouping

我有一个Pandas DataFrame，它每隔2分钟连续测量一次，过滤后只包含某些值。此过程在DataFrame中创建子组，其度量间隔为2分钟。我希望对每个子组进行聚合，以便得到每个子组的平均值，并在相应组的最后一个Datetime索引之前对平均值进行索引。例如：原始DataFrame 2020-06-09 08:44:00 1 2020-06-09 08:46:00 2 2020-06-09 08:48:00 3 2020-06-09 08:50:00 4 2020-06-09 09:06:00 10 2020-06-09 09:08:00 12 20

浏览 2提问于2021-09-07得票数 2

回答已采纳

1回答

日/时间差VBA

excel、vba

你好，我想知道K列和J列的数据之间的时间差。我需要知道更新数据所用的天数、小时或分钟数，以及使用这些列的时间。我还希望仅当A列中的姓名匹配并在N列中输入该信息时才获得平均时间量。这是我到目前为止在第一部分中得到的信息。 ActiveSheet.Name = "Raw Data" Range("M2:M").Value = ("K2:K-J2:J" > 1) + ("d:hh:mm") 谢谢你的帮助。

浏览 2提问于2015-04-05得票数 1

2回答

在R中的两个DataFrames的多个列上使用Difftime函数

r、difftime

我有两个数据帧，每个都包含时间戳列，如下图所示：数据帧-1：数据帧-2：我想找出数据帧的每一列之间的时间差，例如: DF1的Column1的各行和DF2的Column1的各行之间的时间差。我只提到了上图中每个数据框中的三列，尽管我在原始数据集中的每列中都有257列，但我目前正在使用以下命令逐个找出差异： diff_time_1<- difftime(df1$t1,df2$l1) diff_time_2<- difftime(df1$t2,df2$l2)..so on 如果我尝试对所有257列执行操作，这将花费大量的精力，我已经尝试了使用apply函数和f

浏览 11提问于2017-07-31得票数 1

回答已采纳

1回答

如何将数据框中的行累加到一定数量，然后从下一行开始？

我正在尝试识别数据帧中在30分钟内与第一条记录相距不到30分钟的记录，以便可以删除它们(即30分钟的静默期)，然后从下一条记录开始新的30分钟段。每条记录都有一个时间和日期列。我已经成功地找到了每条记录的时间差(它们已经按时间顺序)，因此我需要累积时间差异，直到它们达到30分钟，然后在下一行开始添加，直到30分钟，依此类推。如何将数据框中的行(时间差)累积添加到新列中，并在每次达到30分钟时重新开始？这就是数据的样子。('difftime‘是自上次记录以来的时间，以秒为单位，因此1800 s= 30分钟) Species Time difft

浏览 27提问于2019-06-18得票数 0

回答已采纳

1回答

如何为diff()设置单位？

我有一个包含几个不同变量(例如位置、物种、日期和时间)的数据框架。我正在尝试找出同一列中根据位置和物种的两个时间戳之间的差异。我的数据框是什么样子： dat <- data.frame( location = c("A","A","A","B","B","B","C","C","C"), ID = c("x","y","x","x","x","y"

浏览 29提问于2019-10-03得票数 1

回答已采纳

1回答

如何在我的dataframe中创建一个新变量，用dataframe名称填充值？

python、pandas、rename、columnname

我有一堆数据集，每个数据集都有相同的标题，每个数据集都指向不同的国家。我正在尝试在每个pandas数据帧中创建一个新列，其中填充了我的数据帧名称(这是国家的名称！) 我该怎么做呢？编辑：我没有提到我创建了数据集 us = pd.concat([coeff, pvalues], axis = 1).reset_index() us.columns = ['Factor',"Coeff","P-value"]

浏览 15提问于2019-01-10得票数 0

回答已采纳

2回答

Pandas read_csv大文件性能改进

python、pandas、dataframe、large-files

我想知道是否有一种方法可以提高将大型csv文件读取到pandas数据帧中的性能。我有3个大的(每个3.5 it的记录)管道分隔的文件，我想要加载到dataframe中，并在其上执行一些任务。目前，我使用pandas.read_csv()在参数中定义cols和它们的数据类型，如下所示。通过定义列的数据类型，我确实看到了一些改进，但它仍然需要3分钟以上的时间来加载。 import pandas as pd df = pd.read_csv(file_, index_col=None, usecols = sourceFields, sep='|', header=0, dtype=

浏览 1提问于2018-03-09得票数 0

2回答

将空字符串替换为列的模式

python、pandas

我有以下pandas数据帧： df = pd.DataFrame([["hitesh","","HAIK"],["hitesh","red","ll"],["haikent","red","tt"],["","","HAIK"]]) 我正在尝试将数据帧的空字符串替换为每列的相应模式。我在努力 df= df.replace("" , df.mode()[0]) 但这只是用第一列模式替换了数

浏览 9提问于2017-03-10得票数 2

回答已采纳

2回答

在Pandas中以不同的时间间隔合并和填充两个数据帧

python、pandas、merge

我有两个数据帧我想在Pandas中合并。它们都有一个我正在合并的日期时间列，但是，一个每分钟和5分钟有行(取决于年份)，而另一个dataframe每15分钟有行。如果我执行一个外连接，我可以合并它们，但是每15分钟才会有来自两个数据帧的数据。我想复制15分钟的数据，并用这些数据填充每1或5分钟的行。因此，12:00AM的数据将填充12:14之前的所有行(包括12:14然后，12:15 to会被复制，并填写到12:29 to等。这有意义吗？我如何才能做到这一点？看起来很相似，但我不确定如何为我的确切场景实现，特别是考虑到我的一个数据帧在不同的年份从5分钟到1分钟的间隔。

浏览 0提问于2014-12-19得票数 4

1回答

如何在熊猫中以3分钟为间隔对ID进行分组？

python、pandas、dataframe、datetime、group-by

我有一个数据帧，看起来像这样： ID time city transport 0 1 10:20:00 London car 1 20 08:50:20 Berlin air plane 2 44 21:10:00 Paris train 3 32 10:24:00 Rome car 4 56 08:53:10 Berlin air plane 5 90 21:8:00 Paris train . . . 1009

浏览 1提问于2021-02-06得票数 0

5回答

如何在pyspark中获取dataframe列的名称？

pyspark、pyspark-sql

在熊猫中，这可以通过column.name来完成。但是，当它的spark数据帧列时如何做同样的事情呢？例如，调用程序有一个spark数据帧: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa', 'rank'] 此程序调用我的函数: my_function(spark_df 'rank‘)在my_function中，我需要列的名称，即’rank‘ 如果是pandas数据帧，我们可以在my_function内部使用 >>> pand

浏览 1提问于2016-09-28得票数 55

1回答

在Windows7 (x64)上读取pandas数据帧中的大型SPSS文件的性能

python、pandas、spss

我有一个很大的SPSS文件(包含100多万条记录，列略低于150列)，我想将其转换为Pandas DataFrame。将文件转换为列表需要几分钟，将其转换为数据帧需要几分钟，设置列头也需要几分钟。有没有什么我遗漏的优化方案呢？ import pandas as pd import numpy as np import savReaderWriter as spss raw_data = spss.SavReader('largefile.sav', returnHeader = True) # This is fast raw_data_list = list(raw_d

浏览 2提问于2014-08-07得票数 4

2回答

Python中的趋势“预测者”？

python、pandas、statistics、time-series、prediction

我目前使用的数据框(在pandas中)有两列:第一列是一些数字定量数据，如重量、某天花费的金额、GPA等，第二列是日期值，即添加相应列1条目的日期。我想知道，在Python中，有没有办法“预测”时间X之后的下一个值？例如，如果我有100个权重条目，跨越2-3个月(不是所有条目都有相同的时间差，所以1个条目可能在第3天、第二天5和第二天10)，并想“预测”1个月后我的下一个条目，有没有办法做到这一点？我认为这与时间序列分析有关，但我的统计学背景不是很强，所以我不知道这是不是正确的方法。如果是，我如何将其应用于我的数据帧(即哪些包)？它可能返回的值是否有任何意义，或者在我正在使用的上下文中它是

浏览 1提问于2018-04-08得票数 1

2回答

如何在不占用RAM的情况下创建额外的列，然后将其用于ML算法？

python、pandas、machine-learning、dask、ram

我有一个包含3m+ (有序)行和100列的数据集，我可以使用Pandas将其加载到我的笔记本中。我想追加大约900列，这些列是使用100个现有的列计算得出的。最终目标是训练几个机器学习模型(NN，随机森林)。当我尝试使用Pandas添加列时，由于RAM不足(我有25 to )，我的机器崩溃了。因此，我尝试使用Dask，它允许我毫无问题地计算900列。然而，Dask数据帧不能用作随机森林(Sklearn)和Keras模型的输入，所以我猜在某些时候您必须将其转换回pandas数据帧。在这一点上我被卡住了。速度是相当重要的，因为我需要经常改装模型。有没有人有好的建议？

浏览 18提问于2021-05-22得票数 1

1回答

Python Pandas -使用第1个数据从第2个数据帧中获取位置

python、pandas

非常基本的Pandas用户，但我在这里遇到了一个障碍。所以我有一个名为dg的数据帧，它有一个名为'user_id‘的列，还有另外两个目前不需要的列。我还有另外两个数据帧(data_conv和data_retargeting)，它们包含相同的列名和一个名为“timestamp”的列，但是每个“user_id”都有多个时间戳。我需要在dg中为找到的最小和最大‘时间戳’创建新列。我目前可以通过一些非常冗长的方法来处理iterrow行，但是对于大约16000的数据帧，它需要45分钟，我想减少它，因为我有更大的数据帧来运行这个数据帧。 for index,row in dg.i

浏览 0提问于2015-05-19得票数 0

1回答

在C#数据帧中跨3列获取最大值

c#、pandas、deedle

我正在尝试将一些pandas代码转换为Deedle和C#。首先，数据帧是，因为它是按日期编制索引的。 Frame.FromRecords(fetchOhlcVsResults).IndexRows<DateTime>("datetime").SortRowsByKey() 接下来，我成功地在框架中添加了其他几个计算列。我被困在翻译的部分是来自pandas的这段代码： tr = df[['high-low', 'high-pc', 'low-pc']].max(axis=1) 它只取三列中的最大值。这是我尝试过的：

浏览 17提问于2021-11-15得票数 0

回答已采纳

1回答

在pandas列中存储列表的最有效方法是什么？

pandas、dataframe、twitter

我有一个包含1亿条tweet的熊猫数据帧。我已经从数据中提取了URL，目前已将其作为列表存储在pandas列中：我想在这些URL上运行分析(比如按域名排序，找出哪种类型的用户发布了哪些域)。是否可以像这样存储：其中的URL列是具有动态大小的pandas系列，以便我可以轻松处理？否则，在应用pandas操作和速度的同时，存储urls的最好方法是什么？

浏览 0提问于2019-03-05得票数 1

2回答

如何在Pandas uisng for循环中过滤DataFrame中的行？

python、pandas、dataframe、loops、filter

我有一个csv文件，它有很多列(20+)。我想过滤时间列("mins")，这样它就可以创建60个独立的数据帧，其中包含每分钟的所有数据。我可以使用下面的方法实现它，但是可以使用for循环来实现，而不是重复我自己60次？ import pandas as pd df = pd.read_csv("data.csv") mins_0 = df[df['mins']==0] mins_1 = df[df['mins']==1] mins_2 = df[df['mins']==2] mins_3 = df[df[

浏览 0提问于2021-06-10得票数 0