只获取dataframe中每个主题的第一行_如何在DataFrame上只获取groupby中的第一行？_只比较dataframe中的两行 - 腾讯云开发者社区

python、pandas

我有一个熊猫dataframe列，它由每行一个字典的列表组成(由运行在dataframe中的其他数据上的机器学习算法创建)。我的目标是将字典键转换为新的dataframe列的标题，行值将是字典的值。我已经搜索了许多关于堆栈溢出的不同文章，但没有找到明确的答案。在现有列的每一行中，单个字典的列表如下所示： [{'label': 'POSITIVE', 'score': 0.9969509840011597}] 我知道我可以将任务分解为多个步骤，例如一个函数，该函数将字典列表转换为单个字典，然后将这些键转换为新的列标题--如下所示： # func

浏览 4提问于2022-10-15得票数 0

回答已采纳

1回答

根据列中最先出现的字符串/类别，保留该行并删除pandas中的其他行

python、python-3.x、pandas、python-2.7、dataframe

我有一个数据帧 df = pd.DataFrame([["A","X",1], ["B","W",0.9], ["B","X",0.8], ["A","W",0.7], ["B","Z",8], ["B","Y",48], ["A","Y",98],["A","Z"

浏览 22提问于2021-04-13得票数 2

回答已采纳

1回答

熊猫: DataFrame of dates/ value -> DataFrame的“迄今为止最大的价值”？

python、pandas

我有一个日期和值的DataFrame (在下面的代码中，我可能没有正确地解析日期)。 import pandas as pd d = {'date': pd.Series(['2010-01-01', '2011-01-01', '2012-01-01', '2012-07-01', '2013-01-01']), 'value': pd.Series([0, 2, 1, 4,

浏览 3提问于2017-07-28得票数 2

回答已采纳

2回答

如何遍历DataFrame以选择行

python、pandas、loops、dataframe

我是Python的新手，我正在尝试理解如何从Dataframe中的每个索引中选择n行，并仅使用选定的行构建一个新的Dataframe。我的df如下所示： Col1 Col2 Col3 etc A A A A B B B B 我基本上会取每个索引的前两行： Col1 Col2 Col3 etc. A A B B 我尝试使用如下所示的for循环和iloc来完成此操作，但循环停止到索引A： for i in df: sel=df.iloc[:3] 我知道这是一个基本的问题，但我读得越来

浏览 15提问于2020-02-26得票数 1

2回答

按主题抽取关键词

python、nlp、nltk、gensim

我有一个结构化的数据集，其中包含“text”和“topic”列。有人已经进行了单词嵌入/主题建模，因此“text”中的每一行都被分配了一个主题编号(1-200)。我想用主题编号和代表该主题的前5-10个关键词创建一个新的数据框架。我以前也这样做过，但我通常从头开始运行LDA模型。然后使用LDA创建的对象查找每个主题的关键字。也就是说，我是从我的主管给我的一个中间点开始的，它把我抛到了一边。数据结构如下： import pandas as pd df = pd.DataFrame({'text': ['foo bar baz', 'blah blin

浏览 21提问于2019-06-27得票数 0

1回答

NMF作为Python Scikit中的聚类方法

python、scikit-learn、nmf

我正在为NMF文本数据集群实现一个Python脚本。在我的工作中，我使用Scikit NMF实现，但据我所知，在Scikit中，NMF更像是一种分类方法，而不是一种聚类方法。我已经开发了一个简单的脚本，在一些示例弧线上工作。我正在对它们进行预处理，并将其作为NMF的输入。根据我的教授分享的论文，我收到了一些集群，但我不知道如何可视化/呈现它们。你们中有谁知道如何让这本书读起来更人性化？:) 主脚本代码如下： from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer from sklearn.c

浏览 47提问于2019-01-31得票数 4

回答已采纳

1回答

合并pandas数据帧中给定索引列表的行数据

python、pandas

我有一个连接索引的列表： [{0,1}, {2,3},....., {69, 31, 15}] each element can be of variable length 我想使用这些索引将这些索引处的行组合成另一个dataframe df，这样： _id fName lName age 0 ABCD Andrew Schulz 1 ABCD Andreww 23 2 DEFG John boy 3

浏览 4提问于2020-06-28得票数 0

3回答

Python Pandas-查找值超过阈值的第一个实例

python、pandas

我正在尝试根据另一个Python Pandas数据框列查找超过阈值的值的第一个实例。在下面的代码中，"Trace“列对于多个行具有相同的编号。我想要找到"Value“列超过3的第一个实例，然后，我想从该行获取其余信息，并将其导出到新的Pandas数据框中(如第二个示例所示)。有什么想法吗？ d = {"Trace": [1,1,1,1,2,2,2,2], "Date": [1,2,3,4,1,2,3,4], "Value": [1.5,1.9,3.1,5.5,1.1,3.6,1.9,6.2]} df = pd.DataFrame

浏览 24提问于2018-07-29得票数 3

回答已采纳

1回答

计算Pandas中一系列行的真假发生情况

python、pandas、numpy

我在SO上使用了类似的问题，但我需要限制Pandas dataframe 中行的范围。因此，使用此示例，我希望计算以50000到80000之间的值开头的行中出现的错误次数。我需要首先根据第0列中的值进行排序，然后查找行的范围在50000到80万之间，然后，计算该有限范围内出现的错误次数。下表如下： patient_id test_result has_cancer 0 79452 Negative False 1 81667 Positive True 2 76297 Negative False 3 36593 Negative

浏览 1提问于2022-10-28得票数 1

1回答

Python循环在def内和外循环的结果并不相同

python、pandas

我试图得到一些变量的结果，并将它们插入到熊猫Dataframe中。我正在从谷歌获得一些商业API的数据，我想把它们写进一个熊猫DataFrame。最初，我正在执行对API的调用，然后使用.继续在循环中重申并获取下一页的结果。 from apiclient.discovery import build from oauth2client.service_account import ServiceAccountCredentials import httplib2 import pandas as pd def get_products(merchant_id): request =

浏览 2提问于2017-03-20得票数 0

回答已采纳

1回答

创建一个新的dataframe，以包含Python中多个csv文件中的1列部分

python、pandas、dataframe、csv

因此，我正在尝试创建一个新的dataframe，其中包括一些来自300+ csv文件的数据。每个文件包含多达200,000行数据，我只对每个文件中的一个列感兴趣(每个文件的同一列)。我试图将这些列合并为1个dataframe，其中csv 1中的第6列将位于新dataframe的第1列中，来自csv 2的第6列将位于新的dataframe的第2列中，依此类推，直到第315 csv文件。我不需要全部提取200,000行数据，但我不确定如何从数据的中间部分只提取2,000行数据(每个文件在行数上的范围，所以每个文件的确切行数都不需要，只要是2000年中期)。如果能帮助从每个文件中提取2000行

浏览 8提问于2022-11-18得票数 1

回答已采纳

2回答

无法迭代Pandas Dataframe中的行

python、pandas、dataframe

我知道这个问题已经被问过很多次了，但是我已经尝试了几乎所有的方法，我试图使用下面的代码遍历DataFrame中的行。 import pandas as pd df = pd.read_csv(r"file.csv") for row in df: print(row) csv文件中只有一列，并且只打印文件的header。我还使用了.items()、.iterrows()和.itertuples()，所有这些方法都将元组作为我不需要的输出。我试图在循环中执行的进一步任务只接受来自for row in df:的输出。请帮助我如何才能以这种方式打印实际行，而不仅仅是标题

浏览 21提问于2020-12-15得票数 0

回答已采纳

1回答

将值从df存储到变量

python、pandas、indexing

我试图从dataframe中提取一个值，并将其放入一个变量中。然后，我将将该值记录到Excel工作簿中。首先，我运行一个SQL查询并将其存储到一个df中： df = pd.read_sql(strSQL, conn) 我正在循环查看另一个项目列表，并在df中查找它们。它们通过df和MMConcat中的df和MMConcat从我正在循环的项目列表中由MMConcat连接。 dftemp = df.loc[df['MMString'] == MMConcat] Category = dftemp['CategoryName'].item() 在上面的最后一行代码中

浏览 0提问于2018-10-26得票数 1

2回答

通过比较pandas中的多个列来选择数据帧

python、pandas、dataframe

我有一个pandas dataframe，我想选择某些列具有某些特定值的行。例如，对于一个列，我尝试这样做： df = pd.DataFrame({ 'subA': [54,98,70,91,38], 'subB': [25,26,30,93,30], 'subC': [43,89,56,50,48]}) a = df[df['subA'] == 70] print(a) 输出结果如下： subA subB subC 2 70 30 56 这是意料之中的，也完全可

浏览 12提问于2020-08-26得票数 4

回答已采纳

1回答

使用python中的公共ID将数据收集到一行中

python、pandas

我有一个看起来像这样的DataFrame ID Location1 Location2 AAA Here Null AAA Null There BBB Here Null BBB Null There 我想要做的是将每个ID的所有内容放到一行中，以提供以下内容 ID Location1 Location2 AAA Here There BBB Here There 我在想，也许我可能想要使用groupby或transform

浏览 22提问于2020-05-06得票数 2

回答已采纳

1回答

熊猫离开后合并/加入并不会产生预期的结果。

python、join、pandas、merge

所以我可能根本不知道左加入是什么，因为我被绊倒了……下面是左联接的定义：在输出表中包括来自左表和右表的匹配记录和来自左表的不匹配记录。以下是我的例子： In[87]: df1 = DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)}) In[88]: df2 = DataFrame({'key': ['a', 'b', &#

浏览 1提问于2015-09-21得票数 3

回答已采纳

3回答

网站浏览中的问题

theming

致命错误:在第27行调用/home/itcom/public_html/sites/all/themes/libra/template.php中的未定义函数omega_theme() 每当我浏览我的网站，我收到这条消息，我无法登录到该网站。在此站点中未启用干净的URL。我想知道如何从代码中更改默认的当前主题，以及任何其他解决方案来纠正这个问题。

浏览 0提问于2011-11-25得票数 1

1回答

TypeError:不能使用while循环订阅bool对象

python、python-3.x、pandas、dataframe、dictionary

我想使用while循环来打乱8个数据帧的行，直到它们都是完全相同的数据帧。以下是我的8个数据帧： ITI1=3 ITI2=5 ITI3=7 ItiDurations = list(itertools.repeat(ITI1, 6))+list(itertools.repeat(ITI2,4))+list(itertools.repeat(ITI3,2)) def duplicate(testlist, n): return testlist*n ValCong=['pos', 'neg'] StimValCong = duplicate(ValCon

浏览 9提问于2021-10-21得票数 0

回答已采纳

1回答

如何在scala中将seq[row]转换为数据帧

scala、dataframe

有没有什么方法可以转换Seq 行转换为scala中的数据帧。我有一个数据帧和一个字符串列表，它们具有输入数据帧中每一行的权重。我想构建一个dataframe，它将包括所有具有唯一权重的行。我能够过滤唯一的行并附加到seq 行但我想建立一个数据框架。这是我预先编写的代码.Thanks。 def dataGenerator(input : DataFrame, val : List[String]): Dataset[Row]= { val valitr = val.iterator var testdata = Seq[Row]() var val = HashSe

浏览 101提问于2021-03-01得票数 0

回答已采纳

1回答

熊猫离开加入通配符字符串匹配

python、pandas、dataframe

我刚开始用熊猫。我试图使用一个不同的dataframe的字符串在一个dataframe中搜索一个子字符串。然后，我想根据这个匹配合并这两个数据格式。在合并时，对于一个dataframe中与另一个dataframe中的行不匹配的行，我希望这些行显示Null值。基本上，我希望从parcel列中获取数据，并使用它搜索其他dataframe的parcel_id列中的字符串。如果找到匹配项，我希望将这2行合并为1行。对于第一个dataframe中在其他dataframe中没有匹配的数据，我希望在合并时在这些行中使用Null值。我该怎么做？

浏览 0提问于2020-11-29得票数 1

回答已采纳

1回答

避免df.iterrow在某些情况下删除数据行

python、pandas、dataframe

我有一个与此类似的数据格式： import pandas as pd colA = ['a', 'a', 'a', 'a', 'b', 'b', 'b', 'b', 'c', 'c', 'c', 'c'] colB = [(21,1,2), (0,1,21), (2,1,21), (1,12,5), (21,1,0), (12,5,6), (18,7,14), (7,5,12), (14,7,18),

浏览 3提问于2022-11-25得票数 0

回答已采纳

1回答

查找列值在dataframe中更改的行

python、pandas、dataframe

我有一个包含累积数据的熊猫DataFrame。其中一列标识一个新的数据集。有什么好的方法可以识别列更改值的位置并将上一行存储在新的DataFrame中吗？数据示例： step_ID value1 value2 test_step 31 1 2 2 31 2 3 2 31 3 5 2 35 1 5 2 35 2 8 2 我想从step_id = 31的最后一行

浏览 0提问于2021-02-09得票数 1

回答已采纳

2回答

每个组的dataframe中的标志离群值

python、pandas、apply、pandas-groupby

我希望为dataframe中的每一组值标识异常值，并返回一个包含数据帧每一行True/False列的dataframe。 data = {'Group':['A', 'A', 'A', 'B', 'B', 'B'], 'Age':[20, 21, 19, 18, 2, 17]} df = pd.DataFrame(data) def flag_outlier(x): lower_limit = np.mean(x) - np.std(x) * 3

浏览 0提问于2019-07-29得票数 1

回答已采纳

1回答

在instagram这样的表视图中使用多个AVPlayer

ios、objective-c、uitableview、avplayer

我试图在一个tableview单元格的每一行中实现一个AVPlayer，但是我没有找到任何好的文档。我想要一个像Instagram这样的时间线，但是我不知道如何处理多个玩家和里面的手势。知道我在哪里能找到吗？

浏览 3提问于2015-02-01得票数 2

回答已采纳

1回答

在两个pandas数据帧之间映射相似的文本字符串

python-2.7、pandas、nlp、mapping、sentiment-analysis

我有一个名为data_feed的数据集，其中包含如下反馈： feedback Fast Delivery. Always before time.Thanks I have order brown shoe .And I got olive green shoe Delivery guy is a decent nd friendly guy Its really good .. my d

浏览 0提问于2018-05-14得票数 2

1回答

如何跨dataframe列创建具有多个if条件的循环？

r、for-loop、if-statement

我有一个包含多个列变量和大约10行副本的dataframe，还有一个具有相同变量但有700行的第二个dataframe。我希望创建一个循环，该循环接受第二个dataframe中行的每个值，并查看它是否在第一个dataframe的相应列的范围内。到目前为止，我已经尝试了一个相当不雅的长for loop，它有太多的语法错误，以至于我无法确定从哪里开始修复它。这里是我的数据文件的简写版本。Dataframe 1: c1a WAV UV VIOLET BLUE 2D1 10.8 10.1 23.5 3A4 6.2 8.2 19.9 4A

浏览 0提问于2018-03-15得票数 0

回答已采纳

1回答

熊猫-加入重复行

python-3.x、pandas、numpy、optimization

我需要把重复的线条组合起来。有些专栏我必须(钱)，另一些我必须(年龄)。 DataFrame I Have: NAME AGE MONEY 0 ANA 20 2.5 1 BOB 17 2.0 2 JOHN 23 1.0 3 JOHN 23 2.0 4 NEYMAR 25 1000.0 5 NEYMAR 25 2000.0 6 NEYMAR NaN 3000.0 DataFrame I Need: NAME AGE MONEY 0 ANA 20

浏览 0提问于2018-10-17得票数 1

回答已采纳

1回答

我想根据匹配的时间戳将一个数据帧中的某些行替换为另一个数据帧中的行(两个数据帧在同一个tz中都有时间戳)

r、dataframe、dplyr

我希望能够从一个dataframe中获取一些值，并将这些值插入到另一个dataframe中(两者具有相同数量的具有相同标题的列)。我希望dataframe 1中每一行中的值根据匹配的时间戳替换dataframe 2中的值。对于大多数行/时间戳，我希望原始数据保留在dataframe 1中，因此这只针对一组特定的时间戳(在dataframe 2中)。 dplyr能以某种方式解决这个问题吗？

浏览 14提问于2021-08-13得票数 0

1回答

git格式-修补程序输出文件没有提交消息

git

在我正在处理的一个分支中，最近有两次提交，都是日志中显示的提交消息。当跑步的时候 git format-patch -2 --signoff 创建的补丁文件是根据它们的提交消息命名的，并且具有正确的主题，但是文件顶部的提交消息块没有提交消息。例如： From <git hash> Mon Sep 17 00:00:00 2001 From: <my email> Date: Thu, 21 Mar 2013 16:31:46 -0400 Subject: [PATCH 1/2] <full commit message> Signed-off-by: &

浏览 4提问于2013-03-22得票数 1

回答已采纳

1回答

使用pd.drop将行拖放到另一个数据帧

python、pandas、dataframe

我正在尝试删除基于多个条件的行。我能够成功地从dataframe中删除行，但在尝试将行删除到另一个dataframe(将行追加到另一个dataframe)时遇到了问题。这是完美的工作方式： dfAntrags = dfAntrags.drop(dfAntrags.loc[dfAntrags['Sachnr-null'] == True].index & ((dfAntrags.loc[dfAntrags['Difference-up'] == 0].index) | (dfAntrags.loc[dfAntrags['Difference-do

浏览 13提问于2019-07-29得票数 0

回答已采纳

1回答

在Pandas中寻找单行解决方案/在DataFrame中首次出现

pandas、dataframe

我正在寻找单行代码，它将提供某个实例发生的时间的输出。使用给定的DataFrame，请让我知道如何创建第一次(也只是第一次)‘高’值超过3.35时的输出。正确答案应该是10:30:00，但我不知道如何生成一行pandas代码来生成此输出。 import pandas as pd import numpy as np data = {'time': ['2021-02-01 9:30:00', '2021-02-01 10:00:00', '2021-02-01 10:30:00', '2021-02-01 11:00:0

浏览 0提问于2021-02-06得票数 0

1回答

DataFrame.where，使用数组作为条件时出错

python、pandas

为什么DataFrame.where不允许与大多数其他DataFrame切片一样的灵活性，在这种情况下，可以使用一个形状数组(X )来分割行。相反，它需要显式地重构为(X，N)，N是列数，否则就有一个ValueError。是否有我缺少的东西，或者允许将普通(X，)数组用作条件的参数。从描述上看，这似乎是可行的： cond :布尔序列/DataFrame、类似数组的或可调用的插图 import pandas as pd import numpy as np idx = [list('aaaabbbb'), [1,2,3,4,1,2,3,4]] np.random.s

浏览 0提问于2019-08-27得票数 0

1回答

如何访问DataFrame列中的元素

python、pandas、dataframe

我有一个数据帧示例： df = pd.DataFrame({0: ['a', 'b'], 1: ["('ex1', 'ex2')", "('ex3', 'ex4', 'ex5')" ]}) print(df) 0 1 0 a ('ex1', 'ex2') 1 b ('ex3', 'ex4', 'ex5') 当我在column1中找到匹配的字符

浏览 10提问于2020-05-19得票数 0

回答已采纳

1回答

Pandas中最大值的位置

pandas、dataframe、data-science

我有一个pandas dataframe，我想检索dataframe中最大值的位置(行、列)。我该怎么做呢？

浏览 2提问于2019-11-05得票数 1

1回答

将多个DataFrames转换为面板

python、pandas、panel-data

我有很多excel文件。这些文件中的每个都包含一个或多个变量，用于所有主题在特定时间点的。对于每个变量，我有10个文件(将变量的值存储在10个不同的时间点)。我的最终目标是建立一个面板系列。假设每个文件中只有一个变量。对于每个变量(或项)，我初始化一个空的DataFrame item = pd.DataFrame()，并将所有10个文件依次读取并追加到空的DataFrame item = item.append(pd.DataFrame(df))中，其中df来自新文件。这10个DataFrames中的每一个都有维度1 x #subjects，因此我最终有了10 x #subject。我用pf

浏览 4提问于2016-08-09得票数 0

回答已采纳

2回答

“包含多个元素的数组的真值是不明确的”--搜索大熊猫的数据以查找NaNs。

python、pandas、nan

我试图遍历熊猫DataFrame的所有行，并在特定的专栏中找到NaN的第一个实例。例如： import pandas as pd d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']), 'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])} df = pd.DataFrame(d) for row_i

浏览 3提问于2013-12-13得票数 1

回答已采纳

1回答

以编程方式将pandas DataFrame名称添加到列

python、pandas

这应该是一个非常简单的问题，但我希望以编程方式将pandas DataFrame的名称插入到该DataFrame的列名中。假设我有以下DataFrame name_of_df = pandas.DataFrame({1: ['a','b','c','d'], 2: [1,2,3,4]}) print name_of_df 1 2 0 a 1 1 b 2 2 c 3 3 d 4 我想要有以下几点： name_of_df = %%some_function%%

浏览 1提问于2014-11-19得票数 1

1回答

如何访问每个product_catogory的前两个元素

python、pandas、numpy-slicing

我已经在product_category和quantity_sold的基础上对dataframe(Dataframe)进行了排序。现在我想访问每个产品类别中销售最多的前两种产品，如何实现这一目标？我已经编写了一个for循环来访问它们，但是系统告诉我有一个关键错误，有人可以帮助我吗？谢谢!另外，如果它在dfDogNew中只有一个产品，那么它只会返回一行，假设如果我将切片设置为:2、熊猫会自动传递到下一个类别--在以前的cstegory中只有一个产品？我将在下面附加我的for循环代码： for i in product_category: for g in dfDogNew['p

浏览 6提问于2022-12-03得票数 0

2回答

在我做了老鼠计算和保存我的结果之后，我如何保持丢失的值保持不变呢？

r、dataframe、imputation、r-mice

作为一个新的R用户，我很难理解为什么我的dataframe中的NA值不断变化。我在Kaggle上运行我的代码。也许这就是我的问题产生的原因？有多个列具有NA值，所以我决定尝试使用多个估算来处理na值。因此，我创建了一个新的dataframe，其中的列只有na值，并开始计算。 abc1 <- select(abc, c(9,10,15,16,17,18,19,25,26)) #mice imputation input_data = abc1 my_imp = mice(input_data, m=5, method="pmm", maxit=20) summa

浏览 15提问于2021-12-21得票数 0

3回答

在Pandas dataframe行中找到第一个真值

python、pandas

我有两个布尔值的数据。第一个看起来是这样的： b1=pd.DataFrame([[ True, False, False, False, False], [False, False, True, False, False], [False, True, False, False, False], [False, False, False, False, False]]) b1 Out[88]: 0 1 2 3 4 0 True False False False False 1

浏览 2提问于2017-05-13得票数 5

回答已采纳

3回答

如何使用pandas提取最大长度的行

python-3.x、pandas

我想提取行，这是最大的Dataframe。在下面的例子中，我想要获取id 2行，因为它包含了B列bbbbbb中的最大长度6。 |id|A |B | |1 |abc |aaa | |2 |abb |bbbbbb| |3 |aadd|cccc | |4 |aadc|ddddd | |id|A |B | |2 |abb |bbbbbb| 请给我一些建议。谢谢。

浏览 17提问于2020-02-07得票数 1

1回答

Dask read_csv:跳过周期性锁定行

python、dask

我想使用Dask在多个时间步骤中读取一个大的原子坐标文件。该格式称为XYZ文件，它看起来如下： `3 timestep 1 C 9.5464696279 5.2523477968 4.4976072664 C 10.6455075132 6.0351186102 4.0196547961 C 10.2970471574 7.3880736108 3.6390228968 3 timestep 2 C 9.546469627

浏览 0提问于2018-02-16得票数 2

回答已采纳

1回答

在闪亮的应用程序中只更新数据中的特定行

r、dataframe、shiny

所以我试着开发一个闪亮的应用程序来实时计算一次特定旅行的距离。我将每15秒实时获取数据，并在dataframe df1中进行更新。为此，我需要在第一行的另一个dataframe cal_distdf中存储在前15秒中获得的值。随后，当我在下一个15秒在df1中获得新更新的数据时，cal_distdf的第二行应该被替换。注意:整个应用程序中的第一行保持不变，每15秒只更新第二行。下面是我的R剧本。 cal_distdf <- df1$Odovalue distcal <- reactive({ cal_distdf[2] <- df1$Odovalue

浏览 0提问于2018-07-26得票数 1

回答已采纳

2回答

Pandas applymap函数在应用于太多列时会删除行吗？

python、pandas

我有一个dataframe，在其中我希望使用第一个即将到来的行用值来回填所有的NaN值。我现在的代码是： df[df.applymap(np.isfinite).all(1)] 当我将我的数据帧减少到7列或更少时，这是有效的。但是，当我尝试在包含更多列的dataframe上运行此命令时，返回的只有列标题的空dataframe。这里发生什么事情？我的数据帧有800行。

浏览 0提问于2018-12-13得票数 1

2回答

如何使用readxl跳过第二行

r、excel、readxl

我得到了一个excel电子表格:列名在第一行，垃圾文本在第二行，实际数据从第三行开始。我希望使用readxl包将其读取到dataframe中，保留第一行的列名，但放弃第二行。简单地将所有行读入dataframe，然后删除第一行将无法工作，因为excel文件第二行中的垃圾将与列的数据类型不匹配。我想要一种不用手工编辑excel文件的方法。

浏览 1提问于2018-08-03得票数 6

回答已采纳

2回答

熊猫:对于包含多个整数和字符串列的数据框架，是否有一种方法可以指定max()函数所查看的列？

python-3.x、pandas

Dataframe：来自Dataframe的21行图像：当我按CountryA和Country B分组并使用max()时，它会在给我的年份列中查找最大值：所用代码： maxMonth = countryUnits.groupby(['CountryA','CountryB']).max() print(maxMonth) 当前输出的7行图像我需要做什么才能让它在Units列中查找max，给我以下内容？：图像显示所需输出的7行

浏览 3提问于2021-07-31得票数 1

回答已采纳

3回答

根据r中的列值设置dataframe子集

r、dataframe

给定一个数据帧示例： a <- c(1:3,4:6) b <- c(2:4,3,2,1) c <- cbind(a,b) 我想通过删除具有相似比较的行(例如: row3: 3,4与row4: 4，3相同)来设置dataframe的子集，并且只有一个行。

浏览 0提问于2013-09-20得票数 0

2回答

使用regex从字符串中选择所有字母，只返回第一次匹配- str提取还是regex问题？

python、regex、pandas

在Pandas中，我有一个名为TermNew的dataframe列，它包含以下小写字符串(请忽略点--我在格式化方面有问题) TermNew 999年，由2001年1月1日起自2000年11月20日起999岁(少于20天) 自1979年10月1日起99年一九九二年一月至九九年我试图将TermNew中的所有字母字符(a-z，无数字，无空白，或/)提取为新列Termtext，并具有这些预期结果。 Termtext 年后年从年后年后我尝试了以下方法，但它只返回到第一个空白的字母，即 leaseterm1'T

浏览 3提问于2021-10-26得票数 0

回答已采纳

1回答

python - dataframe - groupby -出现差异时对未分组列的处理

python、pandas、pandas-groupby

我有一个包含ID的dataframe，我希望根据ID 'group by‘。我还需要保留dataframe的所有其他列(静态数据，字符串)，所以最初我在group by中包含了所有静态数据列。但是，具有相同ID的2行或更多行之间的静态数据可能存在差异(由于源不同)。在这种情况下，我仍然希望对ID进行分组，而不是创建“重复”。对于有差异的列，我是相当无所谓的，分组的行可以只取冲突行中它遇到的第一个行。希望这个插图能澄清： example 有什么建议吗？

浏览 18提问于2020-11-19得票数 0

回答已采纳

1回答

使用SimpleImputer后丢失一列

python、scikit-learn

我在一些数据文件上使用了SimpleImputer。没有。计算的数据中的列的值小于原始数据。 cat_cols是DataFrame X_valid分类列的列表，有43个元素。即原始DataFrame： X_valid[cat_cols] 有146行×43列推测的DataFrame： cat_imputer=SimpleImputer(strategy='most_frequent') pd.DataFrame(cat_imputer.fit_transform(X_valid[cat_cols])) 有146行×42列。

浏览 8提问于2021-12-24得票数 -1