如果列值存在于另一个数据框中，则从dataframe中提取数据_如果列值为，则从数据帧中删除行_如果列不在特定列表中，则从Pandas数据框中删除这些列 - 腾讯云开发者社区

r、merge、dataframe

我希望有选择地将数据从一个数据(A)集成到另一个数据(B)中。条件如下:数据帧共享两列(miRNA & Gene)。Dataframe还包含具有对值的列。我希望在dataframe中创建一个新列，该列从A中的Value列中获取，并包含一个值，如果这一对(A中的一行中相同的miRNA和基因)匹配B中的值，则如果B中的值与B中的值不匹配，则创建一个带有分数的新行。伪码 #Initialize column in B that will house A value if first two columns match B$A_Values <- 0 If A[,1:2] == B

浏览 6提问于2015-05-04得票数 3

回答已采纳

1回答

使用Python脚本根据PowerBI中的当前数据集创建新表

python、powerbi、powerbi-datasource

我有一个csv文件作为源数据集。目前在表中有一列，我想使用Python循环并从每个单元格的字符串中提取数据。例如，在单元格中：数量变化了10，价格变化了90。我想使用Python并提取"Quantity，Price“和"10，90”来创建具有这些属性和值的新表。然后使用Python创建视觉效果，而不是使用PowerBI视觉效果。我该怎么做呢？这真的有可能吗？编辑:由于所有的混淆，我添加了一个我正在处理的专栏的屏幕截图。我想遍历Properties列中的所有行，获取每个单元格中的数据，然后提取它们以创建一个新表。例如，在本例中，新表将如下所示：属性|值未连接高

浏览 18提问于2021-03-07得票数 0

2回答

如何使用for循环将列表附加到特定的dataframe列？

python、pandas、dataframe

我试图通过循环遍历dataframe列并将其与列的列表进行比较来向dataframe追加一个值。如果在dataframe中找到列的列表，那么会为dataframe的特定列分配一个值。假设这是我的数据框列 itching skin_rash nodal_skin_eruptions continuous_sneezing shivering chills joint_pain stomach_pain 这是我的栏目列表 list_columns = ['itching', 'continuous_sneezing', 'shiverin

浏览 1提问于2021-06-13得票数 0

2回答

将字典添加到pandas数据框并忽略额外的值

python、pandas、dataframe、dictionary

我正在读取很多日志文件，我通过解析每个日志来生成字典，我想将这个字典添加到dataframe中，稍后我会使用这个dataframe进行分析。但是，根据用户输入的不同，我在dataframe中需要的信息可能每次都有所不同。因此，我不希望字典中的所有信息都添加到数据框中。我只想将我在数据框中定义的列添加到数据框中。到目前为止，我正在将所有字典逐个添加到列表中，然后将此字典加载到dataframe。 for log in log_lines: # here logic to parse the log and generate the dictionary my_dict_list

浏览 20提问于2019-07-25得票数 1

1回答

如何从pandas.DataFrame中的段落中提取句子并保持段落关键字？

pandas、string、nlp、text-classification

我有一个1604段的pandas.DataFrame，如下所示：我想要提取所有的句子(甚至以一种天真的方式使用点)，并提供一个新的数据框架，其中每行有一个句子和以前的列值，特别是段落键(主要是在左侧第一列的索引) 我已经做过这方面的工作，可以为每句话提供如下章节专栏： # Create lists to fill with values l_col1 = [] l_col2 = [] # iterate over each row and fill our lists for ix, row in dfAstroNova.iterrows(): for value in

浏览 0提问于2019-11-05得票数 0

1回答

R按名称选择列: dataframe$x返回NULL

r、dataframe、shiny

我有一个数据框，我希望从列名标识的列中逐列绘制所有值。下面的代码只返回五个空值，其中五个是数据框中的列数 for(x in names(DataFrame)){ print(DataFrame$x) } 这是一个简化的版本，但最终目标是一个闪亮的应用程序，它可以将单个列转换为具有此功能的selectInput框。然后，我可以通过更改电子表格来修改输入框的数量。如下所示 for(x in names(DataFrame)){ fluidRow( column(3, selectInput(paste("Input","x"), h5

浏览 20提问于2019-01-31得票数 0

1回答

如何在Python中比较两个数据帧中的列？

python、pandas

我有一个问题，我想检查两个数据帧的前两列是否相同？假设我有一个包含["Date","Day","Volume"]列的dataframe1和另一个包含["Date","Day"]列的dataframe2。我想检查这两个数据框是否具有相同结构的Date和Day？我如何以最优化的方式实现这一点？

浏览 0提问于2019-12-06得票数 2

2回答

覆盖pandas dataframe列中的值

python、pandas

我有两个dataframe列，由True、False和NA值组成，这些值都是str类型。当两个数据框列融合在一起时，我如何将这些数据框列合并在一起，以使另一个数据框列使false值覆盖真值？如果列是bool，我可以只使用"&“函数，但我似乎无法理解它，因为值是字符串。我在考虑把它们加在一起，然后试着用它做点什么。 df"merged“= df"column 1”+ df"column 2“ 但我想我走错了路

浏览 77提问于2021-04-30得票数 2

1回答

如何根据DataFrame文本列中的术语对DataFrame进行子集

python、pandas

我试图根据DataFrame文本列中的特定术语创建数据子集。 df = pd.DataFrame({'id': [123, 456, 789, 101, 402], 'text': [[{'the meeting was amazing'}, {'we should do it more often'}], [{'start': '15', 'tag': 'Meet

浏览 5提问于2022-04-19得票数 0

回答已采纳

1回答

我想根据我通过spaCy提取的(精炼的)命名实体来注释我的数据

regex、python-3.x、annotations

为了提取命名实体，我已经使用Spacy处理了大约7000个句子。我提取了: Long，Date，Star，Para，Astr，Plan，Names AS entity。正如您在链接中看到的：现在我想对每个句子进行(分配)注释 “观察”或“非观察”标签1和0 基于我提供的命名实体。我已经在panda数据框中收集了我的数据，并添加了实体元组(文本，类型实体)，如下所示(2h14m，Date)。有时一个句子中有多个实体问题是我不知道如何访问每行中的元组，以及如何根据每列中的实体定义新列。我的数据如下所示：(python dataframe) 如何基于实体列创建新列，例如，如果存在

浏览 5提问于2019-07-17得票数 0

1回答

如果更新失败，则在救援块中呈现用户输入的数据

ruby-on-rails、ruby、ruby-on-rails-5、rest-client

我的rails 5.0.1应用程序(App 1)正在运行，它使用另一个Rails API进行数据库操作。应用程序%1未使用活动记录，而是使用flexirest进行Api呼叫。当调用create或update方法时，所有数据都以json格式发送到rails api。我希望当api抛出任何错误时，它应该在救援块中捕获，并且用户在提交单击之前输入的数据应该在救援后使用render :edit (用于更新)或render :new (用于创建)进行渲染以下是我的代码 def update respond_to do |format| begin

浏览 0提问于2017-09-01得票数 0

1回答

Python分组转置

python、python-3.x、pandas

我把我的数据放在一个熊猫数据框里 out[1]: NAME STORE AMOUNT 0 GARY GAP 20 1 GARY GAP 10 2 GARY KROGER 15 3 ASHLEY FOREVER21 30 4 ASHLEY KROGER 10 5 MARK GAP 10 6 ROGER KROGER 30 我尝试按名称进行分组，将它们的总花费相加，同时还为dataframe中的每个唯一存

浏览 8提问于2017-03-14得票数 2

回答已采纳

1回答

获取数据帧中的NaN值，但不确定原因

python、pandas

我正在尝试创建一个从github url中提取的数据帧。然后，数据框将github文件中的年龄列排序到新的数据框中，其中AGE_12列的年龄值介于(1-12)之间，而AGE_TEEN列的年龄值介于(13-19)之间。但是，当我将表示AGE_12和AGE_TEEN值的数据赋给新数据帧中它们的列时，我最终得到了它们的NaN值？我尝试改变列的位置，或者AGE_12有时会产生正确的值，而另一个则不会，反之亦然。下面是我的代码： #Reads url for Github url = 'https://raw.githubusercontent.com/wesm/pydata-book/2nd

浏览 0提问于2020-03-02得票数 1

2回答

选择pandas数据框中的某些列

python、pandas、dataframe、select

我有两个有很多列的数据帧，D1 (有列: V1_1，V1_2...)和D2 (列: V2_1，V2_2...)。但我对所有列都不感兴趣，我只想要其他第三个数据框指示的列。第三个数据框有两列，第一列是数据框的名称，第二列是包含一些变量名称的列表。大概是这样的： DataFrame | Vbles D1 | ['V1_1','V1_27','V1_30'] D2 | ['V2_2','V2_3'] 假定它的名称是var_sel，索引是“DataFrame”。现在我想从D1中提取var_

浏览 16提问于2018-08-06得票数 0

回答已采纳

1回答

如何在两个数据帧之间比较特定列中的值，以检查较新的数据帧列中是否有新值？

python、pandas、dataframe

我不断地从网站上提取新数据，我的目标是将上次提取数据时特定列中的数据与新提取的数据进行比较。如果有新的行(通过比较每列中的数据来识别，例如，每个数据框中的name列)，则将与新名称关联的行移动到新抓取的数据框中的数据的顶部(原因是我正在抓取的网站上的数据没有从最新到最旧的顺序)。我想出了如何从数据帧中抓取数据，删除列，以及删除具有特定值的行，但这一直是我的奋斗目标。我很感谢你们提供的所有帮助！示例数据帧： olddf = pd.DataFrame({'Name': ['apple', 'oranage', 'banana'],

浏览 0提问于2021-05-17得票数 1

2回答

在文本框中“保存”值的最佳方法(ASP.NET)？

asp.net、session、save

我有一个文本框，用户可以在其中输入一些数据并将该值保存到数据库中。下次用户在同一会话中访问同一aspx页面时，应在文本框中恢复该值。做这件事最好的方法是什么？也许可以使用会话？谢谢:-)

浏览 0提问于2011-06-22得票数 0

回答已采纳

1回答

熊猫数据与远程mongodb的有效交汇？

python、mongodb、pandas、pymongo

我在本地机器上有一条python大熊猫数据，并且可以访问远程mongodb服务器，该服务器有可以通过pymongo查询的其他数据。如果我的本地dataframe很大，比如每行有3列的40k行，那么检查本地dataframe特性和包含数百万个文档的远程集合的交集的最有效方法是什么？我在这里寻求一般的建议。我想我可以从这3个特性中提取一个不同的值列表，并在$or find语句中使用其中的每一个，但是如果我对这3个特性中的一个有90k个不同的值，这似乎是个坏主意。所以任何意见都是非常欢迎的。我没有将本地数据文件插入远程服务器的权限，我只有select/find访问权限。非常感谢！

浏览 0提问于2018-09-22得票数 0

回答已采纳

2回答

如何从SQL查询填充的列表框中获取信息？

sql、performance、ms-access、listbox、vba

标题说的是模糊的问题，但是，我会更具体。我更多的是一个面向硬件的人，有一些VB，Java和C++方面的经验。有人要求我在Access中修改一个表单，该表单使用SQL查询从数据库中获取信息。我试图进行的编辑是对一个表单进行编辑，该表单可以选择缩小其查询的数据，使其出现在表单中心的列表框中(因此，就像单选按钮一样，用于指定数据库中对象的特定高度或重量)。选择时，将附加规范连接到字符串，然后作为SQL查询运行。我想要完成的是获取一列缩小后的数据，并找到列中的最大数目和列中数字的平均值。这看起来真的很简单，并且知道如何使用常规列表和数组来实现这一点，但是我对我有限的知识感到困惑。我考虑过创建另一个SQ

浏览 3提问于2014-03-11得票数 0

3回答

选择DataFrames之间的补列

python、pandas、dataframe

假设我有一个pandas.DataFrame x，x被提供给filter函数，并返回y，这是一个从x中删除了一些列的DataFrame。该函数是一个黑盒，列数很大。我怎样才能找到'x‘中被删除的列？或者，y.columns是x.columns的子集，我如何在x中找到不在y中的列示例： x = pd.DataFrame(np.array([[1,2,3],[4,5,6]])) x.columns = list('abc') y = x.iloc[:, :2].copy() >>> x a b c 0 1 2 3 1 4 5 6

浏览 0提问于2018-11-01得票数 1

1回答

如何使用Azure Synapse中的Pyspark从ADLS Gen2中的文件夹读取多个文件并用于处理？

pyspark、azure-databricks、azure-synapse、azure-data-lake-gen2

我正在寻找一种解决方案，其中我希望将文件夹名中的所有文件读取为** 'YEAR'，其中包含另一个文件夹'DETAILS'.，该文件夹位于ADLS GEN2名称的容器中。。目前，我有200个文件在我的子文件夹‘年份’。文件的格式是'YYYY_DETAILS_GERMANY_GERMAN_.csv' , 'YYYY_DETAILS_INDIA_GOOD_.csv', 'YYYY_DETAILS_ENGLAND_PRODUCTS_.csv'。我正在寻找一种方法，通过这种方法，我可以从文件夹中读取所有文件，并且只使用转换

浏览 6提问于2022-11-24得票数 0

回答已采纳

3回答

如何根据R中的另一个数据框重命名数据框的所有列？

我对R非常陌生，我正在尝试根据另一个数据帧来重命名一个数据框的列。基本上，我的数据看起来像这样 DataFrame1 A B C D 1 2 3 4 我还有另一张表，看起来像这样‘DataFrame2 Col1 Col2 A E B Q C R D Z 我想根据这个表重命名我的第一个数据框的列，这样它就会显示出来： E Q R Z 1 2 3 4 我正在尝试使用plyr库进行循环。这是我尝试过的命令： library(plyr) for (i in names(DataF

浏览 23提问于2016-07-28得票数 8

回答已采纳

1回答

使用pandas系列从pandas DataFrame中提取值

python、pandas、dataframe、indexing

我有一个包含键-值对的pandas Series，其中键是我的pandas DataFrame中列的名称，值是DataFrame中该列的索引。例如：系列：然后在我的DataFrame中：因此，从我的DataFrame中，我希望从'A‘的DataFrame中提取索引12处的值，即435.81。我想将所有这些值放入另一个序列中，所以类似于{ 'A'：435.81，'AAP'：468.97，...} 我的声誉很低，所以我不能将我的图片作为图片发布，而不是链接(有人能帮我解决这个问题吗？谢谢！)

浏览 30提问于2017-08-15得票数 0

2回答

在pyspark中通过一列连接两个数据帧

apache-spark、join、pyspark

我有两个dataframe，我需要连接一列，如果id包含在第二个dataframe的同一列中，则只从第一个dataframe中提取行： df1： id a b 2 1 1 3 0.5 1 4 1 2 5 2 1 df2： id c d 2 fs a 5 fa f 所需输出： df: id a b 2 1 1 5 2 1 我尝试使用df1.join(df2("id")，"left"

浏览 0提问于2017-09-27得票数 1

回答已采纳

3回答

如果列的字符串值包含特定模式，如何从pandas数据框中提取整行

python、regex、pandas、dataframe、pattern-matching

我有以下数据框，其列'Name‘的值中包含模式’/‘ data = [['a1','yahoo', 'apple'], ['a2','gma///il', 'mango'], ['a3','amazon', 'papaya'], ['a4','bi///ng', 'guava']] df = pd.DataFrame(data, columns = ['ID', 'N

浏览 48提问于2019-10-12得票数 1

回答已采纳

1回答

为列表的值建立索引

python、pandas、list

我有两个不同的列表，它们的值几乎相同，但索引值不同。我在list_1中有一些值，需要在list_2中提取这些值的索引。然后，我希望在数据帧中将list_1作为['Number']列，并将索引结果作为['Index']列。 list_1 = ['1','2','3','4','5','6','7','8','9','10'] list_2 = ['12','11','

浏览 29提问于2021-01-16得票数 1

回答已采纳

1回答

如何迭代两个不同大小的数据？

python、pandas

具体来说，我想迭代两个数据文件，一个是大的，另一个是小的。最后，我想比较一下某一列中的值。我试着创建一个嵌套的for循环；外部循环遍历大型dataframe，内部循环迭代小的dataframe，但是我遇到了困难。我正在寻找一种方法来识别我的大型数据文件中的"name“和"value”，它们与我的小dataframe匹配。背景信息:我正在使用熊猫库。大型数据帧：小数据集： Name Value SF 12.84 TH -49.45

浏览 1提问于2019-07-30得票数 1

回答已采纳

1回答

Pandas提取和替换值

python、python-3.x、pandas

我试图通过从一个文本列中提取一个名称并替换另一个列中的值来清理一个大型的pandas Dataframe。我也只想替换提取成功的值。我能够从"text“列中提取名称，但是很难替换" name”列中的值。寻求一些建议。示例DF： df = pd.DataFrame({'text': {0: 'John', 1: 'A girl named Susan', 2: 'A man named David'}, 'name': {0: 'John',

浏览 19提问于2019-05-20得票数 2

3回答

计算单列中连续日期之间的天数

r、date、difference

我有以下数据框，其中包含一列日期和一列评估： dates<-c("2015-01-02","2015-01-10","2016-01-15") assessments<-c('1','2','3') dates_dataframe = data.frame(dates, assessments) dates_dataframe$dates<-as.Date(dates_dataframe$dates) 我想在这个数据框中创建另一个列，其中包含一个评估和下一个评估之间的天数。我该怎

浏览 0提问于2018-06-06得票数 1

1回答

如何提取Python函数中变量的名称

python、function、variable-names

我有一个自定义的Python函数，它使用模型的输入来创建一个包含预测的y值、概率和其他一些特性的数据框。我正在尝试提取物理变量名，并将其用作数据框中的列。在函数中，" model“变量表示已定义的模型。是否可以提取物理字符串并使用它来创建新列？下面是我的代码的一个非常基本的可重现的例子 from sklearn.linear_model import LogisticRegression import pandas as pd``` df = {'odds_h': [150, 200, -300]} log_reg = LogisticRegression()

浏览 11提问于2021-05-11得票数 0

4回答

从数据框中的字符串中删除字符

regex、r、gsub、grepl

我有一个数据框，其中列"ID“的值如下: 1234567_GSM00298873 1238416_GSM90473673 98377829 换句话说，有些行有7个数字，后跟"_“，后面跟着字母和数字；其他行只有数字我想删除字母前面的数字和下划线，而不影响只有数字的行。我试过了 dataframe$ID <- gsub("*_", "", dataframe$ID) 但这只删除了下划线。因此，我了解到*表示零或更多。是否有一个通配符和一个重复运算符，以便我可以告诉它找到“anything-七次-后跟-_”模式？谢谢!

浏览 0提问于2014-07-28得票数 0

2回答

如何在Python中使用Seaborn绘制大量要素

python、pandas、matplotlib、data-visualization、seaborn

我有一个Pandas DataFrame，我有一个特殊的列，我想用另一个由values组成的列绘制成一个boxplot。数据框由49609个观察值组成，但感兴趣的列由79 unique features组成。下面是我的尝试： sns.boxplot(x="values", y="column_of_interest",data=df) 但是这些轴连接得太紧密了

浏览 26提问于2020-03-10得票数 0

回答已采纳

1回答

如何使用2列csv文件创建字典？

python、python-3.x、pandas、dictionary

我有一个csv文件，它的数据在dataframe中 df = pd.read_csv(r'C:\Users\isha\Desktop\SF head count report 7 mar 2019.csv') 数据框有20多列，但我只需要使用dataframe中的2列来创建字典。

浏览 20提问于2019-03-07得票数 0

1回答

根据一个csv列的值提取另一个csv列中的值

python、pandas、csv、dataframe

我有一个要从中提取数据的.csv文件。这个文件有四列，['time', 'apple', 'banana', 'orange']。这些列中的每列都有100行。我希望从香蕉列中提取数据，并将其插入到dataframe中，前提是时间列中的值不为零。注意:在time，t之后，time列中的值返回到零，我不希望提取这些行。我想提取time列，并将其用作我的dataframe中的列名，然后将香蕉值作为我的dataframe中的一行。我希望将其放入数据帧的原因是，我有几个.csv文件要从中提取数据。我已经有了一个数据帧，其中包含一个列

浏览 35提问于2019-09-30得票数 1

回答已采纳

1回答

如何根据两列中的值查找和引入另一个数据帧中的值

python、pandas、dataframe、mapping、vlookup

我有两个数据帧。我需要从右侧(第二个)数据库中提取一个值，并基于两个数据帧中存在的另外两个列，将其作为列添加到左侧(第一个)数据帧中。这样做时，我需要在左边的dataframe中为这个列指定一个不同于在右边的dataframe中调用的名称。我排除了merge和join，因为dataframes有成百上千的列，我只需要带出一列，并且在这样做的时候还需要更改列名。相反，我正在尝试map它。例如： import pandas as pd emp_data = { 'Name':['Tom', 'Tom', 'Ste

浏览 6提问于2019-05-01得票数 1

1回答

两个dataframe中的公共元素

python、dataframe

具有以下两个数据框架：数据框架:1 new_data = { "Fruits": ['AB', 'AB','BC', 'CD','DE','EG'], "price": [50, 30, 45,55,47,43] } new_df = pd.DataFrame(new_data) print(new_df) 数据:2 import pandas as pd data = { "Food": ['AB','AB

浏览 3提问于2022-11-07得票数 0

回答已采纳

1回答

Scala:从DataFrame中提取列并将其添加到空数据框中

apache-spark、spark-dataframe

我想创建一个空的数据框，并根据某些条件填充来自另一个数据框的数据。例如: DataFrame1为空DataFrame2 =具有以下数据 ID | Date | Type --------------------- 1 02012001 Car 2 02011994 SUV 我只想将"id“和"date”列从DataFrame2添加到DataFrame1 (它是空的)。

浏览 0提问于2017-01-06得票数 1

2回答

从符合特定条件的数据框中提取所有行

r、dataframe

我在R中有一个数据框，其中一列包含状态缩写，如'AL'，'MD‘等。假设我想提取state = 'AL‘的数据，那么下面的条件dataframe'AL’似乎只返回一行，而这个状态有多行。有人能帮我理解一下这种方法中的错误吗？

浏览 20提问于2020-05-22得票数 0

回答已采纳

1回答

绑定具有不同数据类型的行

r、dplyr

我有一些数据帧，每个数据帧有3000多列，我想把它们绑定在一起。当我使用 library(dplyr) bind_rows(dataframe1, dataframe2, dataframe3, dataframe4) 我收到了很多警告： In bind_rows_(x, .id) : Unequal factor levels: coercing to character ... 我猜这是因为一个列在一个数据框中具有类型为factor的数据，而在另一个数据框中具有类型为character的数据。但是我该如何解决这个问题呢？我知道我可以用 sapply(dataframe1, class

浏览 0提问于2017-02-28得票数 2

1回答

为什么条件子句比较dataframe列会导致错误，即使条件子句本质上是布尔的？

python-2.7、pandas、if-statement、dataframe

在验证了一些逻辑之后，我试图构建一个比较数据some中两列的逻辑。这是我的代码，它从gdax.com中提取加密货币数据的历史利率。我申请的测试条件是‘如果df.column 4大于df.column4和df.column3之和，那么购买10%的帐户。’ import GDAX import pandas as pd import numpy as np public_client = GDAX.PublicClient() ticker_call = public_client.getProductHistoricRates(product='LTC-USD') df =

浏览 0提问于2017-07-04得票数 0

回答已采纳

3回答

DataFrames -合并两个具有相同列名的Pandas

python、pandas、merge、dataframe

我有两个数据框，在第一列具有相同的列名和相同的in。除了ID列之外，每个在一个DataFrame中包含值的单元格在另一个中都包含NaN。下面是它们的外观示例： ID Cat1 Cat2 Cat3 1 NaN 75 NaN 2 61 NaN 84 3 NaN NaN NaN ID Cat1 Cat2 Cat3 1 54 NaN 44 2 NaN 38 NaN 3 49 50 53 我希望将它们合并到一个D

浏览 0提问于2014-08-06得票数 4

回答已采纳

2回答

从pandas Dataframe中提取在特定列中具有特定值的所有行

python、pandas、dataframe

我是Python/Pandas的新手，正在努力从pd.Dataframe中提取正确的数据。我实际拥有的是一个包含3列的Dataframe： data = Position Letter Value 1 a TRUE 2 f FALSE 3 c TRUE 4 d TRUE 5 k FALSE 我想要做的是将所有真正的行放入一个新的Dataframe中，这样答案将是： answer = Position Letter Value 1 a TRUE 3

浏览 1提问于2013-07-02得票数 11

回答已采纳

2回答

如何从Bokeh ColumnDatasource中提取数据

python、pandas、data-visualization、bokeh

我试图避免使用ColumnDataSource，而是将pandas dataframe列直接传递给Bokeh plots。不过，我很快就不得不实现一个HoverTool，它需要将数据放在ColumnDataSource中。所以，我开始使用ColumnDataSource。现在，我正在创建一个框注释，我必须使用数据中某一列的最大值来定义框的上边框。我可以使用pandas很容易做到这一点： low_box = BoxAnnotation( top=flowers['petal_width'][flowers['species']=='setos

浏览 4提问于2016-08-01得票数 8

回答已采纳

1回答

比较其他pandas数据帧的每一行中的值

python、pandas、numpy

我有一个简单的pandas dataframe，它有一个range列。 map_dict = { 'range' : [50, 100, 200, 500, 1000, 2000, 5000, 10000, 20000, 40000, 80000, 120000], 'sample' : [1000, 1000, 1000, 1000, 2000, 2000, 2000, 2000, 2000, 2000, 2000, 2000] } pd.DataFrame.from_dict(map_dict) 我有一个值，比方说x

浏览 13提问于2020-09-29得票数 2

回答已采纳

1回答

如何从dataframe中提取所有重复的行，并从pysapark，大熊猫中删除它们

pandas、amazon-web-services、dataframe、pyspark、aws-glue

在列Articlenbr和数量的基础上，需要检查副本，并在另一个数据中提取这些副本。在下面的示例中，我想要提取前两行，将其保存在另一个dataframe中，并从原始数据中删除。如何在火花放电中完成。重复的行(保存在另一个数据save中)：原始数据：

浏览 5提问于2022-11-18得票数 0

2回答

如何从r中的数据框中提取列中的特定信息？

Fruits john bought banana and kept 7 days from 15 apr 2015 marker bought apple and kept 10 days from 11 jan 2015 shannon bought apple, banana and kept 12 days from 11 feb 2015 mckinsey bought banana and kept 19 days from 11 dec 2015 george bought banana and kept 17 days from 11 feb 2015 mesa bought

浏览 0提问于2017-05-08得票数 1

1回答

大熊猫两栏间词性索引的获取

pandas、dataframe、nlp、multiple-columns、spacy-3

我正在检查SpaCy西班牙语狐猴在使用.has_vector方法时使用的单词。在datafame的两列中，我有一个函数的输出，它指示哪些单词可以被引申，而在另一列中，有相应的短语。我想知道怎样才能提取出所有有错误输出的单词来纠正它们，这样我就可以把它们混淆起来。所以我创建了这个函数： def lemmatizer(text): doc = nlp(text) return ' '.join([str(word.has_vector) for word in doc]) 并将其应用于DataFrame中的列语句中。 df["Vectors"] = df.rev

浏览 11提问于2022-04-05得票数 0

回答已采纳

1回答

基于大熊猫第三栏的两栏选择

python、python-3.x、pandas、apply

我有一个Pandas数据集，包含三列，例如A、B、C。我想将D列添加到基于C中的值从A和B中取来的数据中，例如，如果C< 0.5，则D应该包含来自B的值，否则来自A的值如何实现？

浏览 1提问于2021-08-05得票数 1

回答已采纳

1回答

如何使用pandas获取DataFrame的子集？

python、pandas

我正在尝试按日期列拆分DataFrame，其中一个DataFrame将是某个日期之前的观察值，另一个DataFrame将是该日期之后的观察值。我有一些数据框和一些列，其中日期列被命名为' date _posted‘。数据框被命名为proj。我已经尝试通过使用以下表示法来设置它的子集： out_1 = proj[proj.date_posted >= '20140101'] out_2 = proj[proj.date_posted < '20140101'] 但这似乎并不管用。我也尝试过使用ix和groupby函数，但似乎都不能正常工作。

浏览 1提问于2014-05-29得票数 0

1回答

从Pandas GroupBy对象中提取特定值

python、pandas、dataframe、group-by、typeerror

运行Python 3.6.4、熊猫0.22和numpy 1.14.1 我希望从Pandas GroupBy object中提取一个特定的值。我带着我的初始数据集，打开一个dataframe，过滤掉不必要的列。然后我做了一个groupby，其中列D、E、F、G和H都是基于A、B和C列求和的，这给了我需要从其中提取值的数据集。首先，这里是我所使用的组类型的一个例子。(也许这一点可以纠正) output = df.groupby(['A', 'B', 'C'], as_index=False).agg({'D': [np.sum],

浏览 1提问于2018-03-05得票数 3

回答已采纳

2回答

需要更好的方法来QA现有的表从原始数据。设置原始数据子集并连接到现有表不是最好的方法

sql、sql-server、tsql、relational-database、qa

表A:来自销售数据库的原始事务级别数据。存在于数据库中。表B:由其他人创建，作为原始数据的子集。存在于数据库中。表QA:由我创建，作为从原始表A数据中提取的子集。不存在于数据库中，只存在于我的查询环境中。此表将表B作为完全外部联接包括在内。我的目标:检查是否在事务级别正确地创建了表B。也就是说，我的原始数据子集中的每个事务都需要匹配开发人员从原始数据中提取的内容，如表B。方法:将原始数据子集到我的QA表中，并通过完全外连接将其连接到表B，然后让SQL返回表B中的数据与我的QA表中的数据不匹配的行。问题1:我不喜欢这种重复检查表B的通用方法，并对如何进行此操作的其他建议持开放态度。问

浏览 2提问于2016-11-09得票数 0