我希望有选择地将数据从一个数据(A)集成到另一个数据(B)中。条件如下:数据帧共享两列(miRNA & Gene)。Dataframe还包含具有对值的列。
我希望在dataframe中创建一个新列,该列从A中的Value列中获取,并包含一个值,如果这一对(A中的一行中相同的miRNA和基因)匹配B中的值,则如果B中的值与B中的值不匹配,则创建一个带有分数的新行。
伪码
#Initialize column in B that will house A value if first two columns match
B$A_Values <- 0
If A[,1:2] == B
我正在读取很多日志文件,我通过解析每个日志来生成字典,我想将这个字典添加到dataframe中,稍后我会使用这个dataframe进行分析。但是,根据用户输入的不同,我在dataframe中需要的信息可能每次都有所不同。因此,我不希望字典中的所有信息都添加到数据框中。我只想将我在数据框中定义的列添加到数据框中。
到目前为止,我正在将所有字典逐个添加到列表中,然后将此字典加载到dataframe。
for log in log_lines:
# here logic to parse the log and generate the dictionary
my_dict_list
我有一个1604段的pandas.DataFrame,如下所示:
我想要提取所有的句子(甚至以一种天真的方式使用点),并提供一个新的数据框架,其中每行有一个句子和以前的列值,特别是段落键(主要是在左侧第一列的索引)
我已经做过这方面的工作,可以为每句话提供如下章节专栏:
# Create lists to fill with values
l_col1 = []
l_col2 = []
# iterate over each row and fill our lists
for ix, row in dfAstroNova.iterrows():
for value in
我试图根据DataFrame文本列中的特定术语创建数据子集。
df = pd.DataFrame({'id': [123, 456, 789, 101, 402],
'text': [[{'the meeting was amazing'}, {'we should do it more often'}],
[{'start': '15', 'tag': 'Meet
我把我的数据放在一个熊猫数据框里
out[1]:
NAME STORE AMOUNT
0 GARY GAP 20
1 GARY GAP 10
2 GARY KROGER 15
3 ASHLEY FOREVER21 30
4 ASHLEY KROGER 10
5 MARK GAP 10
6 ROGER KROGER 30
我尝试按名称进行分组,将它们的总花费相加,同时还为dataframe中的每个唯一存
假设我有一个pandas.DataFrame x,x被提供给filter函数,并返回y,这是一个从x中删除了一些列的DataFrame。该函数是一个黑盒,列数很大。我怎样才能找到'x‘中被删除的列?
或者,y.columns是x.columns的子集,我如何在x中找到不在y中的列
示例:
x = pd.DataFrame(np.array([[1,2,3],[4,5,6]]))
x.columns = list('abc')
y = x.iloc[:, :2].copy()
>>> x
a b c
0 1 2 3
1 4 5 6
我对R非常陌生,我正在尝试根据另一个数据帧来重命名一个数据框的列。
基本上,我的数据看起来像这样
DataFrame1
A B C D
1 2 3 4
我还有另一张表,看起来像这样‘DataFrame2
Col1 Col2
A E
B Q
C R
D Z
我想根据这个表重命名我的第一个数据框的列,这样它就会显示出来:
E Q R Z
1 2 3 4
我正在尝试使用plyr库进行循环。这是我尝试过的命令:
library(plyr)
for (i in names(DataF
我有两个dataframe,我需要连接一列,如果id包含在第二个dataframe的同一列中,则只从第一个dataframe中提取行:
df1:
id a b
2 1 1
3 0.5 1
4 1 2
5 2 1
df2:
id c d
2 fs a
5 fa f
所需输出:
df:
id a b
2 1 1
5 2 1
我尝试使用df1.join(df2("id"),"left"
具体来说,我想迭代两个数据文件,一个是大的,另一个是小的。
最后,我想比较一下某一列中的值。
我试着创建一个嵌套的for循环;外部循环遍历大型dataframe,内部循环迭代小的dataframe,但是我遇到了困难。
我正在寻找一种方法来识别我的大型数据文件中的"name“和"value”,它们与我的小dataframe匹配。
背景信息:我正在使用熊猫库。
大型数据帧:
小数据集:
Name Value
SF 12.84
TH -49.45
我试图通过从一个文本列中提取一个名称并替换另一个列中的值来清理一个大型的pandas Dataframe。我也只想替换提取成功的值。我能够从"text“列中提取名称,但是很难替换" name”列中的值。寻求一些建议。 示例DF: df = pd.DataFrame({'text': {0: 'John', 1: 'A girl named Susan', 2: 'A man named David'},
'name': {0: 'John',
我想创建一个空的数据框,并根据某些条件填充来自另一个数据框的数据。
例如: DataFrame1为空DataFrame2 =具有以下数据
ID | Date | Type
---------------------
1 02012001 Car
2 02011994 SUV
我只想将"id“和"date”列从DataFrame2添加到DataFrame1 (它是空的)。
我有两个数据框,在第一列具有相同的列名和相同的in。除了ID列之外,每个在一个DataFrame中包含值的单元格在另一个中都包含NaN。下面是它们的外观示例:
ID Cat1 Cat2 Cat3
1 NaN 75 NaN
2 61 NaN 84
3 NaN NaN NaN
ID Cat1 Cat2 Cat3
1 54 NaN 44
2 NaN 38 NaN
3 49 50 53
我希望将它们合并到一个D
我是Python/Pandas的新手,正在努力从pd.Dataframe中提取正确的数据。我实际拥有的是一个包含3列的Dataframe:
data =
Position Letter Value
1 a TRUE
2 f FALSE
3 c TRUE
4 d TRUE
5 k FALSE
我想要做的是将所有真正的行放入一个新的Dataframe中,这样答案将是:
answer =
Position Letter Value
1 a TRUE
3
Fruits
john bought banana and kept 7 days from 15 apr 2015
marker bought apple and kept 10 days from 11 jan 2015
shannon bought apple, banana and kept 12 days from 11 feb 2015
mckinsey bought banana and kept 19 days from 11 dec 2015
george bought banana and kept 17 days from 11 feb 2015
mesa bought