我尝试使用这样的映射将Pandas数据帧的一列转换为int值(包含给定的dataframe: my_dataframe和colum: target_column):
targets = my_dataframe[target_column].unique()
map_to_int = {name: n for n, name in enumerate(targets)}
在Pandas中使用Python3.6我想知道为什么
a)
my_dataframe['Integer-Column'] = map_to_int[my_dataframe[target_column]]
引
我有一个有四列的DataFrame。我想将这个DataFrame转换为python字典。我希望第一列的元素是keys,而同一行的其他列的元素是values。
DataFrame:
ID A B C
0 p 1 3 2
1 q 4 3 2
2 r 4 0 9
产出应如下:
字典:
{'p': [1,3,2], 'q': [4,3,2], 'r': [4,0,9]}
我正在合并熊猫中的两个数据集,并希望加快这个过程,所以我在用于合并的列中对这两个数据集进行了排序。(以前,这些列根本没有排序。)排序没有造成明显的速度差异,两者都花了大约8秒。
如果我手动合并两堆纸,比如说,它们的页码,我会首先按页码对它们进行排序。否则,我将不得不做很多来回翻转之间的堆栈。
我写了一个测试来比较这两个过程。它按随机顺序生成两个帧,每个帧有一百万行。然后,它将生成第一列上已排序的另外两个列。然后,它合并前两个,最后,合并后两个。
数据生成过程太慢了,以至于我没有时间尝试更多的行--但是合并仍然是在零感知的时间内进行的,即使没有排序。
import pandas as pd
im
我有一套20平方米的数据库(每个数据库有50个表,记录总数约为10万条)。我想把这20个数据库合并成一个主数据库。这个概念是有一个额外的列,该列指示记录适用于哪个域。
例如:
表A
FRUIT | COLOR | SHAPE
----------------------
apple | red | round
banana| yellow | curved
表B
FRUIT | COLOR | SHAPE
----------------------
apple | red | round
banana| yellow | curved
表C
FRUIT | COLOR
因此,我对字典中的数据有问题-- python实际上用数字“命名”了我的行和列。这是我的密码:
a = dict()
dfList = [x for x in df['Marka'].tolist() if str(x) != 'nan']
dfSet = set(dfList)
dfList123 = list(dfSet)
for i in range(len(dfList123)):
number = dfList.count(dfList123[i])
a[dfList123[i]]=number
sorted_by_value = so
我看过以下问题:
我有数据显示
p.date p.instrument p.sector \
11372 2013-02-15 00:00:00 A Health Care
11373 2013-02-15 00:00:00 AA Materials
11374 2013-02-15 00:00:00 AAPL Information Technology
11375 2013-02-
我需要将1500多个python数据帧合并到一个大型数据帧中。我遇到的问题是,数据帧具有唯一的列标题和不同的大小。
例如,dataframe 1为:
type sc98*c.firstname sc98*c.lastname sc98*c.username text createdAt statusofExpiration
need John Doe johndoe I need a new car. 111111 expi
我比较了两个DataFrames (df1和df2),对于给定的键组合,每个行都应该有唯一的行。这意味着不存在Col1和Col2等键的复制。
import pandas as pd
# OK NOK NOK
df1 = pd.DataFrame({'Col1': ['A', 'A', 'B'],
'Col2': ['J', 'K', 'M'],
所以基本上我有一个列表,例如:
a = [[1,2,3,4,5,6,7,8,9,10],
[11,12,13,14,15,16,17,18,19,20]]
因此,每个列表中有10个数字。我有一个索引列表,例如:
index = ['A','B','C','D','E','F','G','H','I','J']
我想创建一个python dataframe,它的结构如下:
A 1 11
B 2 12
C 3 1
我现在正在研究这个奇妙的库,我对过滤,甚至列操作是如何完成的感到非常困惑,并试图理解这是pandas还是python本身的一个特性。更准确地说: import pandas
df = pandas.read_csv('data.csv')
# Doing
df['Column'] # would display all values from Column for dataframe
# Even moreso, doing
df.loc[df['Column'] > 10] # would display all values fr
Endo_co=Endo.columns
b_list=Endo_co.tolist()
subo='.[0-9]+$'
Endoo=pd.DataFrame(b_list)[pd.DataFrame(b_list).apply(lambda row: row.astype(str).str.contains(subo, case=False).any(), axis=1)]
col_ind=Endoo.index
Endoo_list=Endoo.values.tolist()
new_col={}
for i in range(len(Endoo_list)):