2.1.1 数据标准化处理 数据标准化处理是将数据按照一定的比例缩放,使之投射到一个比较小的特定区间。...数据离散化处理一般是在数据的取值范围内设定若干个离散的划分点,将取值范围划分为若干离散化的区间,分别用不同的符号或整数值代表落在每个子区间的数值。...等宽法 等宽法将属性的值域从最小值到最大值划分成具有相同宽度的区间,具体划分多少个区间由数据本身的特点决定,或者由具有业务经验的用户指定 等频法 等频法将相同数量的值划分到每个区间,保证每个区间的数量基本一致...基于列值重塑数据(生成一个“透视”表)。使用来自指定索引/列的唯一值来形成结果DataFrame的轴。此函数不支持数据聚合,多个值将导致列中的MultiIndex。...示例代码如下: 查看初始数据 new_df 输出为: # 将列索引转换为一行数据: # 将列索引转换为一行数据 new_df.melt(value_name='价格(元)', ignore_index
df1 = pd.DataFrame([["AAA", "BBB"]], columns=["Spam", "Egg"]) df2 = pd.DataFrame([["ABC", "XYZ"]], columns...3. factorize factorize这个函数类似sklearn中LabelEncoder,可以实现同样的功能。...列轴的min、max 虽然大家都知道min和max的功能,但应用在列上的应该不多见。...Heart Disease 99.31627 Loan Default 97.96728 dtype: float64 14. nlargest、nsmallest 有时我们不仅想要列的最小值...diamonds.nlargest(5, "price") 15. idmax、idxmin 我们用列轴使用max或min时,pandas 会返回最大/最小的值。
(或者,你可以在linux中使用'head'命令来检查任何文本文件中的前5行,例如:head -c 5 data.txt) 然后,你可以使用df.columns.tolist()来提取列表中的所有列,然后添加...缺失值的数量 构建模型时,你可能希望排除具有很多缺失值或全是缺失值的行。你可以使用.isnull()和.sum()来计算指定列中缺失值的数量。 1....df.head() 8. 选择具有特定ID的行 在SQL中,我们可以使用SELECT * FROM ... WHERE ID('A001','C022',...)来获取具有特定ID的记录。...Percentile groups 你有一个数字列,并希望将该列中的值分类为组,例如将列的前5%,分为组1,前5-20%分为组2,前20%-50%分为组3,最后50%分为组4。...如果只想要所有列的整数输出,请使用此技巧,你将摆脱所有令人苦恼的'.0'。
此外,如果你知道几个特定列的数据类型,则可以添加参数dtype = { c1 :str, c2 :int,...},以便数据加载得更快。...缺失值的数量 构建模型时,你可能希望排除具有很多缺失值或全是缺失值的行。你可以使用.isnull()和.sum()来计算指定列中缺失值的数量。...选择具有特定ID的行 在SQL中,我们可以使用SELECT * FROM ... WHERE ID( A001 , C022 ,...)来获取具有特定ID的记录。...Percentile groups 你有一个数字列,并希望将该列中的值分类为组,例如将列的前5%,分为组1,前5-20%分为组2,前20%-50%分为组3,最后50%分为组4。...如果只想要所有列的整数输出,请使用此技巧,你将摆脱所有令人苦恼的 .0 。
df1 = pd.DataFrame([["AAA", "BBB"]], columns=["Spam", "Egg"]) df2 = pd.DataFrame([["ABC", "XYZ"]], columns...3. factorize factorize这个函数类似sklearn中LabelEncoder,可以实现同样的功能。...列轴的min、max 虽然大家都知道min和max的功能,但应用在列上的应该不多见。...Disease 99.31627 Loan Default 97.96728 dtype: float64 14. nlargest、nsmallest 有时我们不仅想要列的最小值/最大值...diamonds.nlargest(5, "price") 15. idmax、idxmin 我们用列轴使用max或min时,pandas 会返回最大/最小的值。
Matplotlib作为Python中最流行的数据可视化库,为我们提供了丰富的绘图功能和灵活的绘图选项。本文将深入探索Matplotlib。...使用 plt.subplot(2, 3, 4) 将整个图像窗口分为 2 行 3 列, 当前活跃区为 4。...这一步中使用 plt.subplot(2, 3, 4) 将整个图 像窗口分为 2 行 3 列, 于是整个图像窗口的第1行就变成了3列, 也就是成了3个位置, 于是第2行的 第1个位置是整个图像窗口的第4...我们可以指定bins的数量值 import pandas as pd import numpy as np df = pd.DataFrame({'a':np.random.randn(1000)+1..., 'd'], columns=['x']) df.plot.pie(subplots=True) 总结 Matplotlib是数据科学中不可或缺的工具,它为我们提供了丰富的绘图功能和定制选项,使得数据的可视化变得轻松而有趣
如果merge函数只指定了两个DataFrame,它会自动搜索两个DataFrame中相同的列索引,即key,当然,这可以进行指定,下面的语句和上面是等价的: pd.merge(df1,df2,on='...2、重塑和轴向旋转 在重塑和轴向旋转中,有两个重要的函数,二者互为逆操作: stack:将数据的列旋转为行 unstack:将数据的行旋转为列 先来看下面的例子: data = pd.DataFrame...默认unstack是将最里层的行索引旋转为列索引,不过我们可以指定unstack的层级,unstack之后作为旋转轴的级别将会成为结果中的最低级别,当然,我们也可以根据名字指定要旋转的索引,下面两句代码是等价的...,则会根据数据的最大值和最小值自动计算等长面元,比如下面的例子将均匀分布的数据分为四组: data = np.random.rand(20) pd.cut(data,4,precision=2) pandas...4.2 数据聚合操作 特定聚合函数 我们可以像之前一样使用一些特定的聚合函数,比如sum,mean等等,但是同时也可以使用自定义的聚合函数,只需将其传入agg方法中即可: df = pd.DataFrame
项的n超过了某个分组中成员数量的最大值,也不会报错。...vals = df['B'].values.tolist() # 将B列的内容转为列表 rs = [len(r) for r in vals] # 获取B列中每个列表的长度 a = np.repeat(...df['A'], rs) # A列中的每个元素重复rs中的对应次数 df2 = pd.DataFrame(np.column_stack((a, np.concatenate(vals))), columns...假设与之前相反,我们希望把A列拆分为年、月、日3列,可以进行如下操作: df2 = pd.DataFrame(df['A'].str.split('-').tolist(), columns=['year...None None 2 00 51 03 13 None 3.5 选取包含特定文本的列 df = pd.DataFrame({'A': ['highest', 'good', 'just', 'newest
具体来说,就是根据一个或者多个字段,将数据划分为不同的组,然后进行进一步分析,比如求分组的数量,分组内的最大值最小值平均值等。在sql中,就是大名鼎鼎的groupby操作。...pandas中,也有对应的groupby操作,下面我们就来看看pandas中的groupby怎么使用。...= [10, 20, 30, 20, 15, 10, 12] df = pd.DataFrame({"level": levels, "num": nums}) g = df.groupby...对dataframe按照level分组,然后对num列求和,对score列求平均值,可以得到result。 同时,我们还希望得到每个分组中,num的和在所有num和中的占比。...上面的解法是先求得每个分组的平均值,转成一个dict,然后再使用map方法将每组的平均值添加上去。
2.DataFrame(数据框):DataFrame是Pandas库中的二维表格数据结构,类似于电子表格或SQL中的表。它由行和列组成,每列可以包含不同的数据类型。...可以使用标签、位置、条件等方法来选择特定的行和列。 5.缺失数据处理:Pandas具有处理缺失数据的功能,可以检测、删除或替换数据中的缺失值。...它支持常见的统计函数,如求和、均值、最大值、最小值等。 7.数据排序和排名:Pandas提供了对数据进行排序和排名的功能,可以按照指定的列或条件对数据进行排序,并为每个元素分配排名。...8.数据的合并和连接:Pandas可以将多个DataFrame对象进行合并和连接,支持基于列或行的合并操作。...常用操作 创建DataFrame import pandas as pd # 创建一个空的DataFrame df = pd.DataFrame() # 从列表创建DataFrame data =
d1.count() #非空元素计算 d1.min() #最小值 d1.max() #最大值 d1.idxmin() #最小值的位置,类似于R中的which.min函数 d1.idxmax...数据集的这些统计函数值: df = pd.DataFrame(status(d1)) df 结果: ?...在实际的工作中,我们可能需要处理的是一系列的数值型数据框,如何将这个函数应用到数据框中的每一列呢?可以使用apply函数,这个非常类似于R中的apply的应用方法。...含义: count:指定字段的非空总数。 unique:该字段中保存的值类型数量,比如性别列保存了男、女两种值,则unique值则为2。 top:数量最多的值。...常用的有三大类方法,即删除法、填补法和插值法。 删除法 当数据中的某个变量大部分值都是缺失值,可以考虑删除改变量;当缺失值是随机分布的,且缺失的数量并不是很多是,也可以删除这些缺失的观测。
ndarray.ndim 秩,即轴的数量或维度的数量。...可以在创建数组的时候np.array(ndmin=)设置最小维度 ndarray.shape 数组的维度,对于矩阵,n行m列,不改变原序列 ndarray.size 数组元素总个数...) 行或列最大值索引np.argmax(参数1: 数组; 参数2: axis=0/1,0表示列1表示行) 行或列最小值索引np.argmin(参数1: 数组; 参数2: axis=0/1,0...会滚动到特定位置。...[:,:-1] y = df.iloc[:,-1] jupyter notebook 快捷键 #将代码块分割:点到选中的行Ctrl+Shift+- #将代码块合并:使用Shift选中需要合并的框,Shift
,默认定义:1 5 size 返回基础数据中的元素数 6 values 将系列作为ndarray返回 7 head() 返回前n行 8 tail() 返回最后n行 axes示例: import pandas...s.size ## 返回基础数据中的元素数 4 >>> s.values ## 将系列作为ndarray返回 array([-0.56295907, 1.54666615, -0.95013554...列出比较重要的一些方法 编号 属性或方法 描述 1 T/tranpose() 转置行和列 2 axes 返回一个列,行轴标签和列轴标签作为唯一的成员 3 dtypes 返回此对象中的数据类型(dtypes...2 sum() 所有值之和 3 mean() 所有值的平均值 4 median() 所有值的中位数 5 mode() 值的模值 6 std() 值的标准偏差 7 min() 所有值中的最小值 8 max...describe()函数 :DataFrame列的统计信息 指标 details count 数量 mean 平均值 std 标准差 min 最小值 25% 第一四分位数(Q1),又称“较小四分位数”
此篇博客篇幅较长,涉及到处理文本数据(str/object)等各类操作,值得细读实践一番,我会将Pandas的精华部分挑出细讲实践。...()中的x和y关键字绘制一列与另一列的对比,比如我们想要使用星期六的客流量和星期日的客流量作对比: df_flow_7=df_flow[df_flow['日期']=='星期日'].iloc[:7,:]...这使得更容易发现绘图方法及其使用的特定参数: df.plot.area df.plot.barh df.plot.density df.plot.hist df.plot.line...在本例中,位置由a列和b列给出,而值由z列给出。这些箱子通过NumPy的max函数进行聚合。...带有DataFrame的饼图需要通过y参数或subplots=True指定目标列。当指定y时,将绘制所选列的饼图。如果指定subplots=True,则每个列的饼图都将绘制为subplots。
df_jj2yyb['r_time'] = pd.to_datetime(df_jj2yyb['cTime']) # 新增一列根据salary将数据分为3组 bins = [0,5000, 20000...创建频率表,输出每个类中数量多少 iris_gb.size() # 2....) # 所有列的唯一值和计数 数据选取 使用这些命令选择数据的特定子集。...在每行上应用功能 数据合并 df1.append(df2) # 将df2添加 df1的末尾 (各列应相同) pd.concat([df1, df2],axis=...df.min() # 返回每一列中的最小值 df.median() # 返回每列的中位数 df.std() # 返回每列的标准偏差 16个函数,用于数据清洗
Dummy特征也是一样,只是少了一列,因为第N列可以看做是前N-1列的线性组合。但是在离散特征的特征值过多的时候不宜使用,因为会导致生成特征的数量太多且过于稀疏。...中,它包含了附加功能,即指示缺失或未知的值。...对于分类问题:将类别特征替换为给定某一特定类别值的因变量后验概率与所有训练数据上因变量的先验概率的组合。...对于连续目标:将类别特征替换为给定某一特定类别值的因变量目标期望值与所有训练数据上因变量的目标期望值的组合。该方法严重依赖于因变量的分布,但这大大减少了生成编码后特征的数量。...() #将文本中的词语转换为词频矩阵 X = vectorizer.fit_transform(tag_list) #计算个词语出现的次数 data = pd.DataFrame
对象可以是列表\ndarray、字典以及DataFrame中的某一行或某一列 2 pd.DataFrame(data,columns = [ ],index = [ ]) 创建DataFrame。...columns和index为指定的列、行索引,并按照顺序排列 举例:用pandas创建数据表: df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006...举例:按照索引列排序 df_inner.sort_index() 六、相关分析和统计分析 序号 方法 说明 1 .idxmin() 计算数据最小值所在位置的索引(自定义索引) 2 .idxmax() 计算数据最大值所在位置的索引...,用统计学指标快速描述数据的概要 6 .sum() 计算各列数据的和 7 .count() 非NaN值的数量 8 .mean( ) 计算数据的算术平均值 9 .median() 计算算术中位数 10 ....() 根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来进行研究,以揭示其内在的联系和规律性。
对象可以是列表\ndarray、字典以及DataFrame中的某一行或某一列 2 pd.DataFrame(data,columns = [ ],index = [ ]) 创建DataFrame。...columns和index为指定的列、行索引,并按照顺序排列 举例:用pandas创建数据表: df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006...举例:按照索引列排序 df_inner.sort_index() 六、相关分析和统计分析 序号 方法 说明 1 .idxmin() 计算数据最小值所在位置的索引(自定义索引) 2 .idxmax()...() 针对各列的多个统计汇总,用统计学指标快速描述数据的概要 6 .sum() 计算各列数据的和 7 .count() 非NaN值的数量 8 .mean( ) 计算数据的算术平均值 9 .median(...() 根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来进行研究,以揭示其内在的联系和规律性。
= pd.DataFrame(data, index=labels) df 显示df的基础信息,包括行的数量;列名;每一列值的数量、类型 df.info() # 方法二 # df.describe(...age降序排列,后按visits升序排列 df.sort_values(by=['age', 'visits'], ascending=[False, True]) 将priority列中的yes,...no替换为布尔值True, False df['priority'] = df['priority'].map({'yes': True, 'no': False}) df 将animal列中的snake...,返回一个表格,行是aniaml种类,列是visits数量,表格值是行动物种类列访客数量的平均年龄 df.pivot_table(index='animal', columns='visits', values...) 一个有5列的DataFrame,求哪一列的和最小 df = pd.DataFrame(np.random.random(size=(5, 5)), columns=list('abcde')) print
学术界希望达到最高的精度,但在实际生产环境中并不总是如此。 在现实世界中,我们可能更感兴趣的是在非常特定的环境中工作良好的模型,例如行人、篮球运动员、健身房等。...添加额外列 一旦我们将COCO转换成pandas数据帧,我们就可以很容易地添加额外的列,从现有的列中计算出来。 我认为最好将所有的关键点坐标提取到单独的列中,此外,我们可以添加一个具有比例因子的列。...第28行我们将关键点扩展到单独的列中。...关键点数量 具有特定数量关键点的边界框的数量是附加的有用信息。 ? 为什么要边界框? 边界框有一个特殊的标志iscrowd,用来确定内容是应该作为一个群组(没有关键点)还是一个人(应该有关键点)。...COCO数据集的分层抽样 首先,分层抽样定义为当我们将整个数据集划分为训练集/验证集等时,我们希望确保每个子集包含相同比例的特定数据组。 假设我们有1000人,男性占57%,女性占43%。
领取专属 10元无门槛券
手把手带您无忧上云