首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Python】机器学习之数据清洗

重复消失术:感知并消除数据舞台上的重复记录,确保数据的独特华丽,让每个角色都是独一无二的明星。 数据格式魔咒:数据转换为统一的魔法符号,使其更适合于分析和建模的神奇仪式。...data2 # 返回删除指定列后的DataFrame对象 2.4.5 删除文本型变量,有缺失; ​ 图10 结果如下: ​ 图11 ​ 图12 代码: # 查找文本型函数变量名列表...换为float类型 data2['test1'] = data2['test1'].astype(float) data2.info() 2.4.7 变量数据处理方式划分; ​ 图17 代码如下:...()), # 使用ExeLabelEncoder数据转换为数字 ]) # 定义需要进行One-Hot编码的离散型数据处理的Pipeline cat_onehot_pipeline = Pipeline...label_encoder:离散型数据转换为数字,使用ExeLabelEncoder进行转换。

11510

不用深度学习,怎么提取图像特征?

来源 | 小白学视觉 头图 | 下载于ICphoto 图像分类是数据科学中最热门的领域之一,在本文中,我们分享一些图像转换为特征向量的技术,可以在每个分类模型中使用。...如果要计算“零”交叉,则需要对图像进行阈值处理—即设置一个,以使较高的分类为255(黑色),而较低的分类为0(白色)。在我们的案例中,我使用了Otsu阈值。...在执行图像阈值处理之后,我们获得零和一作为像素,我们可以将其视为数据帧并将每一列和每一相加: 现在,假设1代表文本区域(黑色像素),0代表空白区域(白色像素)。...img = img / 255df = pd.DataFrame(img)pixels_sum_dim1 = (1 - img_df).sum()pixels_sum_dim2 = (1 - img_df...我们可以在图像和置图像上计算DCT向量,并取前k个元素。

26720
您找到你想要的搜索结果了吗?
是的
没有找到

50个超强的Pandas操作 !!

选择特定和列 df.loc[index, 'ColumnName'] 使用方式: 通过索引标签和列名选择DataFrame中的特定元素。 示例: 选择索引为1的的“Name”列的。...在机器学习和深度学习中经常会使用独热编码来离散变量转换为多维向量,以便于算法处理。...示例: “Name”列转换为大写。 df['Name'].str.upper() 25....日期时间处理 df['DateTimeColumn'] = pd.to_datetime(df['DateTimeColumn']) 使用方式:字符串列转换为日期时间类型 示例: “Date”列转换为日期时间类型...时间序列重采样 df.resample('D').sum() 使用方式: 对时间序列数据进行重新采样。 示例: 数据按天重新采样并求和。 df.resample('D').sum() 27.

26010

无需深度学习即可提取图像特征

一、简介 图像分类是数据科学中最热门的领域之一,在本文中,我们分享一些图像转换为特征向量的技术,可以在每个分类模型中使用。...如果要计算“零”交叉,则需要对图像进行阈值处理—即设置一个,以使较高的分类为255(黑色),而较低的分类为0(白色)。在我们的案例中,我使用了Otsu阈值。...在执行图像阈值处理之后,我们获得零和一作为像素,我们可以将其视为数据帧并将每一列和每一相加: 现在,假设1代表文本区域(黑色像素),0代表空白区域(白色像素)。...img = img / 255 df = pd.DataFrame(img)pixels_sum_dim1 = (1 - img_df).sum() pixels_sum_dim2 = (1 - img_df...我们可以在图像和置图像上计算DCT向量,并取前k个元素。

32920

Pandas基本功能详解 | 轻松玩转Pandas(2)

user_info.age.max() ------------------------ 40 类似的,通过调用 min、mean、quantile、sum 方法可以实现最小、平均值、中位数以及求和。...来介绍个有意思的方法:cumsum,看名字就发现它和 sum 方法有关系,事实上确实如此,cumsum 也是用来求和的,不过它是用来累加求和的,也就是说它得到的结果与原始的 Series 或 DataFrame...user_info.age.idxmax() ------------------------- 'James' 离散化 有时候,我们会碰到这样的需求,想要将年龄进行离散化(分桶),直白来说就是年龄分成几个区间...cut 是根据每个的大小来进行离散化的,qcut 是根据每个出现的次数来进行离散化的。...,在对 Series 操作时会作用到每个上,在对 DataFrame 操作时会作用到所有或所有列(通过 axis 参数控制)。

1.7K20

Pandas库常用方法、函数集合

sql中的union pivot:按照指定的行列重塑表格 pivot_table:数据透视表,类似excel中的透视表 cut:一组数据分割成离散的区间,适合数值进行分类 qcut:和cut作用一样...、最大、累积乘积 数据清洗 dropna: 丢弃包含缺失或列 fillna: 填充或替换缺失 interpolate: 对缺失进行插 duplicated: 标记重复的 drop_duplicates...: 删除重复的 str.strip: 去除字符串两端的空白字符 str.lower和 str.upper: 字符串转换为小写或大写 str.replace: 替换字符串中的特定字符 astype:...一列的数据类型转换为指定类型 sort_values: 对数据框按照指定列进行排序 rename: 对列或行进行重命名 drop: 删除指定的列或 数据可视化 pandas.DataFrame.plot.area...resample: 对时间序列进行重新采样 asfreq: 时间序列转换为指定的频率 cut: 连续数据划分为离散的箱 period_range: 生成周期范围 infer_freq: 推断时间序列的频率

25110

Pandas基本功能详解 | 轻松玩转Pandas(2)

user_info.age.max() 40 类似的,通过调用 min、mean、quantile、sum 方法可以实现最小、平均值、中位数以及求和。...来介绍个有意思的方法:cumsum,看名字就发现它和 sum 方法有关系,事实上确实如此,cumsum 也是用来求和的,不过它是用来累加求和的,也就是说它得到的结果与原始的 Series 或 DataFrame...user_info.age.idxmax() 'James' 离散化 有时候,我们会碰到这样的需求,想要将年龄进行离散化(分桶),直白来说就是年龄分成几个区间,这里我们想要将年龄分成 3 个区间段。...cut 是根据每个的大小来进行离散化的,qcut 是根据每个出现的次数来进行离散化的。...,在对 Series 操作时会作用到每个上,在对 DataFrame 操作时会作用到所有或所有列(通过 axis 参数控制)。

1.9K20

资源 | 23种Pandas核心操作,你需要过一遍吗?

(12)目标类型转换为浮点型 pd.to_numeric(df["feature_name"], errors='coerce') 目标类型转化为数值从而进一步执行计算,在这个案例中为字符串。...(13) DataFrame换为 NumPy 数组 df.as_matrix() (14)取 DataFrame 的前面「n」 df.head(n) (15)通过特征名取数据 df.loc[feature_name...] DataFrame 操作 (16)对 DataFrame 使用函数 该函数将令 DataFrame 中「height」的所有乘上 2: df["height"].apply(*lambda* height...的第三为「size」: df.rename(columns = {df.columns[2]:'size'}, inplace=True) (18)取某一的唯一实体 下面代码取「name」的唯一实体...并仅显示等于 5 的: df[df["size"] == 5] (23)选定特定的 以下代码选定「size」列、第一: df.loc([0], ['size']) 原文链接: https:

2.9K20

Pandas

DataFrame对象既有索引,又有列索引。 a.索引,表明不同行,横向索引,叫index,0轴,axis=0。 b.列索引,表名不同列,纵向索引,叫columns,1轴,axis=1。...columns -- 列索引 values -- ndarray.T -- 置 head() -- 前几行(括号里面如果不指定参数,默认是5) tail() -- 后几行(括号里面如果不指定参数...=) 总结如下: count Number of non-NA observations sum Sum of values mean Mean of values median Arithmetic..., value=np.nan) 7.高级处理-数据离散化 7.1为什么要离散化? 答:连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性的个数。...离散化方法经常作为数据挖掘的工具。 7.2什么是数据的离散化? 答:连续属性的离散化就是在连续属性的值域上,值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性

4.9K40

数据导入与预处理-第6章-02数据变换

数据离散化处理一般是在数据的取值范围内设定若干个离散的划分点,取值范围划分为若干离散化的区间,分别用不同的符号或整数值代表落在每个子区间的数值。...基于列重塑数据(生成一个“透视”表)。使用来自指定索引/列的唯一来形成结果DataFrame的轴。此函数不支持数据聚合,多个导致列中的MultiIndex。...,商品一列的唯一数据变换为列索引: # 将出售日期一列的唯一数据变换为索引,商品一列的唯一数据变换为列索引 new_df = df_obj.pivot(index='出售日期', columns='商品名称...',values='价格(元)') new_df 输出为: 2.2.2 melt方法 melt()是pivot()的逆操作方法,用于DataFrame类对象的列索引转换为数据。...示例代码如下: 查看初始数据 new_df 输出为: # 列索引转换为数据: # 列索引转换为数据 new_df.melt(value_name='价格(元)', ignore_index

19.2K20

Pandas

) unstack:This pivots from the rows into the columns(索引变为列取值) 两个函数默认都从最低level开始操作,然后换为另外一个轴的最低层级,...DataFrame 中直接转换为 Timestamp 格式外,还可以数据单独提取出来将其转换为 DatetimeIndex 或者 PeriodIndex。...()(默认按列计算好像,返回的还是一个 dataframe有更改) 查找是否存在重复数据:df.duplicated()(返回布尔,默认已经观察到先前有之后的返回 True 这个需要调整 keep...().sum():统计每列缺失的个数 #数据按照指定列分组后统计每组中每列的缺失情况,筛选出指定列存在缺失的组并升序排列 data_c=data.groupby('所在小区').apply(lambda...\的汽车销售数据交叉透视表前1010列 为:\n',vsCross.iloc[:10,:10]) 转换数据–DataFrame 数据离散化 在进行数据分析时,需要先了解数据的分布特征,如某个的出现频次

9.1K30

整理了25个Pandas实用技巧

DataFrame划分为两个随机的子集 假设你想要将一个DataFrame划分为两部分,随机地75%的给一个DataFrame,剩下的25%的给另一个DataFrame。...接着我们使用drop()函数来舍弃“moive_1”中出现过的剩下的赋值给"movies_2"DataFrame: ? 你可以发现总的行数是正确的: ?...你将会注意到有些是缺失的。 为了找出每一列中有多少是缺失的,你可以使用isna()函数,然后再使用sum(): ?...isna()会产生一个由True和False组成的DataFramesum()会将所有的True换为1,False转换为0并把它们加起来。...我们现在隐藏了索引,Close列中的最小高亮成红色,Close列中的最大高亮成浅绿色。 这里有另一个DataFrame格式化的例子: ?

2.8K40

Pandas必会的方法汇总,数据分析必备!

常见方法 序号 方法 说明 1 df.head() 查询数据的前五 2 df.tail() 查询数据的末尾5 3 pandas.qcut() 基于秩或基于样本分位数变量离散化为等大小桶 4 pandas.cut...True时会丢弃原来的索引,设置新的从0开始的索引,常与groupby()一起用 举例:重新索引 df_inner.reset_index() 三、数据索引 序号 方法 说明 1 .values DataFrame...9 .drop() 删除Series和DataFrame指定或列索引。 10 .loc[标签,列标签] 通过标签查询指定的数据,第一个标签,第二为列标签。...:布尔型数组(过滤)、切片(切片)、或布尔型DataFrame(根据条件设置) 2 df.loc[val] 通过标签,选取DataFrame的单个或一组 3 df.loc[:,val] 通过标签...() 针对各列的多个统计汇总,用统计学指标快速描述数据的概要 6 .sum() 计算各列数据的和 7 .count() 非NaN的数量 8 .mean( ) 计算数据的算术平均值 9 .median(

5.9K20

整理了25个Pandas实用技巧(下)

DataFrame划分为两个随机的子集 假设你想要将一个DataFrame划分为两部分,随机地75%的给一个DataFrame,剩下的25%的给另一个DataFrame。...drop()函数来舍弃“moive_1”中出现过的剩下的赋值给"movies_2"DataFrame: 你可以发现总的行数是正确的: 你还可以检查每部电影的索引,或者"moives_1":...为了找出每一列中有多少是缺失的,你可以使用isna()函数,然后再使用sum(): isna()会产生一个由True和False组成的DataFramesum()会将所有的True换为1,False...转换为0并把它们加起来。...我们可以通过链式调用函数来应用更多的格式化: 我们现在隐藏了索引,Close列中的最小高亮成红色,Close列中的最大高亮成浅绿色。

2.4K10

Pandas三百题

().sum() 9-计算缺失|分列 具体每列有多少缺失 df.isnull().sum() 10-查看缺失 查看全部缺失所在的 df[df.isnull().T.any()==True] 11...df.dropna(how='any') 13-缺失补全|整体填充 全部缺失换为* df.fillna('*') 14-缺失补全|向上填充 评分列的缺失,替换为上一个电影的评分 df['评分...第一列第五)修改为 俄奥委会 df.iloc[4,1] = '俄奥委会' df.loc[5,['国家奥委会']] = '俄奥委会' 5-数据修改|替换(单金牌数字的数字0替换为无 df['金牌数...'].replace(0,'无') 6-数据修改|替换(多值) 无替换为缺失 0替换为None df.replace(['无,0],[np.nan,"None"]) 7-数据查看 查看各列数据类型...'金牌占比 = 金牌数 / {gold_sum}') 15-数据增加|新增(末尾追加) 在df末尾追加一,内容为0,1,2,3...一直到df列的长度 df1 = pd.DataFrame([[i

4.6K22

Numpy和pandas的使用技巧

'' '''2、np.cumsum()返回一个数组,sum()这样的每个元素相加,放到相应位置''' '''NumPy数组实际上被称为ndarray NumPy最重要的一个特点是N维数组对象...0,大于80,替换为90 print(b) 指定轴求和 np.sum(参数1: 数组; 参数2: axis=0/1,0表示列1表示) 指定轴最大np.max(参数1: 数组;...参数2: axis=0/1,0表示列1表示) 指定轴最小np.min(参数1: 数组; 参数2: axis=0/1,0表示列1表示) 或列最大索引np.argmax(参数1: 数组...; 参数2: axis=0/1,0表示列1表示) 或列最小索引np.argmin(参数1: 数组; 参数2: axis=0/1,0表示列1表示) 指定轴平均值mean(参数1: 数组...△ n.transpose()对换数组的维度,矩阵的置 △ ndarray.T 与上类似,用于矩阵的置 △ n.concatenate((a1, a2, ...), axis)沿指定轴连接同形数组

3.5K30
领券