首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我用Python展示Excel中常用的20个操

数据生成 说明:生成指定格式/数量的数据 Excel 以生成10*2的0—1均匀分布随机数矩阵例,在Excel中需要使用rand()函数生成随机数,手动拉取指定范围 ?...数据插入 说明:在指定位置插入指定数据 Excel 在Excel中我们可以光标放在指定位置右键增加一行/,当然也可以在添加时对数据进行一些计算,比如我们就可以使用IF函数(=IF(G2>10000...,"高","低")),薪资大于10000的设为高,低于10000的设为低,添加一在最后 ?...数据去重 说明:对重复按照指定要求处理 Excel 在Excel中可以通过点击数据—>删除重复按钮选择需要去重的即可,例如对示例数据按照创建时间进行去重,可以发现去掉了196 个重复,保留了...数据合并 说明:或多数据合并成一 Excel 在Excel中可以使用公式也可以使用Ctrl+E快捷键完成多合并,以公式例,合并示例数据中的地址+岗位列步骤如下 ?

5.5K10
您找到你想要的搜索结果了吗?
是的
没有找到

这些pandas技巧你还不会吗 | Pandas实用手册(PART II)

宠粉号主闪现赶到,来看看pandas系列第二篇吧: 数据清理 & 整理 取得想要关注的数据 数据清理&整理 这节列出一些十分常用的数据清理与整理技巧,如处理空(null value)以及分割。...你可以使用drop函数来舍弃不需要的,记得axis设为1: ? 同理,你也可以舍弃特定行(row), ?...函数的inplace参数设为True会让pandas直接修改df,一般来说pandas里的函数并不会修改原始DataFrame,这样可以保证原始数据不会受到任何函数的影响。...注意我们使用df[columns] = ...的形式字串切割出来的2个新栏分别指定成性格与特技。 list切割成多个 有时候一个栏位里头的Python list: ?...同样也可以运用到行(row)上面,你可以所有样本(samples)排序颠倒选取其中N : ? 注意我们同时使用:5来选出前5个栏位。

1.1K20

软件测试|Pandas数据分析及可视化应用实践

Desktop,在Jupyter中找到Desktop文件夹,通过move移动到目标路径下。...2、读取数据集Pandas提供了多种方式来读取不同类型数据,本文使用read_csv来读取Movielens-1M各个子数据集,该方法表格型数据读取DataFrame对象,这是Pandas核心数据结构之一...:图片图片④ data_ratings中time格式变成‘年-月-日’首先使用Pandas中的to_datetime函数date从object格式转化为datetime格式,然后通过strftime...图片图片4、数据合并Pandas提供merge函数合并数据集,类似于sql中的join操作,分为可设为inner(默认内连接),outer(外连接),left(左连接),right(右连接)。...图片② 根据用户id统计电影评分的均值图片3、分组聚合统计Pandas提供aggregate函数实现聚合操作,可简写agg,可以与groupby一起使用,作用是分组后的对象使给定的计算方法重新取值,

1.5K30

【精心解读】用pandas处理大数据——节省90%内存消耗的小贴士

(https://data.world/dataquest/mlb-game-logs) 我们从导入数据,输出前5行开始: 我们一些重要的字段在下面: date - 比赛日期 v_name -...可以看到,每一个都被赋值一个整数,而且这一在底层是int8类型。这一没有任何缺失数据,但是如果有,category子类型会将缺失数据设为-1。...转换使用pandas.to_datetime()函数,使用format参数告之日期数据存储YYYY-MM-DD格式。...dtype参数接受一个以列名(string型)键字典、以Numpy类型对象的字典。 首先,我们每一的目标类型存储在以列名为键的字典中,开始前先删除日期,因为它需要分开单独处理。...总结 我们学习了pandas如何存储不同的数据类型,利用学到的知识将我们的pandas dataframe的内存用量降低了近90%,仅仅只用了一点简单的技巧: 数值型降级到更高效的类型 字符串列转换为类别类型

8.6K50

机器学习特性缩放的介绍,什么时候为什么使用

算法应用到数据上之前,首先需要将数据放到“米”、“公里”或“厘米”的公共尺度上进行有效的分析和预测。 缩放前输入数据 ? 在上面的数据集中,我们可以看到1和2中的有非常不同的范围。...缩放后的输出 缩放的一种方法是所有从0到1或者我们可以将它们的放在-3到3之间。值更新到新的范围的过程通常称为Normalization 或 Standardization.。...如果某一与其他相比非常高,则具有更高的影响将比其他低的影响高得多。高强度的特征比低强度的特征重得多,即使它们在确定输出中更为关键。...在标准缩放过程中,我们特征的均值偏移0,标准偏差1。应用标准缩放器时,我们获得的在-3到3范围内 ?...虽然归一化是在0到1之间缩放,但是标准化大约是平均值设为0,标准偏差设为1。在确定我们需要标准化还是归一化时,需要考虑一些要点。 当数据代表高斯曲线时,可以使用标准化 标准化不受异常值的影响。

64920

业界 | 用Python做数据科学时容易忘记的八个要点!

为了一劳永逸地巩固我对这些概念的理解,并为大家免去一些StackOverflow的搜索,我在文章中整理了自己在使用Python,NumPy和Pandas时总是忘记的东西。...所以给定一个起始和终止指定返回的个数,linspace根据你指定的个数在NumPy数组中划好等分。这对于数据可视化和在定义图表坐标轴时特别有用。...你可以从上面看出,如果要处理,就将axis设为1,如果要处理行,则将其设为0。 但为什么会这样呢?...我记得我最喜欢的解释是这个: df.shape (# of Rows, # of Columns) 从Pandas的dataframe调用shape属性时会返回一个元组,其中第一个表示行数,第二个表示数...Pandas内置的pivot_table函数电子表格样式的数据透视表创建DataFrame。

1.4K00

Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记

keep:删除重复项保留第一次出现的项取值可以为 first、last或 False  ​ duplicated()方法用于标记 Pandas对象的数据是否重复,重复则标记为True,不重复则标记为False...在堆叠数据时,默认采用的是外连接(join参数设为 outer)的方式进行合并,当然也可以通过join=inner设置内连接的方式。 ...数据重塑  3.1 重塑层次化索引  ​ Pandas中重塑层次化索引的操作主要是 stack()方法和 unstack()方法,前者是数据的“旋转”行,后者是数据的行“旋转”。 ...3.1.1 stack()方法  stack()方法可以数据的索引转换为行索引。  level:默认为-1,表示操作内层索引。若设为0,表示操作外层索引。 ...dropna:表示是否旋转后的缺失删除,若设为True,则表示自动过滤缺失,设置 False则相反。

5.2K00

专栏 | 基于 Jupyter 的特征工程手册:数据预处理(二)

1.2.1 Ordinal Encoding 序数编码 序数编码类别变量转化为一序数变量,包含从1到类别数量之间的整数 import numpy as np import pandas as pd...handle_unknown设为‘value’,即测试集中的未知特征将被标记为-1 # handle_missing设为‘value’,即测试集中的缺失将被标记为-2 # 其他的选择:‘error...handle_unknown设为‘indicator’,即会新增一指示未知特征 # handle_missing设为‘indicator’,即会新增一指示缺失 # 其他的handle_unknown...handle_unknown设为‘indicator’,即会新增一指示未知特征 # handle_missing设为‘indicator’,即会新增一指示缺失 # 其他的handle_unknown...handle_unknown设为‘indicator’,即会新增一指示未知特征 # handle_missing设为‘indicator’,即会新增一指示缺失 # 其他的handle_unknown

99510

数据导入与预处理-第6章-02数据变换

小数定标标准化(规范化) 小数定标规范化:通过移动属性的小数位数,属性映射到[-1,1]之间,移动的小数位数取决于属性绝对的最大。...转化函数移动数据的小数点,使数据映射到[-1,1]。...基于重塑数据(生成一个“透视”表)。使用来自指定索引/的唯一来形成结果DataFrame的轴。此函数不支持数据聚合,多个导致中的MultiIndex。...示例代码如下: 查看初始数据 new_df 输出: # 索引转换为一行数据: # 索引转换为一行数据 new_df.melt(value_name='价格(元)', ignore_index...position_df 输出: 哑变量处理, 给哑变量添加前缀: # 哑变量处理, 给哑变量添加前缀 result = pd.get_dummies(position_df, prefix

19.2K20

sklearn中多种编码方式——category_encoders(one-hot多种用法)

handle_unknown设为‘value’,即测试集中的未知特征将被标记为-1 # handle_missing设为‘value’,即测试集中的缺失将被标记为-2 # 其他的选择:‘error...对于一有N种取值的特征,Onehot方法会创建出对应的N特征,其中每代表该样本是否该特征的某一种取值。因为生成的每一的都是1,所以这个方法起名为Onehot特征。...Dummy特征也是一样,只是少了一,因为第N可以看做是前N-1的线性组合。但是在离散特征的特征过多的时候不宜使用,因为会导致生成特征的数量太多且过于稀疏。...Scikit-learn中也提供来独热编码函数,其可以具有n_categories个可能的一个分类特征转换为n_categories个二进制特征,其中一个1,所有其他0在category_encoders...handle_unknown设为‘indicator’,即会新增一指示未知特征 # handle_missing设为‘indicator’,即会新增一指示缺失 # 其他的handle_unknown

3.1K20

使用pandas Profiling进行探索性数据分析

如果要遵循最佳做法使用虚拟环境,执行以下操作: 1.创建虚拟环境 2.pip install pandas-profiling ipykernelipywidgets 3.ipykernel链接到虚拟环境...图1 现在,数据框架放入pandas_profiling中以生成报告。 图2 几秒钟后,将在jupyter笔记本中看到生成的Pandas Profiling报告。...报告中有几个部分:概述、变量、交互作用、相关性、缺失、样本。 Overview(概述)部分提供了数据集的高级概述,包括变量数量()、观察数量(行)、变量类型。...图3 Variables(变量)部分显示了每个变量的一些详细信息,例如,不同的数量、每个的观察次数,等等。 图4 对于每一个变量,我们都可以“切换细节”,以便更深入地了解特定的数据。...profile = ProfileReport(df,title="Pandas Profiling Report", minimal=True) 分析报告另存为文件 若不想使用Jupyter笔记本环境

1.1K40

Pandas read_csv 参数详解

本文详细介绍 read_csv 函数的各个参数及其用法,帮助大家更好地理解和利用这一功能。常用参数概述pandas的 read_csv 函数用于读取CSV文件。...以下是一些常用参数:filepath_or_buffer: 要读取的文件路径或对象。sep: 字段分隔符,默认为,。delimiter: 字段分隔符,sep的别名。...parse_dates: 某些解析日期。infer_datetime_format: 如果 True 且 parse_dates 未指定,那么尝试解析日期。...如果设置None(默认),CSV文件中的行索引将用作DataFrame的索引。如果设置某个的位置(整数)或列名(字符串),则该将被用作DataFrame的索引。...import pandas as pd# 忽略文件尾部3行df15 = pd.read_csv('data.csv', skipfooter=3)print(df15)parse_dates 某些解析日期示例如下

34510

Pandas进阶修炼120题,给你深度和广度的船新体验

来源:早起Python 本文你介绍Pandas基础、Pandas数据处理、金融数据处理等方面的一些习题。 Pandas 是基于 NumPy 的一种数据处理工具,该工具为了解决数据分析任务而创建。...Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法。...pandas as pd df = pd.read_excel('pandas120.xlsx') 22.查看df数据前5行 df.head() 23.salary数据转换为最大与最小的平均值...('7D').max().plot() 75.数据往后移动5天 data.shift(5) 76.数据向前移动5天 data.shift(-5) 77.使用expending函数计算开盘价的移动窗口均值...#备注 每次移动三个位置,不可以使用自定义函数 np.convolve(df['col2'], np.ones(3)/3, mode='valid') 98.数据按照第三的大小升序排列 df.sort_values

6.1K31

用Python也能进军金融领域?这有一份股票交易策略开发指南

您可以在Pandas的帮助下轻松执行这项算术运算;只需将aapl数据Close减去Open。或者说,aapl.Close减去aapl.Open。...在实践中,您将short_window或long_window传递给rolling()函数, 由于窗口观测必须要有1设置最小设置False使标签不设定在窗口的中心。...如果条件假,则0.0保留原始,不生成信号。您可以使用NumPy的where()函数设置此条件。...取而代之的是,你将在下面看到如何开始创建一个可以生产订单管理损益的投资组合: 首先,你创建一个initial_capital 变量来设置初始资本和新的DataFrame positions。...接下来,你在DataFrame中创建了一个名为AAPL的新。在信号为1的时候,短移动平均线跨越长移动平均线(大于最短移动平均窗口),你购买100股。

2.9K40

python数据分析——数据分类汇总与统计

本文介绍如何使用Python进行数据分类汇总与统计,帮助读者更好地理解和应用数据。 首先,我们需要导入一些常用的Python库,如pandas、numpy和matplotlib等。...例如, DataFrame可以在其行(axis=0)或(axis=1)上进行分组。然后,一个函数应用(apply)到各个分组产生一个新。...关键技术:假设你需要对不同的分组填充不同的。可以数据分组,使用apply和一个能够对各数据块调用fillna的函数即可。...: 行名称 margins : 总计行/ normalize:所有除以的总和进行归一化,True时候显示百分比 dropna :是否刪除缺失 【例19】根据国籍和用手习惯对这段数据进行统计汇总...closed:设置降采样哪一端是闭合的,可以取值right或left。若设为right,则表示划分为左开右闭的区间:若设为left,则 表示划分为左闭右开的区间。

23310

python numpy实现rolling滚动案例

中的滚动窗口rolling函数和扩展窗口expanding函数 在数据分析时,特别是在分析时间序列数据时,常会需要对一个序列进行固定长度窗口的滚动计算和分析,比如计算移动均线。...,则这个窗口经过计算后就会返回NaN,比如,如果min_periods设为3,但当前的窗口中只有两个成员,那么该窗口对应的位置就会返回空;center参数如果设为True,表示在取窗口覆盖的区间时,以当前...,则默认中心位置中间偏右的那一个位置;win_type参数表示不同的窗口类型,可以通过这个参数给窗口成员赋予不同的权重,默认为等权重;on参数表示指定对某一进行rolling,而不是默认的对index...下面的例子中,当窗口长度3,设min_periods2时,可知结果中第一个元素NaN,因为第一个窗口只有一个1,由于min_periods2,所以至少需要包含两个数才行,故第一个,从第二个元素开始才有非空...当设置centerTrue时,如果窗口长度偶数4,比如对于一个窗口[a,b,c,d],则中心中心偏右的那个位置,就是c,故此时第1个窗口覆盖的元素1和2,所以和3,如下所示。

2.9K10

Pandas 2.2 中文官方教程和指南(一)

以下是 pandas 擅长的一些事情: 处理浮点和非浮点数据中的缺失数据(表示 NaN)非常容易 大小可变性:可以从 DataFrame 和更高维对象中插入和删除 自动和显式的数据对齐:对象可以显式地与一组标签对齐...与电子表格软件类似,pandas 数据表示具有和行的表格。除了表示外,还有您在电子表格软件中进行的数据操作和计算,pandas 也支持。继续阅读下一篇教程,开始使用!...表格有 3 ,每都有一个标签。标签分别是 Name、Age 和 Sex。 Name 包含文本数据,每个字符串, Age 是数字, Sex 是文本数据。...与电子表格软件类似,pandas 数据表示具有和行的表格。除了表示,pandas 还支持电子表格软件中的数据操作和计算。继续阅读下一个教程以开始!...一些列确实有缺失,少于 891 个non-nullName、Sex、Cabin和Embarked由文本数据(字符串,又称object)组成。

39110

AI数据分析:集中度分析和离散度分析

1行-20行数据组的: 最大 最小 均值 中位数 极差 方差 标准差 20%分位数 25%分位数 75%分位数 80%分位数 将计算结果写入第2第21行-31行; 然后按照上面的计算步骤一直计算到第...15第21行-31行; 计算第2第1行(设为数据起点)到第15第1行(设为数据终点)数据组的简单年均增长率,写入第16第1行,然后计算第2行,第3行数据,一直计算到第20行; 计算第2第1行(...设为数据起点)到第15第1行(设为数据终点)数据组的复合年均增长率,然后计算第2行,第3行数据,一直计算到第20行; 注意:每一步都输出信息到屏幕 一步步的思考,但是代码要整合在一起 计算复合年均增长率的时候...,年数n是固定:13 源代码: import pandas as pd import numpy as np # 读取Excel文件 file_path = "F:\\AI自媒体内容\\AI行业数据分析...# 计算复合年均增长率(假设年数13年)写入第17 n = 13 # 固定年数 for i in range(1, 21): start_value = df.iloc[i-1, 1] # 起点数据

10110
领券