首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何用 Python 执行常见 Excel 和 SQL 任务

有关数据结构,列表和词典,如何在 Python 运行更多信息,本教程将有所帮助。...这不是很好,由于实际数字顺序被破坏,这使得 Rank 无用,特别是使用 Pandas 默认提供编号索引。 幸运是,使用内置 Python 方法:del,删除变得很容易。 ?...有关数据可视化选项综合教程 - 我最喜欢是这个 Github readme document (全部在文本),它解释了如何在 Seaborn 构建概率分布和各种各样图。...现在我们完成了,我们可以快速看看,添加了几个可以操作,包括不同年份数据来源。 现在我们来合并数据: ? 我们现在可以看到,这个表格包含了人均 GDP 和具有不同遍及全国数据。...现在我们有一个连接表,我们希望将国家和人均 GDP 其所在地区进行分组。 我们现在可以使用 Pandas group 方法排列区域分组数据。 ? ?

10.7K60

用Python执行SQL、Excel常见任务?10个方法全搞定!

有关数据结构,列表和词典,如何在 Python 运行更多信息,本篇将有所帮助。...这不是很好,由于实际数字顺序被破坏,这使得 Rank 无用,特别是使用 Pandas 默认提供编号索引。 幸运是,使用内置 Python 方法:del,删除变得很容易。 ?...有关数据可视化选项综合教程 – 我最喜欢是这个 Github readme document (全部在文本),它解释了如何在 Seaborn 构建概率分布和各种各样图。...现在我们完成了,我们可以快速看看,添加了几个可以操作,包括不同年份数据来源。 现在我们来合并数据: ? 我们现在可以看到,这个表格包含了人均 GDP 和具有不同遍及全国数据。...我们现在可以使用 Pandas group 方法排列区域分组数据。 ? ? 要是我们想看到 groupby 总结永久观点怎么办?

8.2K20
您找到你想要的搜索结果了吗?
是的
没有找到

一文归纳Python特征生成方法(全)

创造特征是一件十分困难事情,需要丰富专业知识和大量时间。机器学习应用本质基本上就是特征工程。...1 特征生成作用 特征生成是特征提取重要一步,作用在于: 增加特征表达能力,提升模型效果;(体重除以身高就是表达健康情况重要特征,而单纯看身高或体重,对健康情况表达就有限。)...如以上述数据集,同一cust_no对应多条记录,通过对cust_no(客户编号)做分组聚合,统计C1字段个数、唯一数、平均值、中位数、标准差、总和、最大、最小值,最终得到每个cust_no统计C1平均值...具体家庭住址,可以截取字符串到城市级粒度。 字符长度 统计字符串长度。转账场景,转账留言字数某些程度可以刻画这笔转账类型。 频次 通过统计字符出现频次。...欺诈场景地址出现次数越多,越有可能是团伙欺诈。 # 字符特征 # 由于没有合适例子,这边只是用代码实现逻辑,加工字段并无含义。

89420

用Python也能进军金融领域?这有一份股票交易策略开发指南

所谓“在时间维度依次均匀分布”在这个例子中就是指日期在x轴上以14天间隔均匀分布:请注意3/7/2005和下一个点3/31/2005间隔,以及4/5/2005 和 4/19/2005间隔。...当然,请别担心,在这份教程,我们已经为你载入了数据,所以在学习如何在金融通过Pandas使用Python时候,你不会面对任何问题。...resample()函数经常被使用,因为它为您时间序列频率转换提供了精细控制和更多灵活性:除了自己指定时间间隔,并指定如何处理丢失数据之外,还可以选择指示如何重新取样您数据,您可以在上面的代码示例中看到...您可以在aapl DataFrame创建一个叫做diff存储结果,然后使用del再次删除它。...你还将在portfolio DataFrame添加一个total,其中包含你现金和你股票拥有价值之和 最后,你还将添加一个returns列到你投资组合里,你将在其中储存回报收益。

2.9K40

excel常用操作大全

a,点击a鼠标右键,插入a列作为b; 2)在B1单元格写入:='13' A1,然后回车键; 3)看到结果是19xxxxx 您用完了吗?...下鼠标左键并向下拖动直到结束。当你放开鼠标左键时,一切都变了。 如果您在原始证书编号添加19,请在B1单元格写入:=A1 '13 ',然后回车键。...2.如何在文件下拉窗口底部设置最近运行文件名数量? 打开“工具”,选择“选项”,然后选择“常规”,并在“最近使用文件列表”下文件编号输入框更改文件编号。...此时,您所有操作都针对所有工作表,无论是设置页眉和页脚还是打印工作表。6.在Excel2000制作工资表,只有第一个人有工资表表头(编号、姓名、岗位工资.),并希望以工资单形式输出它。...19.如何在表单添加斜线? 一般来说,我们习惯在表单上使用斜线,但是工作表本身不提供这个功能。事实上,我们可以使用绘图工具来实现: 点击“绘图”按钮,选择“直线”,鼠标将变成一个十字。

19.1K10

Pandas系列 - DataFrame操作

概览 pandas.DataFrame 创建DataFrame 列表 字典 系列(Series) 选择 添加 删除 pop/del 行选择,添加和删除 标签选择 loc 整数位置选择 iloc...行切片 附加行 append 删除行 drop 数据帧(DataFrame)是二维数据结构,即数据以行和表格方式排列 数据帧(DataFrame)功能特点: 潜在是不同类型 大小可变 标记轴...(行和) 可以对行和执行算术运算 pandas.DataFrame 构造函数: pandas.DataFrame(data, index, columns, dtype, copy) 编号 参数...([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])} df = pd.DataFrame(d) print df ['one'] 添加 import pandas...], index=['a', 'b', 'c', 'd'])} df = pd.DataFrame(d) print df.iloc[2] 行切片 附加行 append 使用append()函数将添加

3.8K10

Pandas入门2

df[['Mjob','Fjob']].applymap(str.title) Step 7.创建一个名为majority函数,并根据age数据返回一个布尔值添加数据,列名为 legal_drinker...Pandas时间序列 不管在哪个领域中(金融学、经济学、生态学、神经科学、物理学等),时间序列数据都是一种重要结构化数据形式。在多个时间点观察或者测量到任何事物都是可以形成一段时间序列。...时间序列数据意义取决于具体应用场景,主要有以下几种: 1.时间戳,特定时间 2.固定时期(period),2017年1月或2017年 3.时间间隔(interval),由开始时间和结束时间戳表示...,时期可以被看为时间间隔特例。...image.png 7.3 Pandas时间序列 pandas通常是用于处理成组日期,不管这个日期是DataFrame轴索引还是。to_datetime方法可以解析多种不同日期表示形式。

4.1K20

3 个不常见但非常实用Pandas 使用技巧

To_period 在 Pandas ,操作 to_period 函数允许将日期转换为特定时间间隔。使用该方法可以获取具有许多不同间隔或周期日期,例如日、周、月、季度等。...比如针对于时间类型,month 方法只返回在许多情况下没有用处月份数值,我们无法区分 2020 年 12 月和 2021 年 12 月。...但是我们通过使用to_period 函数参数”M“实现时间序列。 让我们为年月和季度创建。...但是它只是全部总和没有考虑分类。在某些情况下,我们可能需要分别计算不同类别的累积和。 Pandas我们只需要按类对行进行分组,然后应用 cumsum 函数。...例如在我们 DataFrame ,”分类具有 4 个不同值分类变量:A、B、C、D。 默认情况下,该数据类型为object。

1.3K10

3 个不常见但非常实用Pandas 使用技巧

1、To_period 在 Pandas ,操 to_period 函数允许将日期转换为特定时间间隔。使用该方法可以获取具有许多不同间隔或周期日期,例如日、周、月、季度等。...比如针对于时间类型,month 方法只返回在许多情况下没有用处月份数值,我们无法区分 2020 年 12 月和 2021 年 12 月。...但是我们通过使用to_period 函数参数”M“实现时间序列。 让我们为年月和季度创建。...但是它只是全部总和没有考虑分类。在某些情况下,我们可能需要分别计算不同类别的累积和。 Pandas我们只需要按类对行进行分组,然后应用 cumsum 函数。...例如在我们 DataFrame ,”分类具有 4 个不同值分类变量:A、B、C、D。 默认情况下,该数据类型为object。

1.7K30

Pandas 学习手册中文第二版:1~5

Pandas 常见情况是财务数据,其中变量代表股票价值,因为它在一天固定时间间隔内发生变化。 我们通常希望确定特定时间间隔内价格变化率变化。...首先是.reindex()方法结果是Series,而不是就地修改。 Series具有带有标签索引,传递给函数时所指定。 将为原始Series存在每个标签复制数据。...具体而言,在本章,我们将介绍: 重命名列 使用[]和.insert()添加 通过扩展添加 使用连接添加 重新排序列 替换内容 删除 添加行 连接行 通过扩展添加和替换行 使用.drop...-2e/img/00195.jpeg)] 使用[]和.insert()添加 可以使用[]运算符将添加到数据帧。...然后,pandasSeries与副本DataFrame对齐,并将其添加为名为RoundedPrice添加索引末尾。 .insert()方法可用于在特定位置添加

8.1K10

时间序列重采样和pandasresample方法介绍

在本文中,我们将深入研究Pandas重新采样关键问题。 为什么重采样很重要? 时间序列数据到达时通常带有可能与所需分析间隔不匹配时间戳。...例如以不规则间隔收集数据,但需要以一致频率进行建模或分析。 重采样分类 重采样主要有两种类型: 1、Upsampling 上采样可以增加数据频率或粒度。这意味着将数据转换成更小时间间隔。...重新可以将这些数据与交易策略时间框架(每日或每周)保持一致。 物联网(IoT)设备通常以不同频率生成数据。重新采样可以标准化分析数据,确保一致时间间隔。...常用方法包括平均、求和或使用插值技术来填补数据空白。 在上采样时,可能会遇到原始时间戳之间缺少数据点情况。插值方法,线性或三次样条插值,可以用来估计这些值。...重采样是时间序列数据处理一个关键操作,通过进行重采样可以更好地理解数据趋势和模式。 在Python,可以使用Pandasresample()方法来执行时间序列重采样。 作者:JI

48530

python数据预处理 :数据抽样解析

这种方法优势是,简单、好操作、适用于分布均匀场景;缺点是总体大时无法一一编号 系统抽样 又称机械、等距抽样,将总体个体顺序进行编号,然后计算出间隔,再按照抽样间隔抽取个体。...(例如n=20000时,抽取其中2W行) # frac是抽取。...axis=0时是抽取行,axis=1时是抽取(也就是说axis=1时,在随机抽取n,在axis=0时,在行随机抽取n行) df_0 = df.sample(n=20, replace=True...数据抽样过程要注意一些问题 数据时效性 不能用过时数据来分析现在运营状态 关键因素数据 整体数据关键性数据必须要在模型双十一带来销售增长 业务随机性 抽样数据要使各个场景数据分布均衡...月销售预测,至少包含12个月数据;时间还要考虑季节、节假日、特定促销日等周期性。 做预测分析 考虑特征数据和特征值域分布,通常数据记录要同时是特征数量和特征值域100倍以上。

1.5K20

对比Excel,更强大Python pandas筛选

fr=aladdin')[1] 单个条件筛选数据框架 从世界500强列表中选择公司,我们可以使用.loc[]来实现。注意,这里使用是方括号而不是括号()。...如果不需要数据框架所有,只需将所需列名传递到.loc[]即可。例如,仅需要选择最新排名、公司名称和营业收入,我们可以执行以下操作。注意,它只返回我们指定3。...图2 发生了什么(原理) 了解事情究竟是怎么发生很重要,这将帮助我们理解如何在pandas上使用筛选。...看看下面的Excel屏幕截图,添加了一个,名为“是否中国”,还使用了一个简单IF公式来评估一行是否“总部所在国家”为中国,该公式返回1或0。实际上,我正在检查每一行值。...在现实生活,我们经常需要根据多个条件进行筛选,接下来,我们将介绍如何在pandas中进行一些高级筛选。

3.9K20

分析你个人Netflix数据

将字符串转换为PandasDatetime和Timedelta 我们两个时间相关数据看起来确实正确,但是这些数据实际存储格式是什么?...(pandas可以理解并执行计算持续时间格式) 所以,让我们按照这个顺序来处理这些任务,首先使用pandas将Start Time通过pd.to_datetime()转换为DateTime 我们还将添加可选参数...在我们数据探索,我们注意到当某些内容(章节预览)在主页上自动播放时,它将被视为我们数据视图。 然而,只看两秒钟预告片和真正看一部电视剧是不一样!...第5步:分析数据 当你意识到你花了多少时间看同一个节目。 我花了多少时间看老友记? 因为我们已经得到了pandas可以计算持续时间格式,所以回答这个问题非常简单。...我们将从一个小准备工作开始,这将使这些任务更加简单:为“weekday”和“hour”创建。.

1.7K50

pandas 分类数据处理大全(附代码)

比如,人口性别分为男和女,年龄分为老、、少。 在计算机语言里,我们通常会用数字来表示,比如用1代表男,0代表女,但是0和1之间并没有大小关系,pandas中用category来表示分类数据。...在合并,为了保存分类类型,两个category类型必须是完全相同。 这个与pandas其他数据类型略有不同,例如所有float64都具有相同数据类型,就没有什么区分。...默认情况下,当category分组时,即使数据不存在,pandas也会为该类别每个值返回结果。...为这个交叉表添加一个new_col,值为1。...使用.unstack()会把species索引移到索引(类似pivot交叉表操作)。而当添加不在species分类索引时,就会报错。

1.1K20

时序数据预测:ROCKET vs Time Series Forest vs TCN vs XGBoost

我将在这里重点介绍是 ROCKET transform 和时间序列分类器。这里实际上有大量有趣时间序列分类器,其中许多属于符号表示类型(将时间序列表示为字母或符号序列, DNA)。...我发现在这个时间序列,它们大多数都没有太大竞争力,所以我专注于实际上足够好用 2 个,可以在现实生活中部署。...预处理数据——只需从其余减去第一个值,使其等于 0,然后删除该。将第一个 X 小时数作为您训练数据。我从 4 小时开始,这意味着 239 个时间点(第 240 个是您要预测时间点)。...Sktime 分类器要求数据以一种奇怪格式存储——一个 Pandas DataFrame,除了每个时间(239 个特征,一个形状数组 (N, 239),你有 1 ,其中每一行或每个元素 该本身就是一个...,而是获取时间序列间隔(模型 HP 有多少个间隔),并找到一些特殊特征 像每个人平均值、偏差和斜率这样统计数据,并将它们用作特征。

1.3K20

Python批量处理Excel数据后,导入SQL Server

有一数据DocketDate是excel短时间数值,需要转变成正常年月日格式; eg. 44567 --> 2022/1/6 部分数据需要按SOID进行去重复处理,根据DocketDate保留最近数据...from datetime import date, timedelta date_days = 44567 # 将天数转成日期类型时间间隔 delta = timedelta(date_days)...代码如下,首先将字符串格式转变成日期类型数据,原数据为06/Jan/2022 12:27(数字日/英文月/数字年 数字小时:数字分钟),日期格式化符号解释表对应关系替换即可。...“3)订单编号SOID去重 ” 这里去重复除了指定去重外,还需要按日期保留最新数据。...我想法是,首先调用pandassort_values函数将所有数据根据日期进行升序排序,然后,调用drop_duplicates函数指定SOID进行去重,并指定keep值为last,表示重复数据中保留最后一行数据

4.5K30

PowerBI x Python 之关联分析(上)

关于Power BI如何做关联分析,网上已经有不少文章(马老师之前推文,以以及power bi星球等等),其中核心是合并及userelationship。...所以本文介绍如何在PowerBI里借助Python快速求出频繁项集(关联度较大组合)。...本案数据(BreadBasket,面包购物篮)结构如下。前两是购物时间,Transaction是购物单编号,Item是物品。...首先选取Py可视化控件,拖动到画布上,然后再选中所需字段,结果如下: 在Power Bi下方出现了一个窗口(编辑器)。...选中字段后,编辑器生成6行代码:意味着Pandas和matplotlib两个库默认导入,同时生成了包含所选字段数据帧dataset。接下来,即可在编辑器编辑代码。只要本地安装了库,都可以导入。

1.2K20

Pandas 学习手册中文第二版:11~15

,并将它们旋转到DataFrame上,同时为原始DataFrame适当行和填充了值。...此外,采用这种格式更容易添加变量和度量,因为可以简单地将数据添加行,而不需要通过添加来更改DataFrame结构。 堆叠数据性能优势 最后,我们将研究为什么要堆叠数据。...介绍了拆分应用组合模式,并概述了如何在 Pandas 实现这种模式。 然后,我们学习了如何基于和索引级别数据将数据分为几组。 然后,我们研究了如何使用聚合函数和转换来处理每个组数据。...-2e/img/00691.jpeg)] 索引时间隔具有Timestamp对象,因此仅确切日期时间戳记与每日时间序列一致,从而得到 670 NaN值。...,由于现有数据是根据间隔放入存储桶,因此通常可能会问到存储桶两端值是多少。

3.3K20

Pandas全景透视:解锁数据科学黄金钥匙

优化数据结构:Pandas提供了几种高效数据结构,DataFrame和Series,它们是为了优化数值计算和数据操作而设计。这些数据结构在内存以连续块方式存储数据,有助于提高数据访问速度。...DataFrame就是Series,Series可以转化为DataFrame,调用方法函数to_frame()即可 Series 是 pandas 一种数据结构,可以看作是带有标签一维数组。...值(Values): 值是 Series 存储实际数据,可以是任何数据类型,整数、浮点数、字符串等。...0或’index’,表示行删除;1或’columns’,表示删除。inplace:是否原地替换。布尔值,默认为False。如果为True,则在原DataFrame上进行操作,返回值为None。...则表示将x数值分成等宽n份(即每一组内最大值与最小值之差约相等);如果是标量序列,序列数值表示用来分档分界值如果是间隔索引,“ bins”间隔索引必须不重叠举个例子import pandas

8610
领券