首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

业界 | 用Python做数据科学时容易忘记八个要点!

为了一劳永逸地巩固我对这些概念理解,并为大家免去一些StackOverflow搜索,我文章整理了自己使用Python,NumPy和Pandas时总是忘记东西。...Linspace是指定范围内返回指定个数间隔均匀数字。所以给定一个起始和终止,并指定返回个数,linspace根据你指定个数NumPy数组划好等分。...Pandas删除列或在NumPy矩阵进行求和时,可能会遇到这问题。...Join,就像merge一样,可以组合两个dataframe。但是,它根据它们索引进行组合,而不是某些特定主键。 ?...Pandas内置pivot_table函数电子表格样式数据透视表创建为DataFrame

1.4K00

pandas简单介绍(3)

例如列表a[0, 1, 2, 3, 4],a[1:3]为1,2;而pandas为1,2,3。 数据选择方法:1、直接选择;2、使用loc选择数据;3、使用iloc选择数据。...索引选项 类型 描述 df[val] 从DataFrame中选择单列或多列或行(整数表示选择行) df.loc[val] 根据标签选择单行多行 df.loc[:, val] 根据标签选择单列或多列...df.loc[val1, val2] 根据标签同时选中行和列一部分 df.iloc[where] 根据整数选择一行或多行 df.iloc[:, where] 根据整数选择一列或多列 df.iloc[where_i...pandas简单介绍(1)已经介绍过Series对象相加例子,这里说明一下DataFrame对象加减。...frame1通过利用add方法,f2和fill_value作为参数传入: frame1.add(frame2, fill_value = 0) 可以看出fill_value缺失一方作为0处理。

1.2K10

Pandas图鉴(三):DataFrames

DataFrame有两种可供选择索引模式:loc用于通过标签进行索引,iloc用于通过位置索引进行索引。 Pandas,引用多行/列是一种复制,而不是一种视图。...df.loc['a':'b']['A']=10不会(对其元素赋值不会)。 最后一种情况,该切片副本上设置,而不会反映在原始df(将相应地显示一个警告)。...DataFrame算术 你可以普通操作,如加、减、乘、除、模、幂等,应用于DataFrame、Series以及它们组合。...垂直stacking 这可能是两个或多个DataFrame并为一个最简单方法:你从第一个DataFrame中提取行,并将第二个DataFrame行附加到底部。...就像原来join一样,on列与第一个DataFrame有关,而其他DataFrame根据它们索引来连接。 插入和删除 由于DataFrame是一个列集合,对行操作比对列操作更容易。

33920

3大利器详解-mapapplyapplymap

Pandas三大利器-map、apply、applymap 我们利用pandas进行数据处理时候,经常会对数据框单行多行(列也适用)甚至是整个数据进行某种相同方式处理,比如数据sex字段中男替换成...本文中介绍了pandas三大利器:map、apply、applymap来解决上述需求。 ? 模拟数据 通过一个模拟数据来说明3个函数使用,在这个例子中学会了如何生成各种模拟数据。...","black","red"] # 好好学习如何生成模拟数据:非常棒例子 # 学会使用random模块randint方法 df = pd.DataFrame({"height":np.random.randint...pandas apply() 函数可以作用于 Series 或者整个 DataFrame,功能也是自动遍历整个 Series 或者 DataFrame, 对每一个元素运行指定函数。...DataFrame对象大多数方法,都会有axis这个参数,它控制了你指定操作是沿着0轴还是1轴进行。

57310

pandas库详解一:基础部分

] b = [4,5,6] ​ #字典key即为csv列名 data_dict = {'a_name':a,'b_name':b} ​#设置DataFrame排列顺序 dataFrame...True dataFrame.to_csv("test.csv", index=False, sep='|') #如果希望不覆盖原文件内容情况下信息写入文件,可以加上mode="a" dataFrame.to_csv...2.2.2.3 join_axes 如果有join_axes参数传入,可以指定根据那个轴来对齐数据 例如根据df1表对齐数据,就会保留指定df1表轴,然后df4表与之拼接 result =...# 返回一个新DataFrame,更新index,原来index会被替代消失 # 如果dataframe某个索引不存在,会自动补上NaN df2 = df1.reindex(['a','b','...# columns其中两列:race和sex设置索引,race为一级,sex为二级 # inplace=True 原数据集上修改 adult.set_index(['race','sex'

1.3K30

如何漂亮打印Pandas DataFrames 和 Series

今天文章,我们探讨如何配置所需pandas选项,这些选项将使我们能够“漂亮地打印” pandas DataFrames。...仅显示一部分列(缺少第4列和第5列),而其余列以多行方式打印。 ? 尽管输出仍可读取,但绝对不建议保留列或将其打印多行。...另外,您可以更改display.max_rows,而不是expand_frame_repr设置为False: pd.set_option(‘display.max_rows’, False) 如果列仍打印多页...如何打印所有行 现在,如果您DataFrame包含行数超过一定数目,那么仅显示一些记录(来自df头部和尾部): import pandas as pd import numpy as np...总结 今天文章,我们讨论了Pandas一些显示选项,使您可以根据要显示内容以及可能使用显示器,漂亮地打印DataFrame。 熊猫带有一个设置系统,使用户可以调整和自定义显示功能。

2.3K30

一行代码Pandas加速4倍

Modin 如何Pandas 并行计算 给定 pandas DataFrame ,我们目标是以尽可能快方式对其执行某种计算或处理。...对于一个 pandas DataFrame,一个基本想法是 DataFrame 分成几个部分,每个部分数量与你拥有的 CPU 内核数量一样多,并让每个 CPU 核一部分上运行计算。...让我们 DataFrame 上做一些更复杂处理。连接多个 DataFrames 是 panda 一个常见操作 — 我们可能有几个或多个包含数据 CSV 文件,然后必须一次读取一个并连接它们。...此函数查找 DataFrame 所有 NaN ,并将它们替换为你选择。panda 必须遍历每一行和每一列来查找 NaN 并替换它们。...正如你所看到某些操作,Modin 要快得多,通常是读取数据并查找。其他操作,如执行统计计算, pandas 要快得多。

2.9K10

一行代码Pandas加速4倍

Modin 如何Pandas 并行计算 给定 pandas DataFrame ,我们目标是以尽可能快方式对其执行某种计算或处理。...对于一个 pandas DataFrame,一个基本想法是 DataFrame 分成几个部分,每个部分数量与你拥有的 CPU 内核数量一样多,并让每个 CPU 核一部分上运行计算。...让我们 DataFrame 上做一些更复杂处理。连接多个 DataFrames 是 panda 一个常见操作 — 我们可能有几个或多个包含数据 CSV 文件,然后必须一次读取一个并连接它们。...此函数查找 DataFrame 所有 NaN ,并将它们替换为你选择。panda 必须遍历每一行和每一列来查找 NaN 并替换它们。...正如你所看到某些操作,Modin 要快得多,通常是读取数据并查找。其他操作,如执行统计计算, pandas 要快得多。

2.6K10

Python分析成长之路9

pandas入门 统计分析是数据分析重要组成部分,它几乎贯穿整个数据分析流程。运用统计方法,将定量与定性结合,进行研究活动叫做统计分析。而pandas是统计分析重要库。...1.pandas数据结构     pandas,有两个常用数据结构:Series和Dataframe  为大多数应用提供了一个有效、易用基础。     ...中选择单列或列序列 9 print(df2.loc["one"]) #从DataFrame中选择单行多行 10 print(df2.loc[:,"year"]) #从DataFrame中选择单列...Series,取出Series View Code 1 import numpy as np 2 import pandas as pd 3 df4 = pd.DataFrame(np.arange...分组 View Code 2.使用agg和aggregate方法聚合,能够函数应用于每一列     DataFrame.agg(func,axis=0,*args,**kwargs)

2.1K11

pandas模块(很详细归类),pd.concat(后续补充)

df #对df取值 2.pd.DataFrame参数表 属性 详解 dtype 查看数据类型 index 查看行序列或者索引 columns 查看各列标签 values 查看数据框内数据,也即不含表头索引数据...,最大,最小等等 5.df.T 横纵坐标进行对调 6.df.sort_index(axis=0) 根据axis=0或者1按照横坐标或者纵坐标进行排序 7.df.sort_values('按照对象名称...') 按照进行排序,默认是竖着排序,也可以通过设置axis=0或者1进行修改,默认升序 8.df里按行取行 取单行:用切片进行df[0:1]取第一行,但是开始的话横纵坐标是不算在里面的,这里是横坐标的索引...取多行:df.loc[起始横坐标:结束横坐标] 必须是横坐标,纵坐标的名称而不去索引,前后可以相同就取起始横坐标这一行 9.df里按列取取列 取某一列,df[这列对应横坐标] 取多列,df[[...4) 删除行不为4个 3.df.dropna(subset=['c2']) 删除c2有NaN数据 6.df重空进行添加 df.fillna(value=10)空填充10 7.df进行合并

1.5K20

Pandas | 数据结构

前言 上一期介绍了文件加载到Pandas对象,这个对象就是Pandas数据结构。本次我们就来系统介绍一下Pandas数据结构。 本文框架 1. 数据结构简介 2....DataFrame 4.1 根据多个字典序列创建dataframe 5. 从DataFrame查询出Series 5.1 查询一列 5.2 查询多列 5.3 查询一行 5.4 查询多行 1....DataFrame:代表整个表格对象,是一个二维数据,有多行和多列; Series:每一列或者每一行都是一个Series,他是一个一维数据(图中红框)。 2....DataFrame DataFrame是一个表格型数据结构; 每列可以是不同类型(数值、字符串、布尔等) 既有行索引index,也有列索引columns,可以被看做由Series组成字典。...从DataFrame查询出Series 如果只查询一行、一列,返回是pd.Series; 如果查询多行、多列,返回是pd.DataFrame

1.5K30

数据导入与预处理-拓展-pandas可视化

条形图 2.1 单行垂直/水平条形图 2.2 多行条形图 3. 直方图 3.1 生成数据 3.2 透明度/刻度/堆叠直方图 3.3 拆分子图 4....df 四列分别放在四个子图上 # 折线图|子图 # df 四列分别放在四个子图上 df.plot(subplots=True) plt.show() 输出为: df 四列分别放在一个图上...条形图 2.1 单行垂直/水平条形图 单行垂直/水平条形图 生成数据: # 生成数据 df2 = pd.DataFrame(np.random.rand(10, 4), columns=["a", "...# s=df4["c"] * 200 让散点大小随着变化 df4.plot.scatter(x="a", y="b", figsize=(8, 6), s=df4["c"] * 200) plt.show...总结 关于pandas可视化用法还有很多,这里不再拓展,但还是建议使用matplotlib,seaborn等库完成绘图。

3K20

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

~ 按行 用多个文件建立 DataFrame ~ 按列 从剪贴板创建 DataFrameDataFrame 分割为两个随机子集 根据多个类别筛选 DataFrame 根据最大类别筛选 DataFrame...调用 read_csv() 函数读取生成器表达式里每个文件,把读取结果传递给 concat() 函数,然后合并为一个 DataFrame。...用 dropna() 删除列里所有缺失。 ? 只想删除列缺失高于 10% 缺失,可以设置 dropna() 里阈值,即 threshold. ? 16....每个订单都有订单号(order_id),每个订单有多行。要统计每个订单金额,需要先根据每个 order_id 汇总每个订单里各个产品(item_price)金额。...年龄列有 1 位小数,票价列有 4 位小数,如何这两列显示小数位数标准化? 用以下代码让这两列只显示 2 位小数。 ? 第一个参数是要设置选项名称,第二个参数是 Python 字符串格式。

7.1K20

Python数据分析-pandas库入门

代码示例: import pandas as pd obj = pd.Series([1,4,7,8,9]) obj Series 字符串表现形式为:索引左边,右边。...使用 NumPy 函数或类似 NumPy 运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)都会保留索引链接,代码示例: obj2*2 np.exp(obj2) 还可以 Series...虽然 DataFrame 是以二维结构保存数据,但你仍然可以轻松地将其表示为更高维度数据(层次化索引表格型结构,这是 pandas许多高级数据处理功能关键要素 ) 创建 DataFrame 办法有很多...作为 pandas基本结构一些特性,如何创建 pandas 对象、指定 columns 和 index 创建 Series 和 DataFrame 对象、赋值操作、属性获取、索引对象等,这章介绍操作...Series 和 DataFrame 数据基本手段。

3.7K20
领券