首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

浅谈NumPy和Pandas库(一)

机器学习、深度学习在用Python时,我们要用到NumPy和Pandas库。今天我和大家一起来对这两个最最基本语句进行学习。...:numpy.dot函数可以计算出两个向量之间点积。...Pandas数据经常包括在名为数据框架(data frame)结构,数据框架是已经标记二维数据结构,可以让你根据需要选择不同类型列,类型有字符串(string)、整数(int)、浮点型(float...#'name'、'age'等这样名字为key(键),Series是Python序列:里面为对应,index为目标索引组 #对于非数值组NaN,空出来就好,在索引组也空出来就好。...False # name oliver # Name: a, dtype: object 若要选择年龄大于等于30 df[df['age'] >= 30] #answer #

2.3K60

猿创征文|数据导入与预处理-第3章-pandas基础

若未指定数据类型,pandas根据传入数据自动推断数据类型。 在使用pandasSeries数据结构时,可通过pandas点Series调用。...]数字时,默认选择,且只能进行切片选择,不能单独选择df[0]) # 输出结果为Dataframe,即便只选择 # df[]不能通过索引标签名来选择(df['one']) # 核心笔记...可以做切片对象 # 末端包含 # 核心笔记:df.loc[label]主要针对index选择,同时支持指定index,及默认数字index 输出为: df.iloc[] - 按照整数位置(...0到length-1)选择 # df.iloc[] - 按照整数位置(0到length-1)选择 # 类似list索引,其顺序就是dataframe整数位置,0开始计 df = pd.DataFrame...使用[]访问数据 变量[索引] 需要说明是,若变量是一个Series类对象,则会根据索引获取该对象对应单个数据;若变量是一个DataFrame类对象,在使用“[索引]”访问数据时会将索引视为列索引

13.9K20
您找到你想要的搜索结果了吗?
是的
没有找到

30 个小例子帮你快速掌握Pandas

这些方法根据索引或标签选择和列。 loc:带标签选择 iloc:用索引选择 先创建20个随机indices。...尽管我们对loc和iloc使用了不同列表示形式,但没有改变。原因是我们使用数字索引标签。因此,标签和索引都相同。 缺失数量已更改: ? 7.填充缺失 fillna函数用于填充缺失。...df.isna().sum().sum() --- 0 9.根据条件选择 在某些情况下,我们需要适合某些条件观察(即行)。例如,下面的代码将选择居住在法国并且已经流失客户。...method参数指定如何处理具有相同。first表示根据它们在数组(即列)顺序对其进行排名。 21.列唯一数量 使用分类变量时,它很方便。我们可能需要检查唯一类别的数量。...29.根据字符串过滤 我们可能需要根据文本数据(例如客户名称)过滤观察结果()。我已经将虚构名称添加到df_new DataFrame。 ? 让我们选择客户名称以Mi开头

10.6K10

Pandas Sort:你 Python 数据排序指南

Pandas 排序方法入门 快速提醒一下,DataFrame是一种数据结构,和列都带有标记轴。您可以按或列以及或列索引对 DataFrame 进行排序。...和列都有索引,它是数据在 DataFrame 位置数字表示。您可以使用 DataFrame 索引位置特定或列检索数据。默认情况下,索引号从零开始。您也可以手动分配自己索引。...与 using 不同之处.sort_values()在于您是根据索引或列名称对 DataFrame 进行排序,而不是根据这些或列: DataFrame 索引在上图中以蓝色标出。...按升序按索引排序 您可以根据索引对 DataFrame 进行排序.sort_index()。像在前面的示例中一样按列排序会重新排序 DataFrame ,因此索引变得杂乱无章。...DataFrame轴指的是索引 ( axis=0) 或列 ( axis=1)。您可以使用这两个轴来索引选择DataFrame 数据以及对数据进行排序。

13.9K00

Pandas实现ExcelSUMIF和COUNTIF函数功能

顾名思义,该函数对满足特定条件数字相加。 示例数据集 本文使用Kaggle找到一个有趣数据集。...例如,如果想要Manhattan区所有记录: df[df['Borough']=='MANHATTAN'] 图2:使用pandas布尔索引选择 在整个数据集中,看到来自Manhattan1076...在df[],这个表达式df['Borough']=='MANHATTAN'返回一个完整True或False列表(2440个条目),因此命名为“布尔索引”。...一旦将这个布尔索引传递到df[],只有具有True记录才会返回。这就是上图2获得1076个条目的原因。...虽然pandas没有SUMIF函数,但只要我们了解这些如何计算,就可以自己复制/创建相同功能公式。

8.9K30

Pandas图鉴(三):DataFrames

下一个选择是用NumPy向量dict或二维NumPy数组构造一个DataFrame: 请注意第二种情况下,人口如何被转换为浮点数。实际上,这发生在构建NumPy数组早期。...最后一种情况,该将只在切片副本上设置,而不会反映在原始df(将相应地显示一个警告)。 根据情况背景,有不同解决方案: 你想改变原始数据框架df。...垂直stacking 这可能是将两个或多个DataFrame合并为一个最简单方法:你第一个DataFrame中提取,并将第二个DataFrame附加到底部。...即使不关心索引,也要尽量避免在其中有重复: 要么使用reset_index=True参数 调用df.reset_index(drop=True)来重新索引0到len(df)-1、 使用keys...就像1:1关系一样,要在Pandas连接一对1:n相关表,你有两个选择

34720

14个pandas神操作,手把手教你写代码

注意,这里并没有修改原Excel,我们读取数据后就已经和它没有关系了,我们处理是内存df变量。 将name建立索引后,就没有0开始数字索引了,如图4所示。 ?..., y]是一个非常强大数据选择函数,其中x代表,y代表列,和列都支持条件表达式,也支持类似列表那样切片(如果要用自然索引,需要用df.iloc[])。...(2)选择 选择方法如下: # 用指定索引选取 df[df.index == 'Liver'] # 指定姓名 # 用自然索引选择,类似列表切片 df[0:3] # 取前三 df[0...:10:2] # 在前10个两个取一个 df.iloc[:10,:] # 前10个 (3)指定和列 同时给定和列显示范围: df.loc['Ben', 'Q1':'Q4'] # 只看Ben...df.mean() # 返回所有列均值 df.mean(1) # 返回所有均值,下同 df.corr() # 返回列与列之间相关系数 df.count() # 返回每一列非空个数

3.3K20

开启机器学习第一课:用Pandas进行数据分析

print(df.shape) (3333, 20) 输出我们可以看到,该表格数据包含3333和20列。...其中,loc()方法是用于按名称进行索引,我们假定“索引0到5(包含索引)以及State到Area code标记(包含索引)”,代码如下: df.loc[0:5, 'State':'...我们会假定“索引得到前三列前五,这种索引方式和Python切片方式是一样,不会包含索引最大对应项,代码如下: df.iloc[0:5, 0:3] 如果想索引DataFrame数据第一和最后一...plan两个变量是如何分布,我们可以使用crosstab()方法来构建一个简单表格查看我们想要内容: pd.crosstab(df['Churn'], df['International plan...随后,我们将进一步讨论决策树,并找出如何仅仅基于输入数据来自动找到数据之间相关性; 没有应用机器学习方法,我们就已经可以得到这两个基准,这将成为我们构建后续模型起点。

1.5K50

python对100G以上数据进行排序,都有什么好方法呢

Pandas 排序方法入门 快速提醒一下,DataFrame是一种数据结构,和列都带有标记轴。您可以按或列以及或列索引对 DataFrame 进行排序。...和列都有索引,它是数据在 DataFrame 位置数字表示。您可以使用 DataFrame 索引位置特定或列检索数据。默认情况下,索引号从零开始。您也可以手动分配自己索引。...与 using 不同之处.sort_values()在于您是根据索引或列名称对 DataFrame 进行排序,而不是根据这些或列: DataFrame 索引在上图中以蓝色标出。...按升序按索引排序 您可以根据索引对 DataFrame 进行排序.sort_index()。像在前面的示例中一样按列排序会重新排序 DataFrame ,因此索引变得杂乱无章。...DataFrame轴指的是索引 ( axis=0) 或列 ( axis=1)。您可以使用这两个轴来索引选择DataFrame 数据以及对数据进行排序。

10K30

Python 数据处理:Pandas使用

, # 所以其结果就为NaN(即“非数字”(Not a Number),在Pandas,它用于表示缺失或NA)。...它们可以让你用类似 NumPy 标记,使用轴标签(loc)或整数索引(iloc),DataFrame选择和列子集。...下表对DataFrame进行了总结: 类型 描述 df[val] DataFrame选取单列或一组列;在特殊情况下比较便利:布尔型数组(过滤)、切片(切片)、或布尔型DataFrame(根据条件设置...) print(df2) 把它们相加后将会返回一个新DataFrame,其索引和列为原来那两个DataFrame并集: print(df1 + df2) 如果DataFrame对象相加,没有共用列或标签...Series索引匹配到DataFrame列,然后沿着一直向下广播: print(frame - series) 如果某个索引在DataFrame列或Series索引找不到,则参与运算两个对象就会被重新索引以形成并集

22.7K10

精心整理 | 非常全面的Pandas入门教程

series是一种一维数据结构,每一个元素都带有一个索引,与一维数组含义相似,其中索引可以为数字或字符串。series结构名称: ?...如何保留series两个频次最多项,其他项替换为‘other’ np.random.RandomState(100) # 1~4均匀采样12个点组成series ser = pd.Series(...,pandas根据索引对数据进行运算,若series之间有不同索引,对应就为Nan。...如何csv文件每隔n来创建dataframe # 每隔50读取一数据 df = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets...如何计算每一与下一相关性 df = pd.DataFrame(np.random.randint(1,100, 25).reshape(5, -1)) # 之间相关性 [df.iloc[

9.9K53

Pandas图鉴(二):Series 和 Index

对于非数字标签来说,这有点显而易见:为什么(以及如何Pandas在删除一后,会重新标记所有后续?对于数字标签,答案就有点复杂了。...你逐一进行了几次查询,每次都缩小了搜索范围,但只看了列一个子集,因为同时看到所有的一百个字段是不现实。现在你已经找到了目标,想看到原始表关于它们所有信息。一个数字索引可以帮助你立即得到它。...原理上讲,如下图所示: 一般来说,需要保持索引唯一性。例如,在索引存在重复时,查询速度提升并不会提升。...索引任何变化都涉及到索引获取数据,改变它,并将新数据作为一个新索引重新连接起来。...大多数Pandas函数都会忽略缺失: 更高级函数(median, rank, quantile等)也是如此。 算术操作是根据索引来调整: 在索引存在非唯一情况下,其结果是不一致

21620

Python数据处理利器

# 转化为元组print(dict(df['title'])) # 转化为字典,key为数字索引 # 2.读取某一个单元格数据# 不包括表头,指定列名和索引print(df['title'][0...1.读取一数据# 不包括表头,第一个索引为0# 获取第一数据,可以将其转化为list、tuple、dictprint(list(df.iloc[0])) # 转成列表print(tuple(df.iloc...指定索引和列索引(或者列名)print(df.iloc[0]["l_data"]) # 指定索引和列名print(df.iloc[0][2]) # 指定索引和列索引 # 3.读取多行数据...sheet_name='multiply') # 返回一个DataFrame对象,多维数据结构print(df) # 1.iloc方法# iloc使用数字索引来读取和列# 也可以使用iloc方法读取某一列...5) # 某一列中大于5数值为True,否则为Falseprint(df.loc[df["r_data"] > 5]) # 把r_data列中大于5,所在选择出来print(df.loc[df

2.3K20

数据科学 IPython 笔记本 7.6 Pandas 数据操作

通用函数:索引对齐 对于两个Series或DataFrame对象二元操作,Pandas 将在执行操作过程对齐索引。这在处理不完整数据时非常方便,我们将在后面的一些示例中看到。...', 'Texas'], dtype='object') 任何没有条目的项目都标为NaN(非数字),这就是 Pandas 标记缺失数据方式(请在“处理缺失数据”参阅缺失数据进一步讨论)。...,无论它们在两个对象顺序如何,并且结果索引都是有序。...NumPy 广播规则(参见“数据计算:广播”),二维数组与其中一之间减法是逐行应用。...T 0 -5 0 -6 -4 1 -4 0 -2 2 2 5 0 2 7 请注意,这些DataFrame或Series操作,如上面讨论操作,将自动对齐两个元素之间索引: halfrow = df.iloc

2.7K10

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

Pandas ,如果未指定索引,则默认使用 RangeIndex(第一 = 0,第二 = 1,依此类推),类似于电子表格标题/数字。...在 Pandas 索引可以设置为一个(或多个)唯一,这就像在工作表中有一列用作标识符一样。与大多数电子表格不同,这些索引实际上可用于引用。...索引也是持久,所以如果你对 DataFrame 重新排序,特定标签不会改变。 5. 副本与就地操作 大多数 Pandas 操作返回 Series/DataFrame 副本。...列选择 在Excel电子表格,您可以通过以下方式选择所需列: 隐藏列; 删除列; 引用从一个工作表到另一个工作表范围; 由于Excel电子表格列通常在标题命名,因此重命名列只需更改第一个单元格文本即可...填充柄 在一组特定单元格按照设定模式创建一系列数字。在电子表格,这将在输入第一个数字后通过 shift+drag 或通过输入前两个或三个然后拖动来完成。

19.5K20

直观地解释和可视化每个复杂DataFrame操作

操作数据帧可能很快会成为一项复杂任务,因此在Pandas八种技术均提供了说明,可视化,代码和技巧来记住如何做。 ?...考虑一个二维矩阵,其一维为“ B ”和“ C ”(列名),另一维为“ a”,“ b ”和“ c ”(索引)。 我们选择一个ID,一个维度和一个包含列/列。...包含列将转换为两列:一列用于变量(名称),另一列用于(变量包含数字)。 ? 结果是ID列(a,b,c)和列(B,C)及其对应每种组合,以列表格式组织。...诸如字符串或数字之类非列表项不受影响,空列表是NaN(您可以使用.dropna()清除它们 )。 ? 在DataFrame dfExplode列“ A ” 非常简单: ?...为了访问狗身高,只需两次调用基于索引检索,例如 df.loc ['dog']。loc ['height']。 要记住:外观上看,堆栈采用表二维性并将列堆栈为多级索引

13.3K20

20个能够有效提高 Pandas数据分析效率常用函数,附带解释和例子

loc:通过标签选择 iloc:通过位置选择 loc用于按标签选择数据。列标签是列名。对于标签,如果我们不分配任何特定索引pandas默认创建整数索引。因此,标签是0开始向上整数。...与iloc一起使用位置也是0开始整数。 下述代码实现选择前三前两列数据(iloc方式): df.iloc[:3,:2] ?...下述代码实现选择前三前两列数据(loc方式): df.loc[:2,['group','year']] ? 注:当使用loc时,包括索引上界,而使用iloc则不包括索引上界。...如果axis参数设置为1,nunique将返回每行唯一数目。 13. Lookup 'lookup'可以用于根据、列标签在dataframe查找指定。假设我们有以下数据: ?...Merge Merge()根据共同列组合dataframe。考虑以下两个数据: ? 我们可以基于列共同合并它们。设置合并条件参数是“on”参数。 ?

5.5K30

精通 Pandas 探索性分析:1~4 全

二、数据选择 在本章,我们将学习使用 Pandas 进行数据选择高级技术,如何选择数据子集,如何数据集中选择多个和列,如何Pandas 数据帧或一序列数据进行排序,如何过滤 Pandas 数据帧角色...loc要求两个参数之间用逗号分隔,其中第一个参数是要选择,第二个参数是要选择列,如以下代码块所示: zillow.loc[7, 'Metro'] 如前面的命令所示,我们将7作为要选择索引,...这为我们提供了索引为7和列为Metro。 我们还可以通过按索引而不是列名来引用列来实现此选择。 为此,我们将使用iloc方法。 在iloc方法,我们需要将和列都作为索引号传递。.../img/63443760-aeaf-4f53-9190-78df352d94fc.png)] 和所有列范围中选择 在这里,我们将使用loc方法查看和列序列。...以下代码显示我们正在选择County列为Queens: zillow.loc[zillow.County=="Queens"] 现在,让我们根据不同列选择特定列所有

28K10
领券