首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据分析从零开始实战(一)

82055>workon Data_analysis (Data_analysis) C:\Users\82055>pip install pandas 安装结果: 安装过程 安装过程大概1分钟左右,完成后会显示...不会从github下载文件的,可以关注微信公众号:简说Python,微信公众号后台回复:数据分析实战。...原始数据文件路径 rpath_csv = father_path+r'\data01\city_station.csv' # 读取数据 csv_read = pd.read_csv(rpath_csv) # 显示数据前...6. na_values:列表,设置需要将替换成NAN,pandas默认NAN为缺省,可以用来处理一些缺省、错误的数值。 7. encoding:字符串,用于unicode的文本编码格式。...转换为特定; 4. columns:列表,选择部分列写入; 5. header:None,写入时忽略列名; 6. index:False则选择不写入索引,默认为True。

98120
您找到你想要的搜索结果了吗?
是的
没有找到

python df 列替换_如何用Python做数据分析,没有比这篇文章更详细的了(图文详情)...

“定位条件”“开始”目录下的“查找和选择”目录中。  查看空  Isnull 是 Python 中检验空的函数,返回的结果是逻辑,包含空返回 True,不包含则返回 False。...主要内容包括对空,大小写问题,数据格式和重复的处理。这里不包含对数据间的逻辑验证。  处理空(删除或填充)  我们创建数据表的时候 price 字段中故意设置了几个 NA 。...1#如果 price 列的>3000,group 列显示 high,否则显示 low  2df_inner['group'] = np.where(df_inner['price'] > 3000,'... 与数据分组相反的是对数值进行分列,Excel 中的数据目录下提供“分列”功能。... python 中使用 split 函数实现分列。  数据分列  在数据表中 category 列中的数据包含有两个信息,前面的数字为类别 id,后面的字母为 size 。中间以连字符进行连接。

4.4K00

初中级前端必须要知道的JS数据类型

这里的几个表示的是一个量级概念, JS 中对应 Number 类型,包含整数和浮点数,还有一些特殊的,比如: -Infinity 表示负无穷大、 +Infinity 表示正无穷大、 NaN 表示不是一个数字...想一个问题为什么引用类型的要存储到堆内存中?能不能存到栈内存中呢?...无限循环,所以理论上十进制的 0.1 转成二进制后会是一个无限小数 0.0001100110011001100......valueOf: () => { return 20 }, } console.log( +obj ) // 20 console.log( `${obj}` ) // 'bubuzou' 箱操作的时候...显示类型转换 我们平时写代码的时候应该尽量让写出来的代码通俗易懂,让别人能阅读后知道你是要做什么,所以在对类型进行判断的时候应该尽量显示的处理。

1.4K20

更高效的利用Jupyter+pandas进行数据分析,6种常用数据格式效率对比!

将五个随机生成的具有百万个观测的数据集转储到CSV中,然后读回内存以获取平均指标。并且针对具有相同行数的20个随机生成的数据集测试了每种二进制格式。...同时使用两种方法进行对比: 1.将生成的分类变量保留为字符串 2.执行任何I/O之前将其转换为pandas.Categorical数据类型 1.以字符串作为分类特征 下图显示了每种数据格式的平均I/O...下面的条形图显示了我们之前提到的有关parquet格式的情况 ? 为什么parquet内存消耗这么高?因为只要在磁盘上占用一点空间,就需要额外的资源才能将数据解压缩回数据帧。...即使文件持久性存储磁盘上需要适度的容量,也可能无法将其加载到内存中。 最后我们看下不同格式的文件大小比较。所有格式都显示出良好的效果,除了hdf仍然需要比其他格式更多的空间。 ?...结论 正如我们的上面的测试结果所示,feather格式似乎是多个Jupyter之间存储数据的理想选择。它显示出很高的I/O速度,不占用磁盘上过多的内存,并且在装回RAM时不需要任何包。

2.8K20

更高效的利用Jupyter+pandas进行数据分析,6种常用数据格式效率对比!

将五个随机生成的具有百万个观测的数据集转储到CSV中,然后读回内存以获取平均指标。并且针对具有相同行数的20个随机生成的数据集测试了每种二进制格式。...同时使用两种方法进行对比: 1.将生成的分类变量保留为字符串 2.执行任何I/O之前将其转换为pandas.Categorical数据类型 1.以字符串作为分类特征 下图显示了每种数据格式的平均I/O...下面的条形图显示了我们之前提到的有关parquet格式的情况 ? 为什么parquet内存消耗这么高?因为只要在磁盘上占用一点空间,就需要额外的资源才能将数据解压缩回数据帧。...即使文件持久性存储磁盘上需要适度的容量,也可能无法将其加载到内存中。 最后我们看下不同格式的文件大小比较。所有格式都显示出良好的效果,除了hdf仍然需要比其他格式更多的空间。 ?...结论 正如我们的上面的测试结果所示,feather格式似乎是多个Jupyter之间存储数据的理想选择。它显示出很高的I/O速度,不占用磁盘上过多的内存,并且在装回RAM时不需要任何包。

2.4K30

看了这个例子,一辈子记住这个有趣的函数,以后给内容配对就有思路了

有朋友微信公众号的后台发消息提问:怎么同时对两列合并的文本进行逆透视?...看到这个问题,我一时竟无言以对…… 后来,群里看到的数据是这样的: 要求是这样子的: 这不叫逆透视啊!什么是透视?什么是逆透视?...,为什么?...1、不能拆分到行:因为要分别对两列的内容进行拆分且找配对关系,先任何一列都会使配对关系丢失; 2、不能拆分到列:因为要拆分的内容的项数是不固定的。...,这里选择空格) Step 05:提取出来后,再按前面选择的分隔符简单分列即可 最后,关于怎么综合各步骤函数一条公式搞定的事情,先看个图:

91040

数据科学 IPython 笔记本 7.13 向量化字符串操作

(),返回布尔 extract() 每个元素上调用re.match(),返回作为字符串的每个分组 findall() 每个元素上调用re.findall() replace() 将模式串的每次出现替换为一些其它字符串...contains() 每个元素上调用re.search(),返回布尔 count() 统计模式串的出现次数 split() 等价于str.split(),但是接受正则表达式 rsplit() 等价于...repeat() 重复 normalize() 返回字符串的 Unicode 形式 pad() 字符串的左侧,右侧或两侧添加空格 wrap() 将长字符串拆分为长度小于给定宽度的行 join()...特别是,成分列表是字符串格式;我们将不得不仔细提取我们感兴趣的信息。...虽然概念上很简单,但由于数据的异质性,任务变得复杂:例如,从每一行中提取干净的成分列表并不容易。 所以我们用一些手段:我们先从一系列常见成分开始,然后仅仅搜索它们是否每个配方的成分列表中。

1.6K20

11.1 Java 详解 Object 和包装类

1、INFINITY: 浮点数运算时,有时我们会遇到除数为 0 的情况,那 java 是如何解决的呢? 我们知道,整型运算中,除数是不能为 0 的,否则直接运行异常。...java 中的 NAN 是这么定义的: public static final double NaN = 0.0d / 0.0; NAN 表示非数字,它与任何都不相等,甚至不等于它自己,所以要判断一个数是否为...NAN 要用 isNAN 方法: System.out.println(Double.isNaN(Float.NaN)); // output: true 自动装箱/箱 Java 5 之后提供了箱...(unboxing)功能,箱能够将包装类对象自动转换为基本数据类型的数值,而不需要使用 intValue() 或 doubleValue() 等方法。...= null; int intVar = obj; 包装类的常量池 在前面,我们提到,创建包装类对象时,可以使用静态的 valueOf 方法,也可以直接使用 new,但建议使用 valueOf 方法,为什么

41110

不支持连续分隔符当作一个处理?这个方法很多人没想到!|PQ实战

导语:一般来说,Excel里能实现的对数据的处理,Power Query里都可以实现,有的Excel里方便一点儿,有的PQ里更快一些儿,但关键不在于多几个步骤还是少几个步骤,而是你是否需要重复地做。...在做数据分列的时候,如果碰到分隔符连续出现的情况,比如用空格分列的时候,有的地方连续几个空格,那到底是分成几个,还是只当做一个来处理?...实际上就是,分列的时候怎么知道要分几列? 其实我不知道,而是事先通过其他操作步骤得到的。...具体如下: Step-01 重复列 Step-02 按空格分列到行 Step-03 筛选去掉空内容 Step-04 分组统计行数 Step-05 统计最大 通过上面的操作,即可得到最大会分成几列。...- 2 - 行后筛选再分组加索引透视 Step-01 重复列 Step-02 按空格分列到行 Step-03 筛选去掉空内容 Step-04 分组加索引 修改步骤公式如下: 展开得到添加好索引的结果。

11510

【JS进阶】你真的掌握变量和类型了吗

、+Infinity、NaN) String:一串表示文本的字符序列 Symbol:一种实例是唯一且不可改变的数据类型 (es10中加入了第七种原始类型BigInt,现已被最新Chrome支持) 对象类型...undefined转为数值时为NaN(非数字的特殊) JavaScript是一门动态类型语言,成员除了表示存在的空外,还有可能根本就不存在(因为存不存在只在运行期才知道),这就是undefined...五、不老实的Number类型 为什么说Number类型不老实呢,相信大家都多多少少的开发中遇到过小数计算不精确的问题,比如0.1+0.2!...7.2 if语句和逻辑语句 if语句和逻辑语句中,如果只有单个变量,会先将变量转换为Boolean,只有下面几种情况会转换成false,其余被转换成true: null undefined '' NaN...8.3 toString 上面我们箱操作中提到了toString函数,我们可以调用它实现从引用类型的转换。

3.2K30

Excel表格中格式转换的这些套路,你都get了吗?

经常会遇到朋友问我这样的问题: 为什么Excel表格里的金额无法合计? 考勤系统导出的报表日期如何修改显示形式? 明明是数字,为什么计算就报错呢? 下面我们一起看下处理这种格式问题的办法。...在这一列的F2单元格里输入下图中的value函数:=value(D2),表示让这一单元格的等于D2单元格的。...方法1)应用分列工具 首先,选中数据区域;其次,选择“数据”选项卡的“分列”功能 方法2)text函数转换法 借助辅助列F列,F2单元格输入=text(C2,"@")   其中@代表文本格式...从下图的操作来看,“假”日期是无法通过“单元格格式设置”来更改显示形式的,示例处一直显示####### 下面介绍两种更改日期格式的操作方法 方法1)使用“数据”-“分列”功能 方法2)使用自定义格式格式的方法...、编码),需要转为文本格式 3)“假”日期格式无法通过右键单元格来改变日期显示形式 上面这些格式问题,都可以使用Excel的分列功能解决。

2.2K20

重学JS基础-类型检测和转换

可以接收第二个参数,即被转化的数字的进制类型 不过要注意的是 使用这个函数转化类似于'123abc'的不会报错,而是返回数字 123 ,这是因为这个函数转化的时候,会默认停止第一位非数字位....转化浮点数的时候,也只会保留整数部分。 对于完全无法转化的变量函数返回一个NaN。...console.log(parseFloat("aaa")); //NaN toString()方法 这个方法与String()类似,但是有两个不同点, 一个是这个方法是变量后面加....等于: == 这个比较会先把两边转化为相同类型,然后比较其是否相等,注意 NaN==NaN返回false 3,装箱转换和箱转换 装箱转换:把基本数据类型转化为对应的引用数据类型的操作 每当读取一个基本类型的时候...new String("some text"); var s2 = s1.substring(2); s1 = null; 这样就完成装箱,我们也就能在s1上调用方法了 箱转换:将引用类型对象转换为对应的类型对象

1.4K10

Python从零开始第三章数据处理与分析python中的dplyr(4)目录

sep:可以根据字符串或整数位置以拆分列。 remove:指示是否删除原始列。 convert:指示是否应将新列转换为适当的类型(与spreadabove相同)。...fill:可以是'right,要么最右边的列中填充'np.nan来填充缺失的部分,也可以left中填充np.nan最左边的列中填充。...*na_action:可以是maintain(默认),ignore或”as_string之一。 默认的maintain 将使新列行成为“NaN如果该行中的任何原始列单元格包含“NaN”。...ignore会在加入时将任何NaN视为空字符串。 as_string将在加入之前将任何NaN转换为字符串“nan“。...ignore_index=False) 功能和 pandas.concat([df, other], join=join, ignore_index=ignore_index, axis=0)一致,竖直方向合并数据框

1.1K20

pandas中ix的使用详细讲解

这是为什么呢?这是由于ix的复杂特点可能使ix使用起来有些棘手: 如果索引是整数类型,则ix将仅使用基于标签的索引,而不会回退到基于位置的索引。如果标签不在索引中,则会引发错误。...2 Dataframe中使用ix实现复杂切片 有时候,使用Dataframe进行切片时,我们想混合使用标签和位置来对行和列进行切片。那么,应该怎么操作呢?...NaN NaN NaN pandas的早期版本(0.20.0)之前,ix可以很好地实现这个功能。...我们可以使用标签来切分行,使用位置来切分列(请注意:因为4并不是列的名字,因为ix列上是使用的iloc)。...df.ix[:'c', :4] x y z 8 a NaN NaN NaN NaN b NaN NaN NaN NaN c NaN NaN NaN NaN pandas的后来版本中,我们可以使用iloc

1.7K10

JS进阶 你真的掌握变量和类型了吗

、+Infinity、NaN) String:一串表示文本的字符序列 Symbol:一种实例是唯一且不可改变的数据类型 (es10中加入了第七种原始类型BigInt,现已被最新Chrome支持) 对象类型...对于引用类型,比较时会比较它们的引用地址,虽然两个变量堆中存储的对象具有的属性都是相等的,但是它们被存储了不同的存储空间,因此比较为false。...undefined转为数值时为NaN(非数字的特殊) JavaScript是一门动态类型语言,成员除了表示存在的空外,还有可能根本就不存在(因为存不存在只在运行期才知道),这就是undefined...五、不老实的Number类型 为什么说Number类型不老实呢,相信大家都多多少少的开发中遇到过小数计算不精确的问题,比如0.1+0.2!...8.3 toString 上面我们箱操作中提到了toString函数,我们可以调用它实现从引用类型的转换。

2.6K30
领券