首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas 2.2 中文官方教程和指南(六)

DataFrame 在 pandas 中,DataFrame类似于 Stata 数据集 - 一个具有带标签列的二维数据源,可以是不同类型的数据。...默认情况下,Stata 执行外连接,合并后两个数据集中的所有观测值都保留在内存中。可以通过使用_merge变量中创建的值,仅保留来自初始数据集、合并数据集或两者交集的观测值。...DataFrame pandas 中的 DataFrame 类似于 Stata 数据集 - 一个具有标记列的二维数据源,可以是不同类型。...DataFrame 在 pandas 中,一个 DataFrame 类似于 Stata 数据集 - 一个带有标记列的二维数据源,可以是不同类型的。...默认情况下,Stata 执行外连接,合并后两个数据集的所有观测值都保留在内存中。可以通过使用_merge变量中创建的值,仅保留初始数据集、合并数据集或两者的交集中的观测值。

16700
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas 2.2 中文官方教程和指南(十·二)

+ `pyarrow` 引擎保留了具有字符串类型的分类数据类型的 `ordered` 标志。`fastparquet` 不保留 `ordered` 标志。...并非每个 SQL 数据库都提供相同的类型,即使提供了,给定类型的实现方式也可能有微妙的差异,对类型保留方式可能产生细微影响。 为了最大限度地保留数据库类型,建议用户在可用时使用 ADBC 驱动程序。...此外,Stata 保留某些值来表示缺失数据。导出特定数据类型的非缺失值超出 Stata 允许范围的值将重新定义变量为下一个更大的大小。...注意 ��置preserve_dtypes=False将升级为标准的 pandas 数据类型:所有整数类型为int64,浮点数据为float64。默认情况下,导入时保留 Stata 数据类型。...注意 在导入分类数据时,Stata 数据文件中的变量值不会被保留,因为Categorical变量始终使用介于-1和n-1之间的整数数据类型,其中n是类别数。

13100

n种方式教你用python读写excel等数据文件

python处理数据文件的途径有很多种,可以操作的文件类型主要包括文本文件(csv、txt、json等)、excel文件、数据库文件、api等其他数据文件。...读取数据时需要用户指定元素类型,并对数组的形状进行适当的修改。...如:txt、csv、excel、json、剪切板、数据库、html、hdf、parquet、pickled文件、sas、stata等等 read_csv方法read_csv方法用来读取csv格式文件,输出...import pandas as pd pd.read_csv('test.csv') read_excel方法 读取excel文件,包括xlsx、xls、xlsm格式 import pandas as...方法 读取stata文件 read_gbq方法 读取google bigquery数据 pandas学习网站:https://pandas.pydata.org/ 5、读写excel文件 python用于读写

3.9K10

Stata常用数据预处理问题 – 学金融的文史哲小生

任何转载复用,请遵守 Creative Commons 国际准则,未经授权禁止商业用途 未对接任何广告,下文推荐的数据分发平台均为作者亲测后推荐,读者可以自行选择阿里云[建议]、腾讯云[建议]、百度云[建议...import的类型不止Excel一种,具体可以参考手册进行查看,手册查看方式:在命令行窗口输入 help import [-] 使用Stata图形化界面导入 打开Stata,在顶部选择”文件“”导入“”...的常用数据类型 str --- 字符串类型 (在Stata 17的数据管理器中显示为黄色) byte --- 字节类型 (在Stata 17的数据管理器中显示为白色) int -...-- 整形类型 (在Stata 17的数据管理器中显示为白色) double --- 数值类型 (在Stata 17的数据管理器中显示为蓝色) 认识基本的数据类型有助于后期在数据预处理过程中如merge..." //第一种方式,使用keep保留符合要求的数据 drop if 省份 !

2.8K30

Pandas库常用方法、函数集合

导出数据到剪切板 to_latex:导出数据为latex格式 read_sas:读取sas格式数据(一种统计分析软件数据格式) read_spss:读取spss格式数据(一种统计分析软件数据格式) read_stata...:读取stata格式数据(一种统计分析软件数据格式) read_sql:读取sql查询的数据(需要连接数据库),输出dataframe格式 to_sql:向数据库写入dataframe格式数据 连接 合并...删除重复的行 str.strip: 去除字符串两端的空白字符 str.lower和 str.upper: 将字符串转换为小写或大写 str.replace: 替换字符串中的特定字符 astype: 将一列的数据类型转换为指定类型...:绘制柱状图 pandas.DataFrame.plot.barh:绘制水平条形图 pandas.DataFrame.plot.box:绘制箱线图 pandas.DataFrame.plot.density...日期时间 to_datetime: 将输入转换为Datetime类型 date_range: 生成日期范围 to_timedelta: 将输入转换为Timedelta类型 timedelta_range

25110

数据分析-Pandas 多格式数据文件读取和保存

背景介绍 Pandas能够读取和保存格式为csv,excel数据,hdf,sql,json,msgpack,html,gbq,stata,clipboard和pickle等数据文件,接下来我们开始几个简单的数据读写文件操作...代码段: # ## Pandas文件读取与保存数据到多格式文件中 # In[23]: import pandas as pd # In[24]: df = pd.read_csv('data_price.csv...data_pricenew.csv',index_col=0) df.head() # ## 重命名列名 # In[28]: df.columns=['NewPrices'] df.head() # ## 保存为csv文件,包含列名...Date','Prices'],index_col=0) df.head() # ## 保存为html格式文件 # In[31]: df.to_html('dataprice.html') # 关于pandas...的文件读取和保存格式见官网地址: # https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

1.6K20

从零开始学量化(二):pythonmatlabrsasvba选哪个

新版本的里面有table格式可以解决这个问题,但碰到的大部分用matlab的人都还是习惯用原来的那些数据类型。...所以如果是工作中用的话,最建议学的还是python,只要会用python里的numpy,pandas,scipy,matplotlib,sklearn,一般的问题都能处理了。...SAS有一些函数的默认跟其他软件不太一致,比如merge函数,其他软件一般是默认内连接,只保留匹配到的,但sas默认是外连接的。...STATA ?...STATA和EVIEWS是两个功能非常类似的软件,计量上用的比较多,我当时选择了stata,没有学EVIEWS,整体来说,都是计量软件,STATA对面板数据支持比较多,EVIEWS对时间序列支持更好,STATA

5.5K90

Pandas详解

二、十项全能的Pandas Pandas诞生于2008年,它的开发者是Wes McKinney,一个量化金融分析工程师。...2008: Pandas正式开发并发布undefined 2009:Pandas成为开源项目undefined 2012: 《利用Python进行数据分析》出版undefined 2015: Pandas...Pandas有一个伟大的目标,即成为任何语言中可用的最强大、最灵活的开源数据分析工具。 让我们期待下。 三、Pandas核心语法 1....数据类型 Pandas的基本数据类型是dataframe和series两种,也就是行和列的形式,dataframe是多行多列,series是单列多行。...读取数据 pandas支持读取和输出多种数据类型,包括但不限于csv、txt、xlsx、json、html、sql、parquet、sas、spss、stata、hdf5 读取一般通过read*函数实现

1.8K65

Stata | 识别企业样本期行业是否发生变化

提出问题 在一份非平衡面板数据中,生成虚拟变量changed,表示企业(code)在样本期间行业类型(indcd)是否发生变化。若发生变化取值为 1 ,否则为 0 。如下图所示, ,而 。...保留企业和行业分类,去重,提取某个企业某一年的行业分类,再和原数据集匹配;此时,行业发生变化的_merge == 1,再在组内计算有多少个不为 1 的,再分组生成虚拟变量。 方法二:巧妙、实用。...此外,关于 Stata 如何处理非重复值可以阅读 Cox N J, Longton G M. Speaking Stata: Distinct Observations[J]....The Stata Journal, 2008, 8(4): 557–568. [1] 实现代码 use "try.dta", clear * 法一:数据集匹配 preserve sort code...Speaking Stata: Distinct Observations[J].

4.9K20

还在纠结 Python 的数据导入问题吗?有这张速查表就够啦

该速查表全面涵盖了平面文件(Flat files)、其它软件所定义的原生文件类型以及关系型数据库数据的导入方法。...但是,你最经常使用的库可能就是 Pandas 和 Numpy:Pandas 库是最受数据科学家喜爱的软件库之一,他们经常使用 Pandas 对数据进行操作和分析,然后再使用 matplotlib 进行数据可视化...而 Numpy 则是 Python 中进行科学计算的一个基础库,并且 Pandas 也是构建于 Numpy 之上的。...在这份数据导入速查表中,你将看到一些 Numpy 和 Pandas 的函数,以及使用 Python 语言编写的函数,这些都将帮助你更快捷地将数据导入 Python。...Importing_Data_Python_Cheat_Sheet.pdf) 这份速查表将引导你学习掌握如何将数据导入实验环境的基础:你不仅会学到如何导入诸如文本文件这样的平面文件,也能看到如何读取那些来自于特定软件的文件(比如 Excel、Stata

75760

一文带你看懂Python数据分析利器——Pandas的前世今生

本文将从Python生态、Pandas历史背景、Pandas核心语法、Pandas学习资源四个方面去聊一聊Pandas,期望能带给大家一点启发。...二、十项全能的Pandas Pandas诞生于2008年,它的开发者是Wes McKinney,一个量化金融分析工程师。...❝2008: Pandas正式开发并发布 2009:Pandas成为开源项目 2012: 《利用Python进行数据分析》出版 2015: Pandas 成为 NumFOCUS 赞助的项目 ❞ Pandas...数据类型 Pandas的基本数据类型是dataframe和series两种,也就是行和列的形式,dataframe是多行多列,series是单列多行。...读取数据 pandas支持读取和输出多种数据类型,包括但不限于csv、txt、xlsx、json、html、sql、parquet、sas、spss、stata、hdf5 读取一般通过read_*函数实现

85430

原来你是这样的Pandas!!!

熟悉Pandas的同学会知道,Pandas相当于Python中的Excel,都是基于二维表的进行数据处理分析,不同的是,Pandas基于代码操作数据,Excel是图形化的分析工具。...不少人会问Excel比Pandas更简单,为什么还要学习Pandas呢? 这就好像问window和linux和谁更好,确实很难一元化的去下结论。...Pandas是由于金融分析的需求被开发出来的,从一个单一的数据处理库,变成了链接Python数据科学生态的基础库。所以从事Python数据科学,一定离不开Pandas。...图表可视化: 表格可视化: 7、Pandas能处理的数据格式也更多元化,比如csv、xlsx、json、html、stata、sas、spss、HDF5、parquet等等,Excel似乎少很多。...Pandas在其他数据科学领域应用也非常多,相关配套的库层出穷,可以去研究研究。 其他还有很多区别于Excel的功能,但还是要说一句,两者没法比较。

13510
领券