本次总结来源于pandas的官网,由个人学习总结出来。
来说下pandas用于读取的文件格式有那些吧,这些读取方法获取文件的速度超级快,很实用。
1、pd.read_csv() 、df.to_csv()
读csv和存储为csv格式的文件,这是日常工作和学习中很常见的。不过,它需要设置的参数很多,需要注意下。
2、pd.read_json()、df.to_json()
读取、存储json格式的,在网页中常常使用这种格式来作为存储方式
3、pd.read_html()、df.to_html()
读取网页中的表格
4、pd.read_excel() : 2003 , xlrd: 2007+
pd.to_excel() : 保存为DataFrame后保存
xlsx = pd.ExcelFile(‘path_to_file.xls’) df = pd.read_excel(xlsx, ‘Sheet1’) 或者
data = {}
with pd.ExcelFile('path_to_file.xls') as xls:
data['Sheet1'] = read_excel(xls, 'Sheet1', index_col=None, na_values=['NA'])
data['Sheet2'] = read_excel(xls, 'Sheet2', index_col=None, na_values=['NA'])
data = read_excel('path_to_file.xls', ['Sheet1', 'Sheet2'], index_col=None, na_values=['NA'])
5、pd.read_pickle() df.to_pickle(“) 保存为文件
文件持久化,能保持文件的长久的不变化。
df.to_pickle('foo.pkl')
pd.read_pickle('foo.pkl') 读取文件
DataFrame.to_pickle()
Series.to_pickle()
6、HDFS
pd.HDFStore("store.h5")
df.to_hdf()
pd.read_hdf()
7、读取mysql中的表
import pymysql
import pandas as pd
conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='123456', db='world',charset="utf8")
sql_query = "select * from view_source_1836424"
df = pd.read_sql(sql_query,con=conn)
conn.close() #使用完后记得关掉
然后,
df.head() # 查看数据集