专栏首页Python绿色通道数据分析从零开始实战(二)

数据分析从零开始实战(二)

上节补充

上篇数据分析从零开始实战(一)

CSV

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。

TSV

TSV 是Tab-separated values的缩写,即制表符分隔值。 Python的csv模块准确的讲应该叫做dsv模块,因为它实际上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。 delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。 当delimiter='\t'时,被处理文件就是TSV。

零 写在前面

上一篇文章中带大家了解了数据分析基础,配置好了数据分析的基本环境,以及利用pandas模块读写csv文件,在本文开头,我也补充了csv与tsv的基本介绍与区别,意在更好的让大家理解相关知识点,本文将带大家继续学习文件读取。

点击查看第一篇文章:数据分析从零开始实战 | 基础篇(一)

一 基本知识概要

1.利用pandas读写tsv文件 2.利用pandas读写json文件

二 开始动手动脑

1.利用pandas读写tsv文件

在文章开头我已经说明了csv与tsv的差别,相信部分看过第一篇文章的读者应该知道怎么处理tsv文件了。

csv与tsv只是内容的分隔符不一样,前者是,,后者是\t,python读取这两类文件都使用csv模块,也可以直接利用pandas,这里我们讲利用pandas读取方式,使用的函数read_csv()to_csv()在上一篇 文章中有详细介绍,这里我直接上案例代码。

(1) 读取tsv文件代码
import pandas as pd
import os

# 获取当前文件父目录路径
father_path = os.getcwd()

# 原始数据文件路径
rpath_tsv = father_path+r'\data01\city_station.tsv'
# 读取数据
tsv_read = pd.read_csv(rpath_tsv, sep="\t")
# 显示数据前10条
print(tsv_read.head(10))

运行结果

    站点名 代号
0  北京北 VAP
1  北京东 BOP
2  北京  BJP
3  北京南 VNP
4  北京西 BXP
(2) 写tsv文件代码
import pandas as pd
import os

# 获取当前文件父目录路径
father_path = os.getcwd()

# 保存数据文件路径
path_tsv = father_path+r'\data01\temp_city.tsv'

data = {"站点名": ["北京北", "北京东", "北京", "北京南", "北京西"],
        "代号": ["VAP", "BOP", "BJP", "VNP", "BXP"]}
df = pd.DataFrame(data)
df.to_csv(path_tsv, sep="\t", index=False)
运行结果
(3)号外加餐

利用csv模块也可以直接读取csv和tsv文件 csv.reader(csvfile, dialect='excel', **fmtparams) csv.writer(csvfile, dialect='excel', **fmtparams)

csvfile,必须是支持迭代(Iterator)的对象,可以是文件(file)对象或者列表(list)
对象,如果是文件对象,打开时需要加"b"标志参数。
qdialect,编码风格,默认为excel的风格,也就是用逗号(,)分隔,dialect方式也
支持自定义。
fmtparam,格式化参数,用来覆盖之前dialect对象指定的编码风格。
2.利用pandas读写json文件
(1)利用pandas读取json文件
import pandas as pd
import os

# 获取当前文件父目录路径
father_path = os.getcwd()
# 原始数据文件路径
rpath_json = father_path+r'\data01\realEstate_trans.json'
json_read = pd.read_json(rpath_json)

# 输出头10行记录
print(json_read.head(10))
运行结果
函数解析

read_json(path_or_buf,orient,encoding,numpy)

常见参数解析:

path_or_buf:字符串,表示文件路径;

orient:指示预期的JSON字符串格式。可以to_json()使用相应的方向值生成兼容的JSON字符串。一组可能的方向是:

'split' : dict like {index -> [index], columns -> [columns], data -> [values]}
'records' : list like [{column -> value}, ... , {column -> value}]
'index' : dict like {index -> {column -> value}}
'columns' : dict like {column -> {index -> value}}
'values' : just the values array

encoding:字符串,默认为'utf-8';

numpy:布尔值,默认为False,直接解码为numpy数组。仅支持数字数据,但支持非数字列和索引标签。另请注意,如果numpy = True,则每个术语的JSON顺序必须相同。

(2)利用pandas写入json文件
import pandas as pd
import os

# 获取当前文件父目录路径
father_path = os.getcwd()
# 存储数据文件路径
wpath_json = father_path+r'\data01\temp_trans.json'
data = [{"city": "SACRAMENTO", "longitude": -121.434879, "street": "3526 HIGH ST", "sq__ft": 836, "latitude": 38.631913, "sale_date": "Wed May 21 00:00:00 EDT 2008", "zip": 95838, "beds": 2, "type": "Residential", "state": "CA", "baths": 1, "price": 59222}, {"city": "SACRAMENTO", "longitude": -121.431028, "street": "51 OMAHA CT", "sq__ft": 1167, "latitude": 38.478902, "sale_date": "Wed May 21 00:00:00 EDT 2008", "zip": 95823, "beds": 3, "type": "Residential", "state": "CA", "baths": 1, "price": 68212}, {"city": "SACRAMENTO", "longitude": -121.443839, "street": "2796 BRANCH ST", "sq__ft": 796, "latitude": 38.618305, "sale_date": "Wed May 21 00:00:00 EDT 2008", "zip": 95815, "beds": 2, "type": "Residential", "state": "CA", "baths": 1, "price": 68880}]
df = pd.DataFrame(data)
df.to_json(wpath_json)
运行结果
函数解析

to_json(path_or_buf,orient,encoding,index) 前三个参数和read_json()里的一样 index:False则选择不写入索引,默认为True。

号外加餐

利用json模版的loads()与dumps()方法也可以实现json文件的读写。

之前的一篇文章有详细介绍,Python与Json之间的数据交互

送你的话

最近事情特多,公众号,学习,学校,寒假班,寒假安排。。。一堆事情,所以原创更新的比较慢,后面我想开一些基于Python视频课程,感觉说话比写文章简单,写这么一篇简单的文章得花我半天多的时间,而且累,所以希望大家多多支持。

我始终觉得,要想学好一门语言,底层是最重要的,所以不要觉得入门的这些基本东西太简单,学好基础,才能成大牛

【完】

本文分享自微信公众号 - Python绿色通道(Python_channel)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-01-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 22 个最常用的Python包

    我们从最常用的 Python 包入手,去解答上述这个问题。最初,我列出过去一年在 PyPI 上下载次数最多的 Python 包。接下来,深入研究其用途、它们之间...

    叫我龙总
  • 你还在@微信官方?我来教你用Python生成你想要的微信头像

    1.给图片加上国旗或者70的logo 2.然后手动换头像 解析:要抠图,在图片指定位置加小图片,好像也比较难

    叫我龙总
  • 微博网红都长什么样子?

    在之前的分享中,我们已经学会了简书和知乎小姐姐的爬虫。今天罗罗攀把魔爪伸向了微博网红们,我们找找谁是最美网红。今天的流程如下:

    叫我龙总
  • 008.Zabbix多图展示

    Configuration---->Screen---->Creat screen

    木二
  • LeetCode 961. N-Repeated Element in Size 2N Array

    In a array A of size 2N, there are N+1 unique elements, and exactly one of these...

    Angel_Kitty
  • IntelliJ IDEA插件——冷门神器分享

    IntelliJ IDEA就不必介绍了,至今还能保持IDE前三的神器,如今java程序员的首选,今天介绍几款冷门但绝对是神器的IDEA插件。 前言 IDEA自不...

    itmifen
  • Excel事件(三)工作簿事件

    大家好,上节介绍工作表事件,本节将介绍工作簿事件,工作簿数量较多,但并没有工作表事件常用,只简单介绍几个常用的工作簿事件。

    无言之月
  • 使用sonatype/nexus构建企业级内部pypi仓库

    •pypiserver•sonatype/nexus•jfrog Artifactory•devpi•docker-pypi•使用github实现pypi私服•...

    追马
  • 谈谈React事件机制和未来(react-events)

    当我们在组件上设置事件处理器时,React并不会在该DOM元素上直接绑定事件处理器. React内部自定义了一套事件系统,在这个系统上统一进行事件订阅和分发.

    _sx_
  • C++多线程-顺序锁

    在互斥数据访问中有一种多读少写的情况。正对这么一种情形,我们也提出了读写锁的方案。但是呢,这个锁有些缺陷。什么缺陷呢?那就是,这个写锁需要在所有的读锁完成之后才...

    cwl_java

扫码关注云+社区

领取腾讯云代金券