带大家读python数据分析一书(一)

写在开头

  这一次就让我来带读这本《利用Python进行数据分析》一书,这本书我也是第一次看,所以我在写的时候既是一边和你们分享也是在一边学习,当然,在我的博客中我在带读本书的时候也会加上一些自己的理解,因为本人的水平有限,也许有些不是非常正确的地方希望各位读者能够帮忙指点出来,实在是感激不尽!

《利用Python进行数据分析》一书

  也许有人不知道这本书是怎么样的,我在这里就放一下它的图片。

这本书我就简单介绍一下其作者为Wes McKinney,然后翻译是由唐学韬先生完成。

第一章 准备工作

  里面总共分为了

1.本书主要内容2.为什么要使用python进行数据分析3.重要的Python库4.安装和设置5.社区和研讨会6.使用本书7.致谢

  1.本书主要内容

    想来想去还是直接用课本的原文了。

本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。同时,它也是利用Python进行科学计算的使用指南(专门针对数据密集型应用)。本书重点介绍了用于搞笑解决各种数据分析问题的Python语言和库。本书没有阐述如何利用Python实现具体的分析方法

    说直白一点就是这一本书教大家如何使用Python中和数据分析相关的技术,但具体怎么分析还是的靠自己研究学习策略。    然后文中也有介绍“数据”到底是个什么,主要指的是结构化数据(structured data)即所有通用格式的数据。这种感觉知道概念就好了的。

  2.为什么要使用python进行数据分析

    Python最大的特点是拥有一个巨大而活跃的科学计算(scientific computing)社区。    然后在数据分析和交互、探索性计算以及数据可视化方面,Python的库在不断的进行改良中(其实还是主要是pandas),然后再配合其在通用编程方面的强大实力,完全就可以使用python一种语言就hold住了。    Python同时也被称呼为“胶水语言”,作为一个科学计算的平台它能够很轻松的集成C、C++以及Fortran的代码。    一般而言,很多组织都会用一些类似于领域特定的计算语言比如(Matlab、R)对新想法进行研究、原型构建和测试,然后再将这些想法移植到某个更大的生产系统当中(比如Java、C#或者C++等),但是到了现在越来越多的人发现,Python不仅适用于研究和原型构建并且适用于构建生产系统,这无疑会带来较大的效率提升。    当然啦,虽然Python也有一些缺点,作为一种解释性的编程语言,大部分Python的代码都比编译型的代码要慢很多,对于高并发、多线程的应用程序来说不是非常的理想,这是因为Python有一个叫做全局解释锁(Global Interpreter Lock ,GIL)的原因,但是这一点已经超出本书的范围了,在此不加以解释,有兴趣的朋友如果了解的话也可以在评论告诉博主一声。

  3.重要的Python库

    在讲解这个的时候,我并不打算照搬书本中的内容,因为这些库在数据分析之中都非常地有用,慢慢的总会了解的,我在此就用大白话解释一番。    a.NumPy(Numerical Python)是Python科学计算的基础包,本书大部分内容都基于numpy以及构建其上的库。它最主要的功能是进行矩阵运算,而且速度飞快,如果没有记错的话numpy是基于C与C++进行实现的。    b.Pandas这个库能够使我们快速便捷的处理结构化数据和大量数据结构和函数,有时序的Series,二维的DataFrame和三维Panel(据说将要取消了)三种。这也是Python能在数据分析上崭露头角的一个至关重要的库。    c.matplotlib这个是python一个非常强大的可视化工具。    d.IPython是python的一个科学计算工具集的标准组成部分,它为交互式和探索式计算提供了一个强健而高效的环境。因为在本书中有一章会非常详细的介绍IPython所以在此不多言,同时本书也是强烈建议使用IPython。好吧,写完我才反应过来IPython本身是一个增强型的Python Shell,这不是一个库!这不是一个库!这不是一个库!希望大家明白,虽然不知道为什么书本中把IPython分到了库之中,或许名字该改为重要的ython工具?    e.SciPy一个专门解决各种科学计算中各种标准问题域包的集合,主要包括以下:

scipy.integrate:数值积分例程和微分方程求解器scipy.linalg:拓展了由numpy.linalg提供的线性代数例程和矩阵分解功能。scipy.optimize:函数优化器(最小化器)以及根查找算法。scipy.signal:信号处理工具。scipy.sparse:系数矩阵和系数线性系统求解器。scipy.special:SPECEFUN(这是一个实现了许多常用数学函数(如伽玛函数)的Fortran库)的包装器scipy.states:标准连续和离散概率分布(如密度函数、采样器、连续分布函数等)、各种统计检验方法,以及更好的描述统计方法。scipy.weave:利用内联C++代码加速数组计算的工具

  4.安装和设置

    在书本之中已经讲的非常的详细了,事实上我并没有什么好概括的(也概括不了),但是在这里想想还是推荐一个下载的方法,一个无论什么系统都可以用上的方法——即下载Anaconda,一旦下载好Anaconda之后会自动安装好Python及其相关的科学计算的包,同时还会设置好环境,可以说是非常简单了。

  5.社区和研讨会

    除了搜索引起之外,Python的科学计算邮件列表也是很不错的资源,其上的问题几乎都会有人回答。

pydata:这是一个Google Group的邮件列表,其中的问题都是Python数据分析和pandas方面的pystatsmodels:针对statemodels和和pandas相关的问题numpy-discussion:针对NumPy相关的问题。scipy-user:针对SciPy和Python科学计算相关的问题

    这几个都没有确切的URL,因为它们经常在变,不过哦通过搜索引擎可以轻松地找到它们。

  6.使用本书

    如果在这之前从来没有学习过Python的话可以看看本书最后的附录,有对Python进行简单基础的讲解。    本书首先讲解IPython环境,然后简单地介绍了NumPy,但是其高级功能在最后一章讲解。然后还讲解了pandas的使用,剩余的部分则是综合运用pandas、NumPy和matplotlib进行数据分析的相关知识。    最后呢,各章的数据文件以及相关材料放在GitHub上:http://github.com/pydata/pydata-book    看到这里的童鞋啥也不想了赶紧去下载,确实是有点大了。

  7.致谢

  我觉得其实用过Python的估计都不会对这一篇博客的内容有兴趣,顶多是看看这本书的overview罢了,当然,如果没有用过python的可以赶紧翻到书本的最后面愉快的进行学习了。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180910G0HO0100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券