python与数据科学应用

数据科学简介与应用 数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理(来自百度百科)。 01资料科学所要具备的能力 1、资料科学所要具备的能力 统计(Statistic)单变量分析、多变量分析、变异数分析数据处理(Data Munging)抓取数据、清理数据、转换数据数据可视化(Data Visualization)图表、商业智能系统 2、数据科学主要分为以下几个步骤 按职能来拆分可分为数据科学家和数据工程师,其中数据科学家主要负责前三步、而数据工程师则负责后两步。 02Python与数据科学1、python语言 Python是什么,请直接阅读链接(http://www.jianshu.com/p/9af39a293cdf) 第一部分。通过对比,可以突出python的简单易用 #使用JAVA输出Hello World class test{ public static void main(String args[]){ System.out.println("Hello World"); }}#使用python语言输出Hello World 仅需一行代码 print("Hello World") 2、python具备完整的数据分析套件 如果需要做统计科学计算,python中具备Numpy、Scipy、statsmodels.如果需要进行深度学习,又可以使用TensorFlow、MXNET,它们都有python的接口做结构化数据处理与分析,又可以用Pandas对大数据进行处理,可以使用PySpark机器学习, python上又有Scikit-learn 03安装Anaconda 看过我之前文章的同学都知道,我一直用的是python2.7 最早也使用过3.5,现在却要带大家安装Anaconda,原谅我当初学习python的时候太年轻,Python易学,但用好却不容易,其中比较头疼的就是包的管理和Python不同版本的问题,特别是当你使用Windows的时候。然后就出现了发行版的Python(比如Anaconda),发行版最直接的好处就是将 python和许多常用的package打包,方便我们使用。 接下来我带大家安装Anaconda(https://www.anaconda.com/download/). 也可以百度搜索Anaconda 根据自己的电脑系统选择 建议安装使用Python3,理由如下 python3和python2有很多语法的差异,具体参考解释 Python 2 和 Python 3 的版本之间差别(http://python.jobbole.com/87372/)Python语言作者Guido van Rossum邮件通知 (https://hg.python.org/peps/rev/76d43e52d978)Python 2.7支持时间延长 到2020年,到时候将不再进行维护 然后根据自己电脑进行32/64位的下载。 下载完毕安装就好,记得环境变量那一项要勾选 安装完毕后再窗口会看到带有Jupyter notebook 04使用Jupyter notebook JupyterNotebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和markdown。用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。这也是我们为什么要使用它的原因。 安装好Anaconda,打开cmd,输入Jupyter notebook 点击New,新建一个文件 可以通过按钮或者快捷键运行代码 05Python 3语法 1、变量类型 和其他语言一样,python3有六个标准的数据类型:Number(数字)String(字符串)List(列表)Tuple(元组)Sets(集合)Dictionary(字典) 其中数字包括int、float、bool、complex(复数)。内置的 type() 函数可以用来查询变量所指的对象类型。 此外还可以用Python的自省 isinstance 来判断 >>>a = 0609 >>> isinstance(a, int) True >>> 2、列表 Python内置的一种数据类型是列表:list。list是一种有序的集合,可以随时添加和删除其中的元素。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0, 第二个索引是1,依此类推。列表可以存放各种类型的数据 #设置一个listli = [304,12,999,46,405] #查看list的相关功能使用dir() dir(li) #查看list的长度>>>len(li) 5 #查看list内容 >>>print(li) [304,12,999,46,405] #通过下标取值 >>>li[0] 304 >>>li[-1] 405 >>>li[0:3] [304,12,999] #列表增加 >>>li.append(609) >>>print(li) [304,12,999,46,405,609] #列表扩展extend 接受一个参数,这个参数总是一个 list, 并且把这个 list 中的每个元素添加到原 list 中 >>>li.extend(['xlm','love']) >>>print(li) [304,12,999,46,405,'xlm','love'] #list排序 >>>li.sort >>>print(li) [12, 46, 304, 405, 999, 'xlm', 'love'] #将一个列表降序排列 >>>li = [304,12,999,46,405] >>>li.sort(reverse=True) >>>print(li) [999, 405, 304, 46, 12]

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-10-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏C语言及其他语言

[每日一题]C语言程序设计教程(第三版)课后习题5.6

题目描述 给出一百分制成绩,要求输出成绩等级‘A’、‘B’、‘C’、‘D’、‘E’。 90分以上为A 80-89分为B 70-79分为C 60-69分为D 60...

3205
来自专栏思考的代码世界

Python网络数据采集之数据清洗|第06天

1413
来自专栏Python绿色通道

Python爬虫:使用requests+re来爬取豆瓣图书

这两天在知识星球上有球友在使用requests+re来爬豆瓣图书的链接,书名及作者遇到了问题,虽然当时很快给他解决了,但由于我之前没有写这方面的文章,所以临时决...

4523
来自专栏前端黑板报

Vue列表循环从指定下标开始

最近遇到一个问题,在循环商品列表时,因为数组的第一个是商品的品牌介绍,所以循环时不能直接循环,只能从第二个元素开始。

1.5K3
来自专栏微信小程序开发

小程序支付,再来说说JS浮点数的坑

前言:客服收到报名工具小程序用户反馈:创建报名时,输入19.9元,但是,保存的是19.89元。很明显,这是前端的一个坑,JS浮点数的坑。

4702
来自专栏

消失的魔术:隐藏在js引用和原型链背后的超级能力

js这门语言有很多诟病,然而很多被无视的点,构成了js最为美妙的语言特性。这篇文章将带你走进魔术般的引用型数据类型和原型链背后,寻找那些被遗忘的超能力。并且,基...

1182
来自专栏腾讯移动品质中心TMQ的专栏

小说书架内容质量自动化测试

一.项目背景 小说书架的产品思路是:在手机QQ浏览器这个平台上,给用户提供一个小说书架这样的小说阅读入口。通过这个入口阅读到的小说,是后台将从其它网页中抽取到...

2415
来自专栏撸码那些事

【抽象那些事】 命令式抽象

这种坏味是由操作转换为类引起的,表现为类中只定义了一个方法,有时候类名和方法名相同。这种坏味还常常表现为方法操作的数据位于另一个类中。

3688
来自专栏企鹅号快讯

Python从零基础到精通!小白也能学会!

引言 Functional Programming(函数式编程)的概念最早起源于LISP,由约翰·麦卡锡在1958年创立,最早提出了自动垃圾回收的理念,这一理念...

2085
来自专栏养码场

若你想入职面试阿里系公司,不妨看看这位资深Java的面试经

上上周分享了占小狼面试阿里系的面经文章:《一位资深Java的阿里系公司实战面试经验,套路还是面试官的多》 ,蛮受大家欢迎的。看到大家在社群里的好评与点赞,占小狼...

2022

扫码关注云+社区

领取腾讯云代金券