专栏首页PPV课数据科学社区【学习】50+数据科学与机器学习速查表

【学习】50+数据科学与机器学习速查表

关于Python、R和Numpy、Scipy以及Pandas的速查表

有了这些和R语言、python、Django、MySQL、SQL、Hadoop、Apache Spark以及机器学习算法相关的速查表,会让你对数据科学和数据挖掘的概念及相关命令得心应手,并加快开发速度。

在数据科学界,有着成千上万的软件包和成百上千的函数!一个激情澎拜的数据爱好者没有必要掌握所有的。这里会包含大多数重要的软件包和函数,能够让你在紧凑的几页中集思广益并吸收知识。

精通数据科学需要掌握统计学、数学、编程知识,特别是R语言、Python语言以及SQL,然后有效的组合使用这些知识,利用商业理解能力和人类的本能(做出决策的能力)去领悟。

下面是分类好的速查表

Python速查表

Python语言是初学者比较受欢迎的选择,但它仍然强大的足以支撑世界上大多数受欢迎的产品和应用。它的设计风格使得你在编程的过程中就像英语写作一样自然。对于初学者,Python的基本技术速查表或调试器速查表覆盖了入门的重要语法。社区提供的Python库如Numpy、Scipy、Sci-kit以及Pandas都是高度依赖的,而且下面的NumPy、SciPy 和Pandas速查表给你提供了一种快速复习的方式。

· Python2.7 Quick Reference Sheet

· PythonCheat Sheet by DaveChild

· PythonBasics Reference sheet

· Python Debugger Cheatsheet

· NumPy/ SciPy / Pandas Cheat Sheet

· Python OverAPI cheatsheet

· Python Decorators cheatsheet

· Python2.4 Quick Reference Card

· Python3 Cheat Sheet

· PythonLanguage & Syntax Cheat Sheet

R语言

速查表

R语言生态系统已经扩展了很多,大多数相关扩展都是必需的。R语言参考卡片在仅有的几页中覆盖了R语言的大部分知识。RStudio也提供了一系列的速查表使得R社区变得更加便利。用ggplot2来做数据可视化似乎是最受欢迎的,因为它可以帮助你将你的实验结果绘制成结果图。

· Rcheat sheet (Google Drive)

· Rfunctions for Regression Analysis

· R Reference Card

· Rfunctions for Time series Analysis

· RReference Card for Data Mining

· RCheat Sheet

· DataAnalysis the data.table way

· Interactive Web Apps cheatsheetby R studio

· DataVisualisation with ggplot2 cheatsheet by R studio

· PackageDevelopment with devtools cheatsheet by R studio

· DataWrangling cheatsheet

· Rmarkdown cheatsheet

· RMarkdown Reference guide

· RData Management cheatsheet

· RCheatsheet for graphical parameters

MySQL&SQL

速查表

对于一个数据科学家,基本的SQL语言与任何其它语言一样重要。无论是PIG语言还是Hive查询语言都与SQL语言(最初的结构查询语言)密切相关。在SQL速查表中,提供了一个5分钟快速学习指南,学习这个之后你就可以去探索Hive和MySQL了!

· MySQL Cheatsheet by Dave child

· SQL Cheat sheet

· SQLin one page

· MySQLReference guide

· VisualSQL Joins

· SQLfor dummies

Spark

速查表

Apache Spark是大规模数据处理引擎。对于特定的应用,如迭代式的机器学习,Spark可以在速度上比Hadoop(使用MapRedue)高出100倍。Apache Spark速查表解释了它在大数据领域所处的地位,通过安装和开发一个基本的Spark应用,能够向你解释一些常用的动作和操作。

· https://dzone.com/refcardz/apache-spark

· Sparkcore cheat sheet v.1

· Scala cheatsheets 1

· Scalacheatsheets 2

· Scala from DZone Reference Card

· Sparkcheatsheet on github

· Scalaon Spark Cheatsheet

· Essential Apache Spark cheatsheetby MapR

Hadoop & Hive

速查表

Hadoop作为一个非传统的工具出现,通过给海量数据的并行处理提供一个开源软件框架,解决了一些认为是不可能被解决的事情。当在命令行上使用Hadoop时,你可以浏览Hadoop速查表来找出有用的命令。而SQL和Hive功能的合并则是另一个突破口。

· Hadoopfor Dummies cheatsheet

· Getting Started Apache HadoopReference Card

· HadoopCommand Line cheatsheet

· Working with HDFS from thecommand line - Hadoop Cheat sheet

· HiveFunction cheatsheet

· SQLto Hive cheatsheet

机器学习速查表

我们发现我们经常花时间去思考,到底哪个算法更好呢?然后回到我们厚重的书本中寻找相关知识!可幸的是,这些速查表对关于你收集的数据的性质和正在解决的问题提供了一些思路和看法,并且建议你应该尝试哪些算法。

· Choosingthe right estimator Machine Learning cheatsheet

· Patterns for Predictive learningcheatsheet

· Machinelearning algorithm cheat sheet for Microsoft Azure

· MachineLearning cheatsheet Github 1

· Machine Learning cheatsheetGithub 2

· MachineLearning which algorithm performs best?

· Cheatsheet 10 machine learning algorithms R commands

· Patterns for Predictive Analytics

Django速查表

Django是用Python语言编写的一个免费开源的web应用框架。如果你对Django感到陌生,你可以浏览一下这些速查表,头脑风暴式的学习并在每一个知识点上达到更深层次的水平。

· Djangocheat sheet v.1

· Djangocheatsheet 1

· Djangocheatsheet 2

· Djangocheatsheet 3

· Djangocheatsheet 4

· DjangoReference Cheatsheet

· Django Quick start guide &Cheatsheet

· FlaskCheatsheet

原文链接:

http://www.kdnuggets.com/2015/07/good-data-science-machine-learning-cheat-sheets.html

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【收藏】50个数据科学和机器学习速查表

    在数据科学领域有成千上万的包和数以百计的函数公式,你虽然不需要掌握所有的这些知识,但是有一些速查表在你的学习中是非常重要的。学习大数据包括对统计学、数学、编程知...

    小莹莹
  • 利用人性弱点的互联网产品(三)虚荣

    几年前,互联网上的虚荣还主要表现在诸如 QQ等级、点亮图标、QQ靓号、微博加V、微博买粉以及签到勋章等上,三年后这些依然存在着,而且还有更多新的花样。 知乎赞 ...

    小莹莹
  • 以网络安全为例的大数据可视化设计

    大数据可视化是个热门话题,在信息安全领域,也由于很多企业希望将大数据转化为信息可视化呈现的各种形式,以便获得更深的洞察力、更好的决策力以及更强的自动化处理能力,...

    小莹莹
  • dubbo-spring-boot-starter小试牛刀

    dubbo-spring-boot-starter的官方文档貌似比较粗糙,比较不符合spring boot开源项目的风格,也没有看到example工程,实践起来...

    codecraft
  • 【收藏】50个数据科学和机器学习速查表

    在数据科学领域有成千上万的包和数以百计的函数公式,你虽然不需要掌握所有的这些知识,但是有一些速查表在你的学习中是非常重要的。学习大数据包括对统计学、数学、编程知...

    小莹莹
  • AsyncListDiffer-RecyclerView最好的伙伴

    导读,近些年来 Android 一直在优化 RecyclerView 刷新效率,相继出了 DiffUtil,AsyncListDiffer ,我在我的开源库 F...

    程序亦非猿
  • kvm虚拟化关闭虚拟网卡virbr0的方法

    我们知道:kvm虚拟化环境安装好后,ifconfig会发现多了一个虚拟网卡virbr0 这是由于安装和启用了libvirt服务后生成的,libvirt在服务器(...

    洗尽了浮华
  • 设计模式二十四章经之策略模式

    我就是马云飞
  • 这款无人机的士,可以在没油的时候把你“弹”出去

    镁客网
  • Top 15 不起眼却有大作用的 .NET功能集

    目录 1. ObsoleteAttribute 2. 设置默认值属性: DefaultValueAttribute 3. DebuggerBrowsableAt...

    葡萄城控件

扫码关注云+社区

领取腾讯云代金券