专栏首页数据科学与人工智能【数据科学】50+数据科学与机器学习速查表

【数据科学】50+数据科学与机器学习速查表

关于Python、R和Numpy、Scipy以及Pandas的速查表

有了这些和R语言、python、Django、MySQL、SQL、Hadoop、Apache Spark以及机器学习算法相关的速查表,会让你对数据科学和数据挖掘的概念及相关命令得心应手,并加快开发速度。

在数据科学界,有着成千上万的软件包和成百上千的函数!一个激情澎拜的数据爱好者没有必要掌握所有的。这里会包含大多数重要的软件包和函数,能够让你在紧凑的几页中集思广益并吸收知识。

精通数据科学需要掌握统计学、数学、编程知识,特别是R语言、Python语言以及SQL,然后有效的组合使用这些知识,利用商业理解能力和人类的本能(做出决策的能力)去领悟。

下面是分类好的速查表

Python速查表

Python语言是初学者比较受欢迎的选择,但它仍然强大的足以支撑世界上大多数受欢迎的产品和应用。它的设计风格使得你在编程的过程中就像英语写作一样自然。对于初学者,Python的基本技术速查表或调试器速查表覆盖了入门的重要语法。社区提供的Python库如Numpy、Scipy、Sci-kit以及Pandas都是高度依赖的,而且下面的NumPy、SciPy 和Pandas速查表给你提供了一种快速复习的方式。

· Python2.7 Quick Reference Sheet

· PythonCheat Sheet by DaveChild

· PythonBasics Reference sheet

· Python Debugger Cheatsheet

· NumPy/ SciPy / Pandas Cheat Sheet

· Python OverAPI cheatsheet

· Python Decorators cheatsheet

· Python2.4 Quick Reference Card

· Python3 Cheat Sheet

· PythonLanguage & Syntax Cheat Sheet

R语言

速查表

R语言生态系统已经扩展了很多,大多数相关扩展都是必需的。R语言参考卡片在仅有的几页中覆盖了R语言的大部分知识。RStudio也提供了一系列的速查表使得R社区变得更加便利。用ggplot2来做数据可视化似乎是最受欢迎的,因为它可以帮助你将你的实验结果绘制成结果图。

· Rcheat sheet (Google Drive)

· Rfunctions for Regression Analysis

· R Reference Card

· Rfunctions for Time series Analysis

· RReference Card for Data Mining

· RCheat Sheet

· DataAnalysis the data.table way

· Interactive Web Apps cheatsheetby R studio

· DataVisualisation with ggplot2 cheatsheet by R studio

· PackageDevelopment with devtools cheatsheet by R studio

· DataWrangling cheatsheet

· Rmarkdown cheatsheet

· RMarkdown Reference guide

· RData Management cheatsheet

· RCheatsheet for graphical parameters

MySQL&SQL

速查表

对于一个数据科学家,基本的SQL语言与任何其它语言一样重要。无论是PIG语言还是Hive查询语言都与SQL语言(最初的结构查询语言)密切相关。在SQL速查表中,提供了一个5分钟快速学习指南,学习这个之后你就可以去探索Hive和MySQL了!

· MySQL Cheatsheet by Dave child

· SQL Cheat sheet

· SQLin one page

· MySQLReference guide

· VisualSQL Joins

· SQLfor dummies

Spark

速查表

Apache Spark是大规模数据处理引擎。对于特定的应用,如迭代式的机器学习,Spark可以在速度上比Hadoop(使用MapRedue)高出100倍。Apache Spark速查表解释了它在大数据领域所处的地位,通过安装和开发一个基本的Spark应用,能够向你解释一些常用的动作和操作。

· https://dzone.com/refcardz/apache-spark

· Sparkcore cheat sheet v.1

· Scala cheatsheets 1

· Scalacheatsheets 2

· Scala from DZone Reference Card

· Sparkcheatsheet on github

· Scalaon Spark Cheatsheet

· Essential Apache Spark cheatsheetby MapR

Hadoop & Hive

速查表

Hadoop作为一个非传统的工具出现,通过给海量数据的并行处理提供一个开源软件框架,解决了一些认为是不可能被解决的事情。当在命令行上使用Hadoop时,你可以浏览Hadoop速查表来找出有用的命令。而SQL和Hive功能的合并则是另一个突破口。

· Hadoopfor Dummies cheatsheet

· Getting Started Apache HadoopReference Card

· HadoopCommand Line cheatsheet

· Working with HDFS from thecommand line - Hadoop Cheat sheet

· HiveFunction cheatsheet

· SQLto Hive cheatsheet

机器学习速查表

我们发现我们经常花时间去思考,到底哪个算法更好呢?然后回到我们厚重的书本中寻找相关知识!可幸的是,这些速查表对关于你收集的数据的性质和正在解决的问题提供了一些思路和看法,并且建议你应该尝试哪些算法。

· Choosingthe right estimator Machine Learning cheatsheet

· Patterns for Predictive learningcheatsheet

· Machinelearning algorithm cheat sheet for Microsoft Azure

· MachineLearning cheatsheet Github 1

· Machine Learning cheatsheetGithub 2

· MachineLearning which algorithm performs best?

· Cheatsheet 10 machine learning algorithms R commands

· Patterns for Predictive Analytics

Django速查表

Django是用Python语言编写的一个免费开源的web应用框架。如果你对Django感到陌生,你可以浏览一下这些速查表,头脑风暴式的学习并在每一个知识点上达到更深层次的水平。

· Djangocheat sheet v.1

· Djangocheatsheet 1

· Djangocheatsheet 2

· Djangocheatsheet 3

· Djangocheatsheet 4

· DjangoReference Cheatsheet

· Django Quick start guide &Cheatsheet

· FlaskCheatsheet

原文链接:

http://www.kdnuggets.com/2015/07/good-data-science-machine-learning-cheat-sheets.html

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-09-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python语言和matplotlib库做数据可视化分析

    数据记者和信息设计师,David McCandless,在他的TED演讲中谈到数据可视化的重要性时说过,“通过信息可视化,我们把它变成了一个你可以用眼睛探索的风...

    陆勤_数据人网
  • 【Python环境】Python数据挖掘兵器谱

    Python正渐渐成为很多人工作中的第一辅助脚本语言,在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Python工具包可供使用,所以作为Pyth...

    陆勤_数据人网
  • 【Python环境】学习Python:做数据科学还是网站开发?

    本文的英文原文地址是:Python for Data Science vs Python for Web Development,发布时间是10月29日。译者一...

    陆勤_数据人网
  • 编写高质量代码改善C#程序的157个建议[为类型输出格式化字符串、实现浅拷贝和深拷贝、用dynamic来优化反射]

      本文已更新至http://www.cnblogs.com/aehyok/p/3624579.html 。本文主要学习记录以下内容:

    aehyok
  • ASP.Net Core的Code Fist代码先行操作方法

    Asp.Net  core的Code Fist(代码先行)主要有以下几步: 1.创建实体类 2.创建数据库上下文 3.填加连接字符串 4.依赖注入 5.添加基架...

    码农阿宇
  • 06 - JavaSE之常用类

    public StringBuffer append(...) 可以为该 StringBuffer 对象添加字符序列,返回添加后的该 StringBuffer ...

    Daotin
  • 记录C#常用的代码片段

    using Newtonsoft.Json; using Newtonsoft.Json.Linq;

    tandaxia
  • SpringBoot里slf4j日志功能的默认实现

    https://www.springboottutorial.com/logging-with-spring-boot-logback-slf4j-and-lo...

    Jerry Wang
  • echart 在点击事件中使用setTimeout 方法

    点击一个按钮后左边div隐藏,右侧图表变大,需要重新绘制图表,resize方法如下:

    tianyawhl
  • JDK源码分析-Semaphore

    Semaphore 是并发包中的一个工具类,可理解为信号量。通常可以作为限流器使用,即限制访问某个资源的线程个数,比如用于限制连接池的连接数。

    WriteOnRead

扫码关注云+社区

领取腾讯云代金券