关于Python、R和Numpy、Scipy以及Pandas的速查表
有了这些和R语言、python、Django、MySQL、SQL、Hadoop、Apache Spark以及机器学习算法相关的速查表,会让你对数据科学和数据挖掘的概念及相关命令得心应手,并加快开发速度。
在数据科学界,有着成千上万的软件包和成百上千的函数!一个激情澎拜的数据爱好者没有必要掌握所有的。这里会包含大多数重要的软件包和函数,能够让你在紧凑的几页中集思广益并吸收知识。
精通数据科学需要掌握统计学、数学、编程知识,特别是R语言、Python语言以及SQL,然后有效的组合使用这些知识,利用商业理解能力和人类的本能(做出决策的能力)去领悟。
↘下面是分类好的速查表↙
Python速查表
Python语言是初学者比较受欢迎的选择,但它仍然强大的足以支撑世界上大多数受欢迎的产品和应用。它的设计风格使得你在编程的过程中就像英语写作一样自然。对于初学者,Python的基本技术速查表或调试器速查表覆盖了入门的重要语法。社区提供的Python库如Numpy、Scipy、Sci-kit以及Pandas都是高度依赖的,而且下面的NumPy、SciPy 和Pandas速查表给你提供了一种快速复习的方式。
· Python2.7 Quick Reference Sheet
· PythonCheat Sheet by DaveChild
· PythonBasics Reference sheet
· Python Debugger Cheatsheet
· NumPy/ SciPy / Pandas Cheat Sheet
· Python OverAPI cheatsheet
· Python Decorators cheatsheet
· Python2.4 Quick Reference Card
· Python3 Cheat Sheet
· PythonLanguage & Syntax Cheat Sheet
R语言
速查表
R语言生态系统已经扩展了很多,大多数相关扩展都是必需的。R语言参考卡片在仅有的几页中覆盖了R语言的大部分知识。RStudio也提供了一系列的速查表使得R社区变得更加便利。用ggplot2来做数据可视化似乎是最受欢迎的,因为它可以帮助你将你的实验结果绘制成结果图。
· Rcheat sheet (Google Drive)
· Rfunctions for Regression Analysis
· R Reference Card
· Rfunctions for Time series Analysis
· RReference Card for Data Mining
· RCheat Sheet
· DataAnalysis the data.table way
· Interactive Web Apps cheatsheetby R studio
· DataVisualisation with ggplot2 cheatsheet by R studio
· PackageDevelopment with devtools cheatsheet by R studio
· DataWrangling cheatsheet
· Rmarkdown cheatsheet
· RMarkdown Reference guide
· RData Management cheatsheet
· RCheatsheet for graphical parameters
MySQL&SQL
速查表
对于一个数据科学家,基本的SQL语言与任何其它语言一样重要。无论是PIG语言还是Hive查询语言都与SQL语言(最初的结构查询语言)密切相关。在SQL速查表中,提供了一个5分钟快速学习指南,学习这个之后你就可以去探索Hive和MySQL了!
· MySQL Cheatsheet by Dave child
· SQL Cheat sheet
· SQLin one page
· MySQLReference guide
· VisualSQL Joins
· SQLfor dummies
Spark
速查表
Apache Spark是大规模数据处理引擎。对于特定的应用,如迭代式的机器学习,Spark可以在速度上比Hadoop(使用MapRedue)高出100倍。Apache Spark速查表解释了它在大数据领域所处的地位,通过安装和开发一个基本的Spark应用,能够向你解释一些常用的动作和操作。
· https://dzone.com/refcardz/apache-spark
· Sparkcore cheat sheet v.1
· Scala cheatsheets 1
· Scalacheatsheets 2
· Scala from DZone Reference Card
· Sparkcheatsheet on github
· Scalaon Spark Cheatsheet
· Essential Apache Spark cheatsheetby MapR
Hadoop & Hive
速查表
Hadoop作为一个非传统的工具出现,通过给海量数据的并行处理提供一个开源软件框架,解决了一些认为是不可能被解决的事情。当在命令行上使用Hadoop时,你可以浏览Hadoop速查表来找出有用的命令。而SQL和Hive功能的合并则是另一个突破口。
· Hadoopfor Dummies cheatsheet
· Getting Started Apache HadoopReference Card
· HadoopCommand Line cheatsheet
· Working with HDFS from thecommand line - Hadoop Cheat sheet
· HiveFunction cheatsheet
· SQLto Hive cheatsheet
机器学习速查表
我们发现我们经常花时间去思考,到底哪个算法更好呢?然后回到我们厚重的书本中寻找相关知识!可幸的是,这些速查表对关于你收集的数据的性质和正在解决的问题提供了一些思路和看法,并且建议你应该尝试哪些算法。
· Choosingthe right estimator Machine Learning cheatsheet
· Patterns for Predictive learningcheatsheet
· Machinelearning algorithm cheat sheet for Microsoft Azure
· MachineLearning cheatsheet Github 1
· Machine Learning cheatsheetGithub 2
· MachineLearning which algorithm performs best?
· Cheatsheet 10 machine learning algorithms R commands
· Patterns for Predictive Analytics
Django速查表
Django是用Python语言编写的一个免费开源的web应用框架。如果你对Django感到陌生,你可以浏览一下这些速查表,头脑风暴式的学习并在每一个知识点上达到更深层次的水平。
· Djangocheat sheet v.1
· Djangocheatsheet 1
· Djangocheatsheet 2
· Djangocheatsheet 3
· Djangocheatsheet 4
· DjangoReference Cheatsheet
· Django Quick start guide &Cheatsheet
· FlaskCheatsheet
原文链接:
http://www.kdnuggets.com/2015/07/good-data-science-machine-learning-cheat-sheets.html