《R语言使用者的Python教程——数据科学方法》

今天推荐一本英文版好书《R语言使用者的Python教程——数据科学方法(Pythonfor R Users A Data Science Approach)》,该书售价69.95美元,某出版社计划引进该书,其中文版售价将在100元以内,将只有外文版1/8的价格,受出版社委托做一个市场调查,请各位网友踊跃投票,非常感谢!

《R语言使用者的Python教程——数据科学方法》

出版日期: Dec 2017

购买理由:

本书为学生和从业人员可以轻松从R语言切换到Python,并从Python切换到R语言提供全面的参考。

作者简历:

Ajay Ohri是分析性初创企业Decisionstats.com的创始人,曾在诺克斯维尔田纳西大学攻读研究生课程,并完成了印度管理学院的硕士学位。他还拥有德里工程学院的机械工程学位。当前的研究领域包括传播开源码分析,利用机制设计分析社交媒体操作,简化云计算接口,调查气候变化和知识流。目前,他为多家初创公司提供境外分析、分析服务和分析教育方面的建议,并利用社交媒体来提升分析产品的热度。著作包括《商业分析R语言》(R for Business Analytics)(施普林格出版社,2012)和《云计算R语言》(R for Cloud Computing)(施普林格出版社,2014)。

销售亮点:

•提供R语言到Python的命令转换,反之亦然

•包含两种编程语言的示例和应用

•包含所附的幻灯片网站,可用于教授和学习其中任何一种软件

•有益于懂一种语言并想学习另一种语言的从业者和学生

主题/技术简介:

R语言是一种用于统计计算和图形的开源编程语言和软件环境。统计学家和数据挖掘者广泛应用R语言进行统计软件开发和数据分析。

Python是一种使用广泛的强调代码可读性的通用高级编程语言。该语言的设计旨在实现大小规模的清晰程序。Python支持多种编程范式,包括对象驱动、命令式和函数式编程或过程式样式。它具有动态类型系统和自动内存管理特点,并拥有大型综合标准库。

市场概述

一级市场:计算机科学家和数据科学家等从业者,他们了解R语言并想学习Python,或者熟悉Python并想学习R语言。

二级市场:计算机科学或统计学专业的学生。

图书简介:

本书为熟悉R语言的学生和从业者轻松学习如何使用Python进行编程,以及熟悉Python的学生和从业者轻松学习如何使用R语言提供参考,即使他们是第二语言的初学者。本书是第一本此种类型的书籍。它还为不熟悉的读者分别提供了各语言的详细介绍和概述。虽然R语言具有更好的统计和图形工具,但是Python具有良好的机器学习工具,事实证明,Python是更有用的大数据分析软件。本书的独特之处在于,它还为数学、可视化和机器学习技术提供了R语言和Python之间的命令转换。目标读者是试图学习R语言和Python或二者之一的统计学从业者和数据科学家,以及熟悉其中一种语言的学生。

图书目录

Preface xi

Acknowledgments xv

Scope xvii

Purpose xix

Plan xxi

The Zen of Python xxiii

1 Introduction to Python Rand Data Science 1

1.1 What Is Python? 1

1.2 What Is R? 2

1.3 What Is Data Science? 3

1.4 The Future for Data Scientists 3

1.5 What Is Big Data? 4

1.6 Business Analytics Versus Data Science6

1.6.1 Defining Analytics 6

1.7 Tools Available to Data Scientists7

1.7.1 Guide to Data Science CheatSheets 7

1.8 Packages in Python for DataScience 8

1.9 Similarities and Differencesbetween Python and R 9

1.9.1 Why Should R Users Learn More about Python?10

1.9.2 Why Should Python Users Learn Moreabout R? 10

1.10 Tutorials 10

1.11 Using R and Python Together 11

1.11.1 Using R Code for Regressionand Passing to Python 11

1.12 Other Software and Python 15

1.13 Using SAS with Jupyter 15

1.14 How Can You Use Pythonand R for Big Data Analytics? 15

1.15 What Is Cloud Computing? 16

1.16 How Can You Use Python and Ron the Cloud? 17

1.17 Commercial Enterpriseand Alternative Versions of Python and R 18

1.17.1 Commonly Used Linux Commandsfor Data Scientists 20

1.17.2 Learning Git 20

1.18 Data?]Driven Decision Making:A Note 38

1.18.1 Strategy Frameworks in BusinessManagement: A Refresher for Non?]MBAs and MBAs Who Haveto Make Data?]Driven Decisions 39

1.18.2 Additional Frameworks for BusinessAnalysis 45

Bibliography 49

2 Data Input 51

2.1 Data Input in Pandas 51

2.2 Web Scraping Data Input 54

2.2.1 Request Data from URL 55

2.3 Data Input from RDBMS 60

2.3.1 Windows Tutorial 62

2.3.2 137 Mb Installer 63

2.3.3 Configuring ODBC 65

3 Data Inspection and Data Quality77

3.1 Data Formats 77

3.1.1 Converting Strings to Date Timein Python 78

3.1.2 Converting Data Frame to NumPyArrays and Back in Python 81

3.2 Data Quality 84

3.3 Data Inspection 88

3.3.1 Missing Value Treatment 91

3.4 Data Selection 92

3.4.1 Random Selection of Data 94

3.4.2 Conditional Selection 95

3.5 Data Inspection in R 98

3.5.1 Diamond Dataset from ggplot2Package in R 106

3.5.2 Modifying Date Formatsand Strings in R 113

3.5.3 Managing Strings in R 116

Bibliography 118

4 Exploratory Data Analysis 119

4.1 Group by Analysis 119

4.2 Numerical Data 119

4.3 Categorical Data 121

5 Statistical Modeling 139

5.1 Concepts in Regression 139

5.1.1 OLS 140

5.1.2 R?]Squared 141

5.1.3 p?]Value 141

5.1.4 Outliers 141

5.1.5 Multicollinearityand Heteroscedascity 142

5.2 Correlation Is Not Causation 142

5.2.1 A Note on Statisticsfor Data Scientists 143

5.2.2 Measures of Central Tendency 145

5.2.3 Measures of Dispersion 145

5.2.4 Probability Distribution 147

5.3 Linear Regression in Rand Python 154

5.4 Logistic Regression in Rand Python 187

5.4.1 Additional Concepts 194

5.4.2 ROC Curve and AUC 194

5.4.3 Bias Versus Variance 194

References 196

6 Data Visualization 197

6.1 Concepts on Data Visualization 197

6.1.1 History of Data Visualization197

6.1.2 Anscombe Case Study 200

6.1.3 Importing Packages 201

6.1.4 Taking Means and StandardDeviations 202

6.1.5 Conclusion 204

6.1.6 Data Visualization 204

6.1.7 Conclusion 207

6.2 Tufte's Work on Data Visualization207

6.3 Stephen Few on Dashboard Design208

6.3.1 Maeda on Design 209

6.4 Basic Plots 210

6.5 Advanced Plots 219

6.6 Interactive Plots 223

6.7 Spatial Analytics 223

6.8 Data Visualization in R 224

6.8.1 A Note of Sharing Your R Code byRStudio IDE 232

6.8.2 A Note on Sharing Your JupyterNotebook 233

Bibliography 235

6.8.3 Special Note: A Complete Wingto Wing Tutorial on Python 236

7 Machine Learning Made Easier 251

7.1 Deleting Columns We Dont Needin the Final Decision Tree Model 259

7.1.1 Decision Trees in R 276

7.2 Time Series 294

7.3 Association Analysis 301

7.4 Cleaning Corpus and Making Bagof Words 316

7.4.1 Cluster Analysis 319

7.4.2 Cluster Analysis in Python 319

8 Conclusion and Summary 331

Index333

【一起学统计工具小tips】本公众号有海量的统计学习素材,输入统计专业术语或问题短语(如方差分析、标准差、ROC曲线、偏倚等),可智能检索各种统计文章。如果检索结果不满意,可变换检索的方式,如加长或缩短检索短语的长度等。重要干货和文章,请访问订阅号底部菜单。获取各种学习资料下载,请回复如下关键词:method|open|pair|ROC|R语言|JMP|悟空|SUMS|数据|问卷星|百度云|号内搜 |视频|电子书|epidata|epiinfo| minitab |SPSS|pair|MedCalc|Prism| 临床试验 |gpower|OpenEpi|SPSS24|minitab17| empower|文献|SPSS12|minitab14| 统计咨询 |统计方法。如需要免费咨询,请回复“统计咨询”并严格按照提示的方法咨询。

代表作

1、

《MedCalc常用统计分析教程》(暂名,待出版)

2、《SPSS常用统计分析教程(SPSS 22.0中英文版)(第4版)》

3、《Minitab 统计分析方法及应用(第2 版)》

4、《PASW/SPSS Statistics中文版统计分析教程(第3版)》

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171223A0GJN200?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券