数据科学与人工智能

742 篇文章
145 人订阅

全部文章

陆勤_数据人网

MySQL数据库总结

关系型数据库:使用关系模型把数据组织到数据表(table)中。现实世界可以用数据来描述。

9450
陆勤_数据人网

Python代码|Python做数据可视化的代码

从代码中学习Python知识和Python与数据相关的知识,是一个有效的方法。例如:想了解Python做数据可视化的工作。我们可以从互联网找一些Python做数...

9420
陆勤_数据人网

数据清洗(data cleaning)的重要性

之前经常和临床试验数据打交道,无论是来自手动录入的数据还是取自数据库的数据,在完成数据获取这一步后,感觉有80%甚至90%的时间和精力会用在做数据清洗(data...

7110
陆勤_数据人网

客户分群分析

“PDFMV框架是问题-数据-特征-模型-价值五个英文字母的首字母组合而成,它是以问题为导向,数据为驱动,利用特征和模型从数据中学习到知识,以创造价值的系统化过...

10640
陆勤_数据人网

Figure解析

“PDFMV框架是问题-数据-特征-模型-价值五个英文字母的首字母组合而成,它是以问题为导向,数据为驱动,利用特征和模型从数据中学习到知识,以创造价值的系统化过...

8620
陆勤_数据人网

数据科学小技巧3:数据透视表

数据透视表是Excel里面常用的分析方法和工具,通过行选择,指定需要分组指标;通过列选择,指定需要计算指标,最后在指定需要聚合计算类型,比方说是计数,还是求均值...

10030
陆勤_数据人网

R语言做数据挖掘4本电子书

曾几何时,我在一次面试中,面试官问,“数据挖掘和机器学习有什么区别?”,朋友们也可以思考下这个问题。

8110
陆勤_数据人网

PySpark做数据处理

PySpark是一种适合在大规模数据上做探索性分析,机器学习模型和ETL工作的优秀语言。若是你熟悉了Python语言和pandas库,PySpark适合你进一步...

16210
陆勤_数据人网

R语言做统计学3本电子书

我们知道,做好数据工作,需要统计学的知识和方法以及应用统计学解决问题的思维和能力。R语言最初是由两位统计学教授以S语言为原型实现的开源语言,后来得到很多人参与,...

8820
陆勤_数据人网

Python语言做数据可视化2本电子书

“PDFMV框架是问题-数据-特征-模型-价值五个英文字母的首字母组合而成,它是以问题为导向,数据为驱动,利用特征和模型从数据中学习到知识,以创造价值的系统化过...

8910
陆勤_数据人网

数据科学小技巧1:pandas库apply函数

pandas库apply函数是用于数据处理和创建新变量最常用的函数之一。把数据框的每一行或者每一列传送到一些处理函数,可以返回一些结果。函数可以是默认函数或者自...

9720
陆勤_数据人网

数据科学小技巧2:数据画像分析

7110
陆勤_数据人网

你会描述你的数据吗?

描述数据集,目的是为了理解数据。你对数据理解的越充分和全面,你就越能够更好地处理数据和应用数据。

8120
陆勤_数据人网

Jupyter Notebook使用总结

俗话说:“天下武功唯快不破”。我们掌握一些快捷键的操作,以提升使用Jupyter Notebook的效率,这是非常有价值的。

13120
陆勤_数据人网

Win10系统Python3连接Hive配置

由于数据存放在大数据平台的Hive数据仓库中,我需要在Win10系统上利用Python3连接Hive,然后读取数据,进行探索、分析和挖掘工作。

25620
陆勤_数据人网

PDFMV框架的D

PDFMV框架是“问题-数据-特征-模型-价值”英文字母的缩写,是一个闭环的系统,具有持续性迭代优化的功能。

10120
陆勤_数据人网

PDFMV框架的P

PDFMV框架是“问题-数据-特征-模型-价值”英文字母的缩写,是一个闭环的系统,具有持续性迭代优化的功能。

11620
陆勤_数据人网

数据合并:pandas的concat()方法

数据合并是PDFMV框架中Data环节的重要操作之一。当我们为要解决的业务问题需要整合各方数据时,意味着需要进行数据合并处理了。数据合并的可以纵向合并,也可以横...

15730
陆勤_数据人网

Python语言和matplotlib库做数据可视化分析

数据记者和信息设计师,David McCandless,在他的TED演讲中谈到数据可视化的重要性时说过,“通过信息可视化,我们把它变成了一个你可以用眼睛探索的风...

9910
陆勤_数据人网

PDFMV框架

逐渐地,我总结和提炼出PDFMV框架,“Problem-Data-Feature-Model-Value”的简称,并且在数据项目积极地尝试和实践,进一步深化对这...

11410

扫码关注云+社区

领取腾讯云代金券