暂无搜索历史
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、...
近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据,利用基于Hado...
将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。
嗨伙计们,欢迎回来,非常感谢你的爱和支持,我希望你们都做得很好。在今天的版本中,我们将学习被称为sklearn的scikit-learn。
Scikit-learn是一个用于Python编程语言的免费软件机器学习库。 它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度增强,k均值和DBS...
Pandas-21.时间 now print(pd.datetime.now()) # 2019-04-03 23:06:58.992842 Timestamp...
标题中的英文首字母大写比较规范,但在python实际使用中均为小写。 2018年7月30日笔记 作者的集成开发环境是jupyter,Python版本为3.6...
数据不正确(格式不正确,数据不准确,数据缺失)我们做什么都是徒劳。数据清洗时数据分析的第一步,也是最耗时的一步。 数据清洗很枯燥,但是随着数据清理技巧越来越熟练...
Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensio...
https://blog.csdn.net/finafily0526/article/details/79318401
先基于均值为0,方差为0.9的正态分布产生随机数X,再通过线性变换产生Y,再添加一个均值为0,方差为0.5的噪声。这样便得到数据X和Y。
今天教大家一个方法(逻辑树分析方法),可以把这些零散的想法整理成有条理的思路,帮助你快速解决问题。
在《数据分析的思维与工具》这篇文章中,我们提到,应该更加注重数据分析思维的培养,那么数据分析的思维主要有哪些呢?
考虑到招聘岗位的数据中含有城市信息(city变量),不妨再结合城市与省份的数据,在原有的数据基础上再添加省份字段,代码如下:
这是Python数据分析实战基础的第三篇内容,主要对前两篇进行补充,把实际数据清洗场景下常用但零散的方法,按增、删、查、分四板斧的逻辑进行归类,以减少记忆成本,...
关于AB test的重要性无需多言,数据、产品等从业人员几乎必知,好的数据科学家我想一定是知道理解业务比模型更为重要,而AB test就是伴随着业务增长的利器。
粽子节了嘛,突然想吃粽子了,咋办,买粽子呗!现在情景转换一下,假设你是某饮食网的数据分析师,现在某粽子界大亨想拿钱砸你老板(打广告)。
关于数据科学的学习,咸鱼也进行了一段时间,但是光学不练是学一点忘一点,所以咸鱼找了一些某共享单车的数据进行一点简单的数据分析。
1.数据采集。它是我们的原材料,也是最 “接地气” 的部分,因为任何分析都要有 数据源。
有同学问:领导让做用户分层,可不管怎么分,似乎都觉得没有啥科学道理,也经常被嫌弃:“你这分层分的有啥意思”。到底有没有标准的分层规范?在解答这个问题之前,大家先...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
TA 很懒,什么都没有留下╮(╯_╰)╭