首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏成员
2119
文章
2528516
阅读量
188
订阅数
R语言之kmeans聚类理论篇!
前言 kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。 本文记录学习kmeans算法相关的内容,包括算法原理,收敛性,效果评估聚,最后带上R语言的例子,作为备忘。 算法原理 kmeans的计算方法如下: 1 随机选取k个中心点 2 遍历所有数据,将每个数据划分到最近的中心点中 3 计算每个聚类的平均值,并作为新的中心点 4 重复2-3,直到这k个中线点不再变化(收敛了),或
小莹莹
2018-04-23
3.1K0
「数据会说谎」的真实案例有哪些?你知道多少,知乎大神分享
问:「数据会说谎」的真实例子有哪些? 究竟是数据在说谎,还是逻辑在说谎?最好是你遇到的真实案例,你是如何判断数据表明的错误的? Han Hsiao答:[1600赞](学术向) 一、数据来源如何说谎
小莹莹
2018-04-23
2.6K0
盘点:全球十大标志性可视化作品已被选出
FastCoLabs邀请了几位赫赫有名的可视化博客博主来回答他们眼中最具标志性的可视化作品以及原因,受邀的三位分别是Eager Eyes的Robert Kosara,Visualising Data的Andy Kirk,以及National Public Radio的数据编辑Matt Stiles。大家就来看看他们选出的可视化作品的“标志性”何在吧。 排名前三的作品是Wind Map,Gapminder以及Flow Streamgraph,这三个作品在我们的课程PPT里都有提及,相信大家也都不陌生
小莹莹
2018-04-19
9290
数据科学家:21世纪最性感的职业
2006年Jonathan Goldman到商业社交网站LinkedIn工作,那时的LinkedIn还只是刚创业不久,网站注册人数不到8百万,但是很多成员会邀请自己的朋友和同学加入,因此注册人数迅速增
小莹莹
2018-04-18
6020
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档