首页
学习
活动
专区
工具
TVP
发布

数据分析1480

专栏成员
433
文章
650481
阅读量
100
订阅数
【干货】特征选择的通俗讲解!
据《福布斯》报道,每天大约会有 250 万字节的数据被产生。然后,可以使用数据科学和机器学习技术对这些数据进行分析,以便提供分析和作出预测。尽管在大多数情况下,在开始任何统计分析之前,需要先对最初收集的数据进行预处理。有许多不同的原因导致需要进行预处理分析,例如:
1480
2021-12-20
5990
引用次数在15000次以上的都是什么神仙论文?
本文结合总结梳理了知乎上“引用次数在15000次以上的都是什么论文?”这一问题的经典回答,希望能帮助到各位进一步了解领域内的相关进展。并且通过阅读这些经典论文或许也会给您带来不少启发。
1480
2021-07-12
1K0
统计学权威盘点过去50年最重要的统计学思想,因果推理、bootstrap等上榜
作者 | 陈彩娴、Mr Bear 编辑 | 青暮 近日,图灵奖得主、“贝叶斯网络之父”Judea Pearl在Twitter上分享了一篇新论文“What are the most important
1480
2021-04-21
5890
扎心了!5.33亿Facebook用户数据又遭泄露!
公开的数据包括来自106个国家和地区的超过5.33亿Facebook用户的个人信息,其中包括超过3200万条美国用户记录,1100万条英国用户记录和600万条印度用户记录。
1480
2021-04-21
1.2K0
【干货!】统计学最常用的「数据分析方法」清单(下)
根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。
1480
2020-06-01
7440
数据产品经理的硬核能力:用户画像带动用户增长
如何通过数据清晰现有用户的画像,找到各个行业用户的核心关注点,来进行精细化的运营以提升用户的复购?如何将数据清晰梳理,整理出可以实际指导业务的指标呢?
1480
2020-05-06
9810
干货分享--统计学知识大梳理(第二部分)
为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事”了。
1480
2020-03-05
5570
实战:手把手教你用朴素贝叶斯对文档进行分类
朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。
1480
2020-02-19
1.5K0
从Python代码到APP,你只需要一个小工具:GitHub已超3000星
机器学习开发者想要打造一款 App 有多难?事实上,你只需要会 Python 代码就可以了,剩下的工作都可以交给一个工具。近日,Streamlit 联合创始人 Adrien Treuille 撰文介绍其开发的机器学习工具开发框架——Streamlit,这是一款专为机器学习工程师创建的免费、开源 app 构建框架。这款工具可以在你写 Python 代码的时候,实时更新你的应用。目前,Streamlit 的 GitHub Star 量已经超过 3400,在 medim 上的热度更是达到了 9000+。
1480
2019-11-15
9800
调试机器学习模型的六种方法
在传统的软件开发中,一个 bug 通常会导致程序崩溃。这对用户来说是很烦人的,因此解决这些问题对开发人员来说很重要——当程序失败时,开发人员可以检查错误以了解原因。
1480
2019-11-07
4930
52道机器学习常见面试题目
有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。
1480
2019-11-07
1.7K0
小白也能看懂的seaborn入门示例
Seaborn就是让困难的东西更加简单。它是针对统计绘图的,一般来说,能满足数据分析90%的绘图需求。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,应该把Seaborn视为matplotlib的补充,而不是替代物。
1480
2019-11-07
4.6K0
机器学习与深度学习核心知识点总结
来源 | SIGAI 编辑:小小挖掘机 image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png imag
1480
2019-11-07
3350
决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结
决策树是一个有监督分类模型,本质是选择一个最大信息增益的特征值进行输的分割,直到达到结束条件或叶子节点纯度达到阈值。下图是决策树的一个示例图:
1480
2019-10-15
9500
机器人“快递小哥”上岗,但被AI淘汰的却是程序员?
2016年AlphaGo以总比分4:1轻松战胜围棋世界冠军李世石,这是AI第一次震惊世界。
1480
2019-10-15
5540
推荐收藏 | 统计学常用的数据分析方法大总结!
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
1480
2019-10-10
8930
围观SVM模型在分类和预测问题上的强悍表现!
在上一期的《手把手教你如何由浅入深地理解线性SVM模型》中我们分享了线性SVM模型的来龙去脉,得到很多读者朋友的点赞和支持,本期我们继续分享SVM模型的其他知识,即两个实战的案例,分别用于解决分类问题和预测问题。本文所使用到的数据集,读者朋友可以在文末找到下载链接。
1480
2019-09-29
6710
机器学习中常用的5种回归损失函数,你都用过吗?
“损失函数”是机器学习优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么?这些可都是机器学习大牛最常用的回归损失函数哦!
1480
2019-09-19
8900
手把手教你如何由浅入深地理解线性SVM模型
SVM模型的核心是构造一个“超平面”,并利用“超平面”将不同类别的数据做划分。问题是“超平面”该如何构造,并且如何从无数多个分割面中挑选出最佳的“超平面”,只有当这些问题解决了,SVM模型才能够起到理想的分类效果。
1480
2019-09-17
9180
手把手教你如何利用K均值聚类实现异常值的识别!
在上一期的异常值识别《KNN除了可以做分类和预测,还知道它可以识别异常值吗?》中,我们详细分享了如何使用K近邻的方法完成数据中异常值的查询。但该方法的最大缺陷在于计算复杂度高,对于大数据而言,识别异常数据将会消耗较长的时间。本期将从K均值聚类的角度,帮助大家理解该方法在异常值识别过程中的优势!(本文涉及的代码可以在文末链接中下载)
1480
2019-08-19
1.6K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档