首页
学习
活动
专区
工具
TVP
发布

张俊红

专栏作者
356
文章
554961
阅读量
91
订阅数
统计学常犯错误TOP榜,避坑防雷指南!
来源:知乎 良好研究方法 作者:求知鸟  pythonic生物人 本文约2400字,建议阅读5分钟本文为你总结统计学常犯错误。 1. 变量之间关系可以分为两类: 函数关系:反映了事务之间某种确定性关系 相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系; 2. 为什么要对相关系数进行显著性检验? 实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值) 当样本数较少,相关系数就很大。当样本量从100减少到40后,相关系数
张俊红
2022-09-27
4520
SQL养成这8个好习惯是一笔财富
来  源:数据前线 不管是做数据开发还是数据分析,大部分人都离不开跟数据库打交道。如果数据量大,人员流动大,那么我么还能保证下一段时间系统还能流畅的运行吗?我么还能保证下一个人能看懂我么的存储过程吗?那么今天,我们结合平时个人工作经验和大家分享一下,希望对大家有帮助。 要知道SQL语句,我想我们有必要知道SQLserver查询分析器怎么执行SQL语句的,我么很多人会看执行计划,或者用profile来监视和调优查询语句或者存储过程慢的原因,但是如果我们知道查询分析器的执行逻辑顺序,下手的时候就胸有成竹,有把握
张俊红
2022-09-27
7270
数据分析最常用的36个Excel函数
大家好,今天给大家分享Excel函数~ Excel是我们从事数据分析的朋友们,会经常用到的最基本的工具。而Excel函数又是Excel中最为重要的、最为常用的知识点,我们必须要掌握。 基于此,今天就分类为大家讲述最为常用的Excel函数。 01 逻辑函数 1、and 2、or 3、if 当使用了if()函数进行多层嵌套,很容易写错,那么怎么规避这个问题呢? 02 字符串函数 4、left 5、right 6、mid 7、len(lenb自己下去学习) len = 1中文 + 1英
张俊红
2022-08-31
4360
超强图解 Pandas 18 招!
Pandas是数据挖掘常见的工具,掌握使用过程中的函数是非常重要的。本文将借助可视化的过程,讲解Pandas的各种操作。 sort_values (dogs[dogs['size'] == 'medium']  .sort_values('type')  .groupby('type').median() ) 执行步骤: size列筛选出部分行 然后将行的类型进行转换 按照type列进行分组,计算中位数 selecting a column dogs['longevity'] groupby +
张俊红
2022-08-26
3620
数据采集、分析挖掘、可视化,看这一篇就够了!
这几年,“数据分析”是很火啊,在这个数据驱动一切的时代,数据挖掘和数据分析就是这个时代的“淘金”,懂数据分析、拥有数据思维,往往成了大厂面试的加分项。 比如通过数据分析,我们可以更好地了解用户画像,为产品做留存率、流失率等指标分析,精细化产品运营;再比如去年疫情,有 B 站网友通过数据分析、调整参数,制作的“疫情传播速率”视频,点击量相当大。 身边不少人跳入这个行业,我也经常在后台收到粉丝的一些困惑: 开发出身,想转行数据分析,但没有实战经验,面试很难! 是从 Python 入手还是 R 语言?常用的算法有
张俊红
2022-08-26
9130
数据科学中的10个重要概念和图表
“当算法给你一条曲线时,一定要知道这个曲线的含义!” 1、偏差-方差权衡 这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所有算法(包括深度学习)都努力在偏差和方差之间取得适当的平衡,这个图清楚地解释了二者的对立关系。 2、基尼不纯度与熵 Gini(缺乏同质性的度量)和 Entropy(随机性的度量)都是决策树中节点不纯度的度量。 对于这两个概念更重要的是要了解它们之间的关系,以便能够在给定的场景中选择正确的指标。 基尼不纯度(系数)通常比熵更容易计算(因为熵涉及对数计算)
张俊红
2022-08-26
4360
机器学习通识篇知识分享
机器学习定义 机器学习(Machine Learning)本质上就是让计算机自己在数据中学习规律,并根据所得到的规律对未来数据进行预测。 机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习(Deep Learning)等算法。 机器学习的基本思路是模仿人类学习行为的过程,如我们在现实中的新问题一般是通过经验归纳,总结规律,从而预测未来的过程。机器学习的基本过程如下: 机器学习基本过程 机器学习发展历程 从机器学习发展的过程上来说,其发展的时间轴如下所示: 机器学习发展历程 从上世纪50年代的图
张俊红
2022-07-19
3770
2022大数据十大关键词,重磅发布!
6月28日,为进一步加速推动我国数据智能转型进程,推动“十四五”期间数据智能产业交流与合作,由中国信息通信研究院、中国通信标准化协会指导,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)主办的2022大数据产业峰会在京召开。 在峰会主论坛上,中国信通院云大所所长何宝宏发布了《2022大数据十大关键词》。 大数据十大关键词是基于我们长期对于产业的研究观察,以及与一线专家的研讨交流完成。如图所示,本年度十大关键词涉及数据从计算机语言到成为生产要素的全生命周期,包括 【数据资源化】,即数据从计
张俊红
2022-07-08
5820
学 SQL 必须了解的 10 个高级概念
随着数据量持续增长,对合格数据专业人员的需求也会增长。具体而言,对SQL流利的专业人士的需求日益增长,而不仅仅是在初级层面。 因此,Stratascratch的创始人Nathan Rosidi以及我觉得我认为10个最重要和相关的中级到高级SQL概念。 1.常见表表达式(CTEs) 如果您想要查询子查询,那就是CTEs施展身手的时候 - CTEs基本上创建了一个临时表。 使用常用表表达式(CTEs)是模块化和分解代码的好方法,与您将文章分解为几个段落的方式相同。 请在Where子句中使用子查询进行以下查询。
张俊红
2022-07-07
8360
50种常见Matplotlib科研论文绘图合集!赶紧收藏~~
内容来源:和鲸社区 有效图表的重要特征: 在不歪曲事实的情况下传达正确和必要的信息。 设计简单,您不必太费力就能理解它。 从审美角度支持信息而不是掩盖信息。 信息没有超负荷。 01 关联 (Correlation) 关联图表用于可视化2个或更多变量之间的关系。也就是说,一个变量如何相对于另一个变化。 1、散点图(Scatter plot) 散点图是用于研究两个变量之间关系的经典的和基本的图表。如果数据中有多个组,则可能需要以不同颜色可视化每个组。在 matplotlib 中,您可以使用 plt.scatte
张俊红
2022-06-07
3.8K0
14种数据异常值检验的方法!
来源:宅码 作者:AI 本文收集整理了公开网络上一些常见的异常检测方法(附资料来源和代码)。不足之处,还望批评指正。 一、基于分布的方法 1. 3sigma 基于正态分布,3sigma准则认为超过3sigma的数据为异常点。 图1: 3sigma def three_sigma(s):    mu, std = np.mean(s), np.std(s)    lower, upper = mu-3*std, mu+3*std    return lower, upper 2. Z-score
张俊红
2022-05-30
1.2K0
快别「一句wòcào行天下」,清华开源了个神器专治词穷!
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 奈何本人没文化,一句(哔——)行天下。 这位胖友,不知你行走江湖,是否也有过这样的烦恼? 那么这里有个神器,可就值得好好说道说道了。 “听我说谢谢你,因为有你,温暖了四季”用成语应该怎么说? 在搜索框内输入你想表达的意思,再在词性一栏里选择成语,AI立马就能给你抛出几十上百个选项。 背景颜色越深,代表系统推荐程度越高。 要是碰上啥看不懂的,鼠标一点,就能查看具体释义。 还不只是中文,比如当你想脱口而出一句“鹅妹子嘤”,但又想知道有没有更华丽的中文表达
张俊红
2022-05-23
4720
数据分析师的完整流程与知识结构体系
一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程:1、业务建模。2、经验分析。3、数据准备。4、数据处理。5、数据分析与展现。6、专业报告。7、持续验证与跟踪。 (注:图保存下来,查看更清晰) 作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 1. 数据采集 了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会
张俊红
2022-05-18
4170
Python处理PDF——PyMuPDF的安装与使用!
来源丨网络 1、PyMuPDF简介 1. 介绍 在介绍PyMuPDF之前,先来了解一下MuPDF,从命名形式中就可以看出,PyMuPDF是MuPDF的Python接口形式。 MuPDF MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。 MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度。 这个观察器很小,速度很快,但是很完整。它支持多种文档格式,如P
张俊红
2022-05-13
3.9K0
来聊聊11种Numpy的高级操作!
来源: CSDN-逐梦er 转自:Python大数据分析 一.数组上的迭代 NumPy 包含一个迭代器对象numpy.nditer。它是一个有效的多维迭代器对象,可以用于在数组上进行迭代。数组的每个元素可使用 Python 的标准Iterator接口来访问。 import numpy as npa = np.arange(0, 60, 5)a = a.reshape(3, 4)print(a)for x in np.nditer(a):    print(x) [
张俊红
2022-05-09
2K0
太强了,10种聚类算法完整Python实现!
来源:海豚数据科学实验室 转自:数据分析1480 今天给大家分享一篇关于聚类的文章,10种聚类介绍和Python代码。 聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术,用于发现数据中的有趣模式,例如基于其行为的客户群。有许多聚类算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最好探索一系列聚类算法以及每种算法的不同配置。在本教程中,你将发现如何在 python 中安装和使用顶级聚类算法。 完成本教程后,你将知道: 聚类是在输入数据的特征空间中查找自然组的无监督问题。 对于所有数据集,有
张俊红
2022-04-27
1.5K0
5 大常用机器学习模型类型总结
本文介绍了 5 大常用机器学习模型类型:集合学习算法,解释型算法,聚类算法,降维算法,相似性算法,并简要介绍了每种类型中最广泛使用的算法模型。我们希望本文可以做到以下三点: 1、应用性。 涉及到应用问题时,知识的普适性显然非常重要。所以我们希望通过给出模型的一般类别,让你更好地了解这些模型应当如何应用。 2、相关性。 本文并不包括所有的机器学习模型,比如Naïve Bayes(朴素贝叶斯)和SVM这种传统算法,在本文中将会被更好的算法所取代。 3、可消化性。对于数学基础较薄弱的读者而言,过多地解释算法会让
张俊红
2022-03-29
2.1K0
图解10大机器学习算法
今天给大家分享一篇机器学习算法的文章,利用图解的方式介绍了10大常见的机器学习算法。看正文: ---- 在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。 举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。 当然,你尝试的算法必须和你的问题相切合,其中的门道便是机器学
张俊红
2022-03-25
4920
64个数据分析常用术语
本篇文章,我们来讲讲数据分析常用语 1、绝对数和相对数 绝对数:是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标,也是数据分析中常用的指标。比如年GDP,总人口等等。 相对数:是指两个有联系的指标计算而得出的数值,它是反应客观现象之间的数量联系紧密程度的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式: 相对数=比较值(比数)/基础值(基数) 2、百分比和百分点 百分比:是相对数中的一种,它表示一个数是另一个数的百分之几,也称为百分率或百分数。百分比的分母是100,也就是用
张俊红
2022-03-03
6860
利用Pyecharts绘制15个超实用精美图表~
什么是pyecharts?pyecharts是Python与ECharts的结合,Python是我们所熟知的语言,而ECharts是百度开源的数据可视化图表设计,这两者的有效结合,使得图表可视化更加绚丽多彩。 本文使用Python语言,借助pyecharts库,绘制常用的柱形图、折线图、饼图、散点图等,使用pyecharts库的交互功能实现动态可视化功能,对于里面的代码都可以修改进行复用,下面一起学习。 条形图 from pyecharts import options
张俊红
2022-03-03
1.9K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档