首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据人必会Excel|连Excel透视表都不会,别说你会数据分析!

已经使用各类函数统计出了数据结果,却被要求加入新临时需求。这是数据分析师工作日常,你是否还在为此苦恼? 面对这样场景数据分析师如何破局?...今天,我们会以Kaggle平台上经典Titanic数据集是为例,讲解数据透视表用法对该数据集做一个简单数据统计分析。...说到这里你可能都想直接去算百分比了,别着急,强大透视表当然不会少了这个功能。我们只需要选择需要调整格式数据区域,点击鼠标左键,选择【显示值方式】,点击【行汇总百分比】即可变为百分比格式。 ?...透视表除了可以选择【行汇总百分比】之外,还有多种形式可以选择,例如,【差异】、【差异百分比】等等,可以根据自己需要选择相应计算方式。...最后,我们分析了同行同辈数量和长辈数量与生存率之间关系,发现当乘客同行父母及子女数量适中时,生存率较高。 ?

1.4K10
您找到你想要的搜索结果了吗?
是的
没有找到

什么是见解、如何实现算法见解?| Mixlab智能可视化系列

如果单单看这件事行为,乍一看完全没有什么联系,但是如果我们仔细思考一下,这两个观察中都透露了一个共同行为特征,那就是用户是把机械性重复工作和需要认知任务分开在做(Divided Body and...图4 百分比堆积柱形图 百分比堆积柱形图显示所选之前和之后度量值,并以百分比堆积柱形表示。 这允许对之前和之后贡献进行并排比较。 工具提示显示所选值实际贡献。...(这实际上强调了将该选为关注原因) 图7 -发现分配发生变化位置 在图表中,你通常会看到一个数据点 那如何知道不同类别的分布是否相同呢? 下图显示了不同国家/地区总销售额。...从这些类型见解可以了解到Power BI使用算法。 -类别离群值(上/下) 突出显示一个或两个类别的值比其他类别大得多情况。 图10 -更改时序中点 突出显示数据时序中趋势明显变化情况。...稳定份额见解类似于低方差见解,因为它们都与某个值在整个时间内没有太多差异有关。 但是,稳定份额见解度量是整个时间内总体百分比 没有太多差异,而低方差见解度量是整个维度内绝对度量值没有太多差异

95940

scRNA-seq marker identification(一)

每种都有自己优点和缺点: 识别每个群集所有标记:该分析将每个群集与所有其他群集进行比较输出差异表达/存在基因。 对于识别未知群集和提高假设细胞类型置信度非常有用。...与多个条件配合使用时,可用于标识跨条件保留细胞类型标记。 特定聚类之间标记识别:该项分析探索了特定簇之间差异表达基因。...缺点: min.diff.pct :群集中表达基因细胞百分比与所有其他簇中表达基因细胞百分比之和最小百分比差异。...请注意,为每个组(在我们 Case,Ctrl和Stim)计算相同统计信息集,最后对应于这两个组中组合p值。...如上所述,这两个参数也是运行函数时可能包括参数。 添加基因注释 添加带有基因注释信息可能会很有帮助。

3.9K42

spss交叉表分析 + SPSS卡方检验

大家好,又见面了,我是你们朋友全栈君。 spss中交叉分析主要用来检验两个变量之间是否存在关系,或者说是否独立,其零假设为两个变量之间没有关系。在实际工作中,经常用交叉表来分析比例是否相等。...因此认为不同性别的人对周末读物选择有显著差别 10、最后一个表格,输出是phi值和V值,两个都代表两个变量之间关系紧密度,数值小于0.1说明关系紧密,即性别与周末读物选择没有明显关系...两个都代表两个变量之间关系紧密度,数值小于0.1说明关系紧密,即性别与周末读物选择没有明显关系,这个结论和上面的卡方检验有出入,所以需要进一步进行比较。...中文: 是否死亡放置于行好一些;“精确”为默认,“统计量”选卡方和Phi;“单元显示”将计数和百分比全选,“格式”为默认。...最常用医学统计: TTest – 独立样板T检验,推断两个总体总体独立样本均值是否存在显著差异 交叉表 – 不同性别对不同疾病选择有什么不同用此分析法,即卡方检验,卡方检验 Logist

4.4K30

卡方检验x2什么意思_卡方检验和方差分析

,nR为理论数同行合计数,nC为与理论数同合计数,n为总例数。...,结果如表20-14.试比较种疗法效果有无差异?...按α=0.05水准,接受H0,种疗效差异无统计学意义。 如果采用校正公式,而用原基本公式,算得结果x2=4.068,则结论就不同了。...四、行×列表的卡方检验(x2test for R×C table) 适用于两个组以上率或百分比差别的显著性检验。...:(a)甲+乙+,(b)甲+乙-(c)甲-乙+,(d)甲-乙-;如果我们目的是比较种培养基培养结果有无差异,则(a)、(d)种结果是一致,对差异比较毫无意义,可以不计,我们只考虑结果不同(b)

5.7K20

利润表分析怎么做才能更出彩,原来还能这么用Power BI(文末超大福利放送!!!)

,以及当期与去年同期差异比较分析、利润表中各大项目的构成、以及对每个项目做对比分析。...一维表即每表中每一都是一个独立参数,利于存储更多数据;二维表即每个数据对应行、两个维度,利于更直观地呈现数据,但不利于计算。...毛利润 = [营业收入]-[营业成本] 净利润 = [毛利润]-[销售费用]-[管理费用]-[财务费用]-[资产减值损失]-[营业外支出] 另外还有两个衡量业务成果指标----“毛利润率”和“净利润率...最后对数据显示细节部分进行调整。对于“差异”和“差异百分比”,如果我们既想显看到具体数值,又想使用数据条来显示正负差异,该怎么办?在这里介绍一个小技巧。...由于“差异”和“差异百分比”都使用了公式Switch(true…)对一些项目做了文本格式调整,想直接用数据条来显示是无法实现。如图所示。 最后再逐步完善可视化中每一模块即可。

1.7K21

CPU Cache Line伪共享问题总结和分析

下图即为两个线程间 Cache Line 伪共享问题示意图, ? 3....下面是共享 Cache Line Pareto 百分比分布表,命名取自帕累托法则 (Pareto principle),即 2/8 法则喻义,显示了每条内部产生竞争 Cache Line 百分比分布细目信息...注意,这些百分比纵列相加正好是 100%。 然后是数据地址。上面提到了 76 行显示了 Cache Line 虚拟地址,而下面几行这一则是行内偏移。...下一显示了pid,或线程id(如果设置了要输出tid)。 接下来是指令地址。 接下来三,展示了平均load操作延迟。我常看着里有没有很高平均延迟。这个平均延迟,可以反映该行竞争紧张程度。...cpu cnt展示了该行访问样本采集自多少个cpu。 然后是函数名,二进制文件名,源代码名,和代码行数。 最后一展示了对于每个节点,样本分别来自于哪些cpu 以下为样例输出: ?

2.2K30

如何正确使用数据可视化图表

更有甚之, 不精确数据可视化会造成你和你听众之间信任壁垒。  所以,让我们浅析如何选择最精确和有趣方式来可视化你数据。...01 条形图 对于随时间发展或按多个类别(如不同行业或货物或者)分组数据集,条形图是一个可靠选择。以下是一些有助于保证条形图易于阅读技巧: 按发生时间顺序排列条形图。...事实上,你应该在折线图只有几个时间点数据时小心一点。当你不知道精确数据来填充两个已知数据点之间时间段,只能画出一条预测直线。然而,这两个时期之间增长率或下降率可能没那么线性。...取而代之是,您需要带有两个条形数据条形图,一个表示2016年基线浏览量,另一个表示比该基线增长99%: 这个案例可能不是很直观。如果你不经常处理百分比数据,百分比变化可能会很棘手。...如果出现以下情况,您数据点或数字就会是一个很好排版元素: 数据很大(大于100)。 并不是整体百分比或者增加/减少百分比。 数据独立——不与其他数据比较

1.4K10

Robeco:使用机器学习发现被错误定价股票

本文站在数据科学家角度(同样只有很少金融知识),让数据自己说话,应用线性回归和机器学习方法估计了1993-2019年17个欧洲国家股票每月公允价值,研究了相应错误定价信号收益可预测性,即股票基于模型公允价值与其实际市场价值之间差异...m预测了一家公司在t时间内基本价值,我们遵循BG(2018, 2021),计算基本价值V_i,t,m与观察到市场价值MV_i,t之间百分比差异,作为相应错误定价信号: 我们分五个步骤来得出我们实证结果...图1显示了21个会计项目在样本期间平均SHAP值。LR模型似乎主要从到三个变量中提取信息,即可用于普通股(股权)净收入、不包括特别项目/优先股息净收入和总资产。...因此,ML和LASSO信号相当小,因为这些估值模型非线性,因此它们能够更好地拟合数据。此外,面板B显示了错误定价信号之间相关性以及相应价差回报之间相关性。...表3证实了我们发现,显示了ml策略Q5在统计上和经济上显著系数(面板A,4-6),而lr策略Q5回报(面板A,1-2)在统计上和经济上可忽略不计。

57030

如何正确使用数据可视化图表

一个不合适方案,受众可能会觉得乏味或者费解,甚至兼而有之。更有甚之, 不精确数据可视化会造成你和你听众之间信任壁垒。 所以,让我们浅析如何选择最精确和有趣方式来可视化你数据。...01 条形图 对于随时间发展或按多个类别(如不同行业或货物或者)分组数据集,条形图是一个可靠选择。以下是一些有助于保证条形图易于阅读技巧: 按发生时间顺序排列条形图。...事实上,你应该在折线图只有几个时间点数据时小心一点。当你不知道精确数据来填充两个已知数据点之间时间段,只能画出一条预测直线。然而,这两个时期之间增长率或下降率可能没那么线性。...取而代之是,您需要带有两个条形数据条形图,一个表示2016年基线浏览量,另一个表示比该基线增长99%: 这个案例可能不是很直观。如果你不经常处理百分比数据,百分比变化可能会很棘手。...如果出现以下情况,您数据点或数字就会是一个很好排版元素: 数据很大(大于100)。 并不是整体百分比或者增加/减少百分比。 数据独立——不与其他数据比较

1.2K20

scRNA-seq|Seurat 整合分析

我们目标是将这种条件整合在一起,以便我们可以共同识别数据集中细胞亚群,然后探索每个组在不同条件下差异。 在 Seurat 早期版本中,我们要求将数据表示为两个不同 Seurat 对象。...当将两个基因组序列比对在一起时,共享/同源区域识别也可以帮助解释序列之间差异。...现在我们已经将刺激细胞和对照细胞整合,我们可以开始进行比较分析观察刺激引起差异。...请注意,应谨慎解释从该分析中获得 p 值,因为这些测试将每个细胞视为独立重复,忽略来自同一样本细胞之间固有相关性。...我们在这里执行此分析,因为数据中有一个重复,但请参阅我们比较健康和糖尿病样本小插图,作为如何跨条件执行 DE 分析示例。

23210

DNCI:基于PER-SIMPER计算群落构建新方法

在PER-SIMPER方法基础上,提出了一个新度量指标: dispersal–niche continuum index (DNCI), 该指数可估计是扩散过程还是生态位过程主导群落构建,便于不同数据集之间比较...SIMPER分析简要介绍过在PAST中实现,见: SIMPER:找到样本之间显著差异OTU 另外vegan包中直接就有函数simper可以计算。...在SIMPER基础上,这种基于置换零模型方法确定了在同一区域物种库中,可根据当地群落之间组成相似性百分比来推定构建过程。...PER-SIMPER利用物种在不同站点之间矩阵,在排列过程中生成三种不同零模型: 通过约束行(生态位构建)、约束(扩散构建)或者都约束。...方法 PER-SIMPER方法是比较好理解,根据群落矩阵用三种方法构建零模型:分别约束行(样本)、(物种)、者都约束。

2K22

PNAS:网络连接中断预示着中风后多种行为障碍

在语言中,第一个成分占方差77.3%,与理解和生产高度相关。在运动中,前两个成分描述了左右身体缺陷,分别解释了43.0%和34.6%方差。...该模型中权重(ω)被重新投射到大脑中,以显示最具预测性功能连接,使用Caret进行显示。 将左右运动域和左右视觉域两个模型相结合,以确定运动和视觉模型解释方差百分比。...散点图显示来自lesion-defecit(上)和FC-defecit模型(下)预测分数和实际测量分数之间比较。行为得分是每个领域多个测试组合,并在z标准化(平均=0,SD=1)尺度上。...采用双尾Wilcoxon配对符号秩检验,直接比较FC模型和病灶模型预测精度。经过FDR校正后,四个行为领域显示两个模型准确率之间存在显著差异。...者都能很好地预测语言缺陷,注意力缺陷显示出向FC>损伤趋势。作者认为这种划分自然来自于联想功能对大脑系统之间大规模分布交互作用更大依赖,以及感觉-运动功能对输入-输出通路更大依赖。

44120

中心化交易所弊端尽显,DEX时代即将到来?用户分析告诉你

其原因可能各不相同,包括价格差异套利机会,交易偏好或仅是为测试不同机制手段。 通过将多个DEX排列在矩阵中对每对DEX共享用户进行计数,我们得到了一种共享客户热图(图2)。 ?...但这个数字直接来自区块链,并且数据显示有119,910个专有地址只出现在IDEX上,而从未在任何其他用来交易代币DEX上使用过,而Etherdelta拥有39,591个用户。...平台运营商或平台维护者只会在自己平台上生成地址和提交订单,而不会去其他平台进行虚假交易。 接下来,你可以看到上面的矩阵,显示是共享用户百分比而不是绝对值。对于每个DEX,其总和为100%。...通过查看,我们可以看到平台间共享交易帐户所占百分比。最暗块逐显示出每最大值。百分比揭示出DEX上所有交易者账户类型组成。 ?...目前已有12,446名用户在这两个DEX上交易。 人们可以将这个数值解释为每对平台之间接近程度。当这两个平台共享了更多用户时,元素越暗,两个DEX就越接近。

43520

Percona Toolkit 神器全攻略(配置类)

台不同数据库实例之间系统变量对比 $ pt-config-diff --report-width=200 h=192.168.6.55,P=3306,u=GreatSQL,p= h=192.168.6.129...SHOW GLOBAL STATUS 两个快照中选择计数器,这些快照间隔大约 10 秒收集并进行模糊舍入。...第三是第一个快照值,除以正常运行时间,然后进行模糊舍入,因此它大致表示计数器在服务器正常运行时间内每秒增长速度。 第四是第一个和第二个快照增量差异,除以正常运行时间差异,然后进行模糊舍入。...为了紧凑显示标题格式是垂直,因此您需要从顶部向下阅读。...缓冲池填充百分比和脏百分比是模糊舍入。最后几行来自 SHOW INNODB STATUS 输出。

8610

计算与推断思维 十六、比较两个样本

这些自然是测试无法回答问题。 回想一下,我们之前已经讨论过这个问题了:不仅仅是问“两个分布是否不同”是与否问题,我们可以通过不作任何假设,简单地估计均值之间差异,来学到更多。...函数bootstrap_ci_means返回总体中组均值之间差异自举置信区间。在我们例子中,置信区间将估计总体中吸烟和吸烟母亲婴儿平均出生体重之间差异。...表名称,它包含原始样本中数据 标签,它包含数值变量 标签,它包含两个样本名称 自举重复次数 该函数使用自举百分比方法,返回两个均值之间差异约 95% 置信区间。...这比“两个分布不同”更有用。 由于置信区间包含 0,它也告诉我们这两个分布是不同。 所以置信区间估计了我们均值之间差异,也让我们决定两个基本分布是否相同。...当分布是类别时,我们使用总变异距离,而分布是数值时,我们使用均值之间绝对差。 为了比较两个数值分布,将假设检验替换为估计,通常更富有信息。 只需估计一个差异,比如组均值之间差异

41330

计算与推断思维 六、可视化

icecream.barh('Flavor') 类别分布特征 除了纯粹视觉差异之外,条形图和我们在前面章节中看到两个图表之间还有一个重要区别。...它们是散点图和线图,者都显示两个数值变量 - 两个轴上变量都是数值型。 相比之下,条形图一个轴上是类别,在另一个轴上具有数值型频率。 这对图表有影响。...首先,我们只画出调整后收入直方图。 hist方法生成中值直方图。 可选单位参数用于两个轴上标签。 直方图显示调整后总额分布,以百万美元为单位。...重叠图表 在这一章中,我们学习了如何通过绘制图表来显示数据。 这种可视化常见用法是比较两个数据集。...Python 绘制了两个散点图:这个变量和另外两个之间关系,每个关系一个。 金色和蓝色散点图向上倾斜,显示出儿子高度和父母高度之间正相关。

2.7K20

好文速递:从Terra测得空气污染趋势:工业区、易燃区和本地值区域CO和AOD

其他在热红外,AIRS,TES,IASI和CrIS中测量CO卫星仪器显示出一致半球CO变异性,证实了MOPITT CO进行趋势分析结果。...CO和AOD记录分为两个子时段(2002年至2010年和2010年至2018年),以评估16年中趋势变化。我们关注四个主要的人口中心:中国东北,印度北部,欧洲和美国东部,以及两个半球易火地区。...总体而言,与下半年相比,记录上半年CO下降速度更快,而AOD趋势显示各地区之间差异更大。我们发现空气质量管理政策对大气影响。...在2002年至2018年之间来自MOPITT(a)来自MODISAOD,网格为2°x4°。 ?...通过百分比和月份趋势分析表明,在NH第75个百分点中,趋势最强(最负),在两个半球中,夏末CO趋势(当CO寿命最短时)最低。

42130
领券