dplyr条件列，如果不为null，则计算总百分比 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据处理|R-dplyr

arrange函数按给定的列名进行排序，默认为升序排列，也可以对列名加desc()进行降序排序。

01

使用gtExtra美化表格

前面用2篇文章详细介绍了gt包创建表格的用法。gt很强大，但是还是不够强大，总有些大佬想要更加强大，于是就有了今天要介绍的gtExtras，这是一个扩展包，为gt提供多种强大的可视化功能！

02

您找到你想要的搜索结果了吗？

是的

没有找到

Pandas 高性能优化小技巧

Pandas 对于Pythoner的搞数据分析的来说是常用的数据操作库，对于很多刚接触Pandas的人来说会发现它是一个很方便而且好用的库，它提供了各种数据变化、查询和操作，它的dataframe数据结构和R语言、Spark的dataframe的API基本一样，因此上手起来也非常简单。但是很多新手在使用过程中会发现pandas的dataframe的性能并不是很高，而且有时候占用大量内存，并且总喜欢将罪名归于Python身上(lll￢ω￢)，今天我这里给大家总结了在使用Pandas的一些技巧和代码优化方法。

02

dplyr数据处理

filter()函数用于筛选出一个观测子集，第一个参数是数据库框的名称，第二个参数以及随后的参数是用来筛选数据框的表达式。

01

005.系统管理监测命令

CPU性能评估 vmstat命令作用：可以对操作系统的内存信息、进程状态、CPU活动等进行监控。语法：vmstat(选项)(参数) 选项 -a：显示活动内页； -f：显示启动后创建的进程总数； -m：显示slab信息； -n：头信息仅显示一次； -s：以表格方式显示事件计数器和内存状态； -d：报告磁盘状态； -p：显示指定的硬盘分区状态； -S：输出信息的单位。参数事件间隔：状态信息刷新的时间间隔；次数：显示报告的次数。举例 [root@study ~]# vmstat 3

02

精读《15 大 LOD 表达式 - 下》

接着上一篇精读《15 大 LOD 表达式 - 上》，这次继续总结 Top 15 LOD Expressions 这篇文章的 9～15 场景。

03

【Java 进阶篇】深入理解 SQL 聚合函数

在 SQL 数据库中，聚合函数是一组强大的工具，用于处理和分析数据。它们可以帮助您对数据进行统计、计算总和、平均值、最大值、最小值等操作。无论您是数据库开发者、数据分析师还是希望更好地了解 SQL 数据库的用户，了解聚合函数都是非常重要的。

04

一场pandas与SQL的巅峰大战（五）

具体来讲，第一篇文章一场pandas与SQL的巅峰大战涉及到数据查看，去重计数，条件选择，合并连接，分组排序等操作。

01

利用Tableau绘制辐射堆叠图，炫酷易上手

我在不久前见到过这样的图，我就想可以写一篇关于如何在Tableau中创建辐射堆叠图，这是个基于合计百分比运算的堆叠图，但整体的形状是圆形的，作图的整个过程十分有趣，我希望你可以享受它。

05

DAX中的基础表函数

👆点击“博文视点Broadview”，获取更多书讯本文将介绍DAX中的基础表函数。表函数是DAX中的一种常规函数，它返回的结果不是一个标量值，而是一个表。当需要编写DAX查询和迭代表的高级计算时，表函数非常有用。本文会介绍相关的计算示例。本文的目标是介绍表函数的概念，而并非提供所有DAX表函数的详细说明。《DAX权威指南》一书的第12章和第13章中介绍了更多的表函数。本文将解释DAX中最常见和重要的表函数的作用，以及如何在常见的场景中，包括标量表达式中使用它们。 01 表函数介绍到目前为止，你

01

是Excel的图，不！是R的图

excel作为一个强大的统计工具，自身包含着一部分数据可视化的功能。R作为可视化的大势，自然也可以画出这些图，有一篇就通过ggplot2包进行了部分总结，甚是有趣，小编复刻学习了一番，现对代码做简单注释，以作分享。

02

Hbase1.3 生产优化，源码分析

regionserver服务端使用的ReadQueues，WriteQueues，ScanQueues来代替传统线程池处理客户端读写请求，每个对列都有对等比例的线程hbase.regionserver.handler.count消费队列，负载均衡策咯比如ReadQueues使用的随机策咯getNextQueue.ThreadLocalRandom.current().nextInt(queueSize)

02

R语言之可视化（31）扫地僧easystats（2）相关性分析

相关性是一个专注于相关性分析的easystats软件包。它轻巧，易于使用，并允许计算许多不同类型的相关性，例如偏相关性，贝叶斯相关性，多级相关性，或Sheperd的Pi相关性（鲁棒相关性的类型），距离相关（一种非线性相关性）等等，还允许它们之间进行组合（例如，贝叶斯局部多级相关性）。

03

Mysql慢查询日志的使用和 Mysql的优化

1、临时开启慢查询日志（如果需要长时间开启，则需要更改mysql配置文件，第6点有介绍）

02

mysql分析慢查询_开启慢查询日志

1、临时开启慢查询日志（如果需要长时间开启，则需要更改mysql配置文件，第6点有介绍）

03

机器学习| 一个简单的入门实例-员工离职预测

2016年，我国员工离职率达到20.1%，一线城市22.4%，意味着你身边每10个同事中就有2个会离职。科技行业员工离职率最高，达到25.1%，其中主动离职率为21.6%。员工流失率太高显然对企业长期经营发展是不利，那么将大数据运用于员工离职预测，帮助企业制定策略、留住人才，势在必行，必定大有可为。

03

AWR报告分析之TOP SQL

本文作者系Walt，关注SQL开发，Oracle、MySQL、PostgreSQL、TiDB等数据库，AWS、Azure、OCI等公有云计算架构和技术。

02

shell命令---top总结

前几天调程序性能的时候使用到了top这个命令，觉得从这个命令中，我们能看到很多信息。top的功能也是很强大的，之前一直不了解，只是简单的使用top命令显示进程信息，接下就学一学top命令的详细用法。

02

R语言之可视化（22）绘制堆积条形图

经过这张图，我们可以初步得到的信息是：（1）T1到T4各个分期的患者总数（2）T1期男性患者的数目，T1女性患者的数目（3）其他分期男性或者女性的患者数目。

02

R语言学习 - 柱状图

柱状图绘制柱状图也是较为常见的一种数据展示方式，可以展示基因的表达量，也可以展示GO富集分析结果，基因注释数据等。常规矩阵柱状图绘制有如下4个基因在5组样品中的表达值 data_ori <- "Grp_1;Grp_2;Grp_3;Grp_4;Grp_5 a;2.6;2.9;2.1;2.0;2.2 b;20.8;9.8;7.0;3.7;19.2 c;10.0;11.0;9.2;12.4;9.6 d;9;3.3;10.3;11.1;10" data <- read.table(text=data_ori

05

左右用R右手Python系列——字符串格式化输出

学习Python不到一个月，虽然学的很渣，但是还是想通过这种途径分享自己的学习心得，毕竟当初学习R语言也是这么走过来的。今天是R语言与Python综合系列的第一篇，就聊一聊两者在常用字符串输出上的差异。为了方便统一案例图片的风格，今天统一在jupyter编辑器中编辑（R和Python）。通常在R语言中我们使用最多的关于字符串输出函数是paste和paste0。这两着之间的差别非常微小，如同其字面意思一样，前者可以自定义字符串间隔符号，后者则默认没有间隔符号。 paste和paste0都可以完成单个向

06

Python报表自动化

这篇文章是『读者分享系列』第二篇，这一篇来自袁佳林同学，这是他在读完我的书以后做的第一个Python报表自动化项目，现在他把整体的思路以及实现代码分享出来，希望对你有帮助。

04

R可视乎|饼图

饼图（pie chart）被广泛地应用于各个领域，用于表示不同分类的占比情况，通过弧度大小来对比各种分类。饼图通过将一个圆饼按照分类的占比划分成多个切片，整个圆饼代表数据的总量，每个切片（圆弧）表示该分类占总体的比例，所有切片（圆弧）的加和等于100%。

02

优化表（二）

从管理门户运行Tune Table工具时，ExtentSize是表中当前行的实际计数。默认情况下，GatherTableStats()方法还将实际行数用作ExtentSize。当表包含大量行时，最好对较少的行执行分析。可以使用SQL tune table命令并指定%SAMPLE_PERCENT来仅对总行的一定百分比执行分析。在针对包含大量行的表运行时，可以使用此选项来提高性能。此%SAMPLE_PERCENT值应该足够大，以便对代表性数据进行采样。如果ExtentSize<1000，则无论%SAMPLE_PERCENT值如何，TUNE TABLE都会分析所有行。

02

每个高级前端工程师都应该知道的前端布局

一套适用于手机、iPad 和 PC 的代码。每次加载不同的样式时，它们都能在一个项目中兼容。这就是所谓的响应性。然后，我希望产品经理能多考虑一下。我不想做了设计工作，最后却说它不好看，因为我不会做设计。

02

数据代码分享|Python对全球Covid-19疫情失业数据相关性、可视化分析

帮助客户研究 Covid-19 期间的失业情况可能不仅揭示了该疫情对每个国家的影响程度，还揭示了世界各地不同的裁员文化。

02

Linux进程检测与控制

进程是一个非常重要的概念，我们都知道，操作系统合理地组织、调度计算机的工作与资源。而在引入线程前，进程是操作系统进行资源分配和调度的基本单位。所以，探究Linux进程以及与进程有关的检测与控制是非常有意义的。这次内容如下。

02

从零开始深度学习（九）：神经网络编程基础

文章首发于本人CSDN账号:https://blog.csdn.net/tefuirnever

02

Linux性能检测常用的9个基本命令

作为一个Linux运维人员，主要就是对Linux服务器的性能做一些优化，本篇博文仅仅介绍如何性能检测常用的指令！

02

Java的jstat命令使用详解

jstat（Java Virtual Machine Statistics Monitoring Tool）是JDK提供的一个可以监控Java虚拟机各种运行状态信息的命令行工具。它可以显示Java虚拟机中的类加载、内存、垃圾收集、即时编译等运行状态的信息。

02

loadrunner 场景设计-手工场景设计

通过选择需要运行的脚本，分配运行脚本的负载生成器，在脚本中分配Vuser来建立手工场景

05

css属性为 { flex: 1 }时表示的意思

flex属性是 flex-grow + flex-shrink + flex-basis 的缩写

03

OB 运维 | OceanBase 4.1.0 clog 目录探究

爱可生 DBA 团队成员，擅长数据库故障排查和处理。对技术抱有热忱，实践是检验真理的唯一标准~

04

一个度量，是怎样炼成的？｜ DAX重要思路

前面，我在文章《DAX的核心，其实只有4个字！》里提到，DAX核心思想，就是“筛选、计算”四个字，当然，这个总结非常抽象，接下来，我会用一个又一个的例子来给大家具体讲，大家将慢慢体会到，几乎所有的度量都紧紧围绕这个思想而展开。

01

Linux 命令（74）—— top 命令

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

02

centos7 top命令_linux安装top

对于内存监控，在top里我们要时刻监控第五行swap交换分区的used，如果这个数值在不断的变化，表示内核在不断进行内存和swap的数据交换，说明内存真的不够用了。

05

centos7 top命令_linux chmod命令

对于内存监控，在top里我们要时刻监控第五行swap交换分区的used，如果这个数值在不断的变化，表示内核在不断进行内存和swap的数据交换，说明内存真的不够用了。

02

单细胞系列教程：marker鉴定（十一）

前面我们已经确定了我们想要的簇，我们可以继续进行标记识别，这将使我们能够验证某些簇的身份并帮助推测任何未知簇的身份。

00

单细胞分析：marker鉴定（11）

前面我们已经确定了我们想要的簇，我们可以继续进行标记识别，这将使我们能够验证某些簇的身份并帮助推测任何未知簇的身份。

04

ggplot2饼图和图注顺序不一致如何解决

不知道大家用ggplot2绘制饼图的时候有没有遇到过饼图上展示的顺序和图注上展示的顺序不一致的情况。今天小编就来跟大家一起来探讨一下这个问题。

02

使用 Python 分析 14 亿条数据

Google Ngram viewer是一个有趣和有用的工具，它使用谷歌从书本中扫描来的海量的数据宝藏，绘制出单词使用量随时间的变化。举个例子，单词 Python (区分大小写)：

02

【实战】使用 Python 分析 14 亿条数据

Google Ngram viewer是一个有趣和有用的工具，它使用谷歌从书本中扫描来的海量的数据宝藏，绘制出单词使用量随时间的变化。举个例子，单词 Python (区分大小写)：

03

top 命令详解

top 命令是 linux 下常用的性能分析工具，能够实时监控系统中各进程的资源占用情况。 top 命令会动态显示，不停刷新，显示系统中 CPU 最敏感的任务列表。当然，也可以根据用户指定按照 CPU 使用、内存使用和执行时间对任务进行排序。

01

Linux系统命令Top/free的使用及参数详解

top [－] [d delay] [q] [c] [S] [s] [i] [n]

02

内存泄漏说的明明白白，解决办法清清楚楚

内存泄漏是指无用对象（不再使用的对象）持续占有内存或无用对象的内存得不到及时释放，从而造成内存空间的浪费称为内存泄漏。随着垃圾回收器活动的增加以及内存占用的不断增加，程序性能会逐渐表现出来下降，极端情况下，会引发OutOfMemoryError导致程序崩溃。

03

从源码角度剖析 Elasticserach 段合并调优策略

TieredMergePolicy 作为 Elasticserach 默认的策略，和 LogMergePolicy 合并相邻的段不同，其合并大小相近的段。

04

PowerBI公式-All函数

通过上一节，我们了解到Calculate可以对初始筛选上下文增删改生成新的筛选上下文，增删改的含义如下图所示，增加即在原有基础上加入新的筛选条件缩小上下文，更改是覆盖原条件重新限定，删除即清除某删选条件扩大上下文。要想收放自如，任意地增删改上下文，我们还需要掌握两个高级筛选函数，All家族和Filter，本节先来学习All函数。

03

用一个高考数据的例子，说明数据的误导

又是一年高考高考成绩刚出，正在紧张的志愿填报阶段。朋友圈里每天被高考刷屏。消息大部分可归为两类：i) 推荐学校，和ii）感叹阶级固化“寒门再难出贵子”。后一类并不是高考时段的专属，不过因为今年北京

08

容量调度绝对值配置队列使用与避坑

在yarn中，对于容量调度而言，需要配置不同的队列，并为队列分配不同的资源。然而资源的配置是按照集群总资源的百分比来的，那么，如果集群资源进行扩容，队列的资源也就相应的增加了。在某些场景下，我们可能希望某些队列的资源是固定的，不随集群资源的扩缩容而变更，这就需要给队列资源配置一个绝对值，在hadoop3.1.0版本中，开始引入了这个功能。本文就来聊聊如何给队列配置绝对值资源，以及一些使用过程中的注意事项。

02

【面试题】CSS知识点整理(附答案)

css引入伪类和伪元素概念是为了格式化文档树以外的信息。伪类和伪元素是用来修饰不在文档树中的部分。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭