首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

每天一道大厂SQL题【Day31】腾讯QQ(二)类别统计QQ号相关信息

每天一道大厂SQL题【Day31】腾讯QQ(二)类别统计QQ号相关信息 大家好,我是Maynor。...第31题 需求二: 类别统计QQ号相关信息 需求列表 a) 写一段SQL,统计每天不同性别的qq号个数、总消息量、平均在线时长(注意2个表的qq号类型不同),且去 掉(不包括)性别为空的qq号。...b) 首先,使用join语句把两个表按照qq号连接起来,得到每个qq号码的性别、地域和消息量。...然后,使用rank函数和partition by子句对每个地域里的qq号码按照消息量进行降序排名,得到每个qq号码的排名。...接着,使用where子句过滤掉排名不是第一的qq号码,只保留每个地域里消息量最高的qq号码。 最后,使用select语句选择需要的字段,包括地域、qq号码、消息量和排名。

35870

R||R语言基础(三)_R包

今天继续学习R语言基础的R包使用,以R包:dplyr为例 数据准备 01 R包的安装 install.packages(“dplyr”) 或BiocManager::install(“dplyr”)...() 列筛选 1)列号筛选 select(test,1) select(test,c(1,5)) #提取第一列和第五列 由上图可以看出直接提取也是可以的 2)列名筛选 select(test...的两个实用技能 1.count统计某列各元素出现的次数 count(test,Species) 2.管道操作 %>%(CTRL+SHIFT+M) 加载任意一个tidyverse包都可以使用管道符号...tidyverse是一个汇总包,一包更比6包强,用于数据清洗、转换、可视化等。...其核心包有ggplot、readr、tibble、purrr、 tidyr 、dplyr、ggplot、forcats 和stringr8个. 我们这里用的是dplyr包,因此可以使用管道。

3.3K50
您找到你想要的搜索结果了吗?
是的
没有找到

R语言之数值型描述分析

summary(birthwt) 函数 summary( )可以对每个变量进行汇总统计。...epiDisplay 包的函数 summ( )作用于数据框可以得到另一种格式的汇总输出,它将变量行排列,把最小值和最大值放在最后两列以方便查看数据的全距。...cont.vars <- dplyr::select(birthwt, age, lwt, bwt) 接下来,先计算这 3 个变量的描述性统计量,然后按照母亲吸烟情况(smoke)分组考查描述性统计量。...这些包提供了种类繁多的计算统计量的函数,这几个包在首次使用前需要先安装。下面以 psych 包为例进行说明。psych 包被广泛应用于计量心理学。...实际上,在第 3 章介绍的 dplyr 包里的函数 group_by( )和 summarise( )就能非常灵活地计算分组统计量。

19620

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组 大型数据集通常是高度结构化的,结构使得我们可以不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。...##按照已有的类别数据,分类 g<-split(Cars93,Cars93$Origin) #按照cars93数据集,按照origin进行分组 ##例2:对矩阵分组(列) m<-cbind...3.Lapply函数也不支持多种统计方法,因此也要用两句代码分别实现sum和max算法,最后再用cbind拼合。另外,本算法还要额外用到split函数,因此在易用性上没有改进,反而是更差了。...在使用data.table时候,需要预先布置一下环境: data<-data.table(data) 如果不布置环境,很多内容用不了。...最让我在意的是分组汇总这块内容: mygroup= group_by(data,gender,ID) from_dplyr<-summarize(mygroup,mean=mean(mortgage))

20.6K32

Day6——R包

BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") install.packages("dplyr")library(dplyr)dplyr五个基础函数示例数据...5.8 2.7 5.1 1.9 virginica数据解释:鸢尾花(iris)是数据挖掘常用到的一个数据集,包含150种鸢尾花的信息...mutate()#新增列mutate(test, new = Sepal.Length * Sepal.Width)#新增一列数据为Sepal.Length与Sepal.Width的积select()#列筛选列号筛选...在进行数据分析时,有时我们只对数据框中的特定字段感兴趣,而不需要使用所有的字段。这时,我们可以使用vars参数来指定需要分析的字段索引范围,从而提取出感兴趣的字段进行后续操作。...从大到小排序summarise():#汇总对数据进行汇总操作,结合group_by使用实用性强summarise(test, mean(Sepal.Length), sd(Sepal.Length))#

14310

UseGalaxy.cn生信云|零代码使用Tiverse优雅地处理数据集

TIDYVERSE Dplyr Arrange rows Dplyr Count the observations Dplyr Distinct keep unique rows Dplyr Join...two tables Dplyr Join with one varibale Dplyr Mutate create, modify, and delete columns Dplyr Rename...columns Dplyr Select keep or drop columns Dplyr Slice select rows by position Dplyr Filter keep rows...Dplyr Count the observations count 函数用于统计数据框中各个组的频数,可以对指定变量进行计数,得到每个类别的观测数目,支持根据需要对结果进行排序。...Dplyr Slice select rows by position slice 函数用于行数进行切片,能够从数据框中提取特定的行,支持根据行数或行号选择需要的行,也支持使用负数表示从末尾开始计算的行数

15720

用R处理不平衡的数据

使用算法不能获得非平衡数据集中足以对少数类别做出准确预测所需的信息。所以建议使用平衡的分类数据集进行训练。 在本文中,我们将讨论如何使用R来解决不平衡分类问题。...数据集介绍 本文使用的数据集为信用卡交易数据集,总的交易信息量为284K条,共有31个信息列,其中包含492次信用卡盗刷(诈骗)信息。...对数据集进行探索性分析 下面让我们使用R来对数据集进行汇总并对其中的关键、显著的特征进行可视化。...检查非平衡数据 通过下面的操作我们可以看到应变量的不平衡性: 我们可以借助dplyr包中的group_by函数对Class的值进行分组: library(dplyr) creditcard_details...Undersampling) 这个方法与过采样方法相似,最终获得的数据集中正常记录和异常记录的数量也是相同的,不过欠采样是无放回的抽样,相应地在本文中的数据集上,由于异常记录过少,进行欠采样之后我们不能提取出样本中的关键信息

1.6K50

数据处理|R-dplyr

dplyr包实现数据的清洗处理,包括数据整合、关联、排序、筛选、汇总、分组等。...1)安装、加载dplyr包、准备数据 install.packages("dplyr") #加载dplyr使用dplyr包处理数据前,建议先将数据集转换为tbl对象。...data(iris) #本文使用iris示例数据集。 2)数据记录筛选(行筛选) filter函数:指定条件筛选符合条件中逻辑判断要求的数据记录。...Petal.Width), first(Sepal.Width)) #返回数据框中变量的最大值及第一四分位值 7)数据分组 group_by函数对数据进行分组后,结合summarize函数,可以对分组数据进行汇总统计...iris %>%group_by(Species) %>% summarise(sd=sd(Petal.Width)) #iris数据集,Species分组,汇总Petal.Width的sd值, 9)

1.9K10

Day6-学习R包

R包是多个函数的集合,编码和样本数据的集合,或者通俗讲,R包相当于R的插件(有可能不准确)存放位置:名为”library“的目录下必要性:丰富的图表和Biocductor上面的各种生信分析需要R包以dplyr...")加载library(dplyr)指定数据test <- iris[c(1:2,51:52,101:102),]dplyr五个基础函数新增列,mutate(test, new = Sepal.Length...* Sepal.Width)列筛选,select(test,c(1,5))或者select(test, Petal.Length, Petal.Width)筛选行,filter(test, Species...== "setosa")某1列或某几列对整个表格进行排序,arrange(test, Sepal.Length)汇总,对数据进行汇总操作,summarise(test, mean(Sepal.Length...), sd(Sepal.Length))dplyr的两个技能管道操作,相当于linux的管道符|count统计某列的unique值count(test,Species)dplyr处理关系数据内连取交集,

13030

如何快速获取并分析自己所在城市的房价行情?

处理数据,构造特征 3.1 创建数据表 使用 pandas 模块将前面提取到的房源总价、单价、位置、属性和关注度等信息进行汇总,生成 DataFrame 数据表,用于后面进行数据分析。...使用第一种方式,对以下字段进行数字提取:房源单价。...绘制分布图 使用 Matplotlib 模块对房源面积分组统计的房源数量绘制分布图,过程中需要用到 numpy 模块进行 y轴分组构建。...绘制分布图 使用 Matplotlib 模块对房源总价格分组统计的房源数量绘制分布图。...4.4 房源聚类分析 最后,我们使用机器学习库 sklearn 对爬取的广州在售二手房源数据,总价格、面积和关注度进行聚类分析。将在售的二手房源总价格、面积和关注度的相似性分在不同的类别中。

2.1K51

学习R包

使用一个R包:先安装,再加载,最后使用实操代码(依旧以dplyr为例)options("repos"=c(CRAN="http://mirrors.tuna.tsinghua.edu.cn/CRAN/"...dplyr包有很多函数,为了防止dplyr包中的函数名与其他函数产生冲突,使用时前面加上“包名::”dplyr五个基础函数mutate(),新增列select(),列筛选列号筛选注意筛选内容与表格内容的统一...,包括大小写列名筛选filter()筛选行arrange(),某1列或某几列对整个表格进行排序arrange(test, Sepal.Length)#默认从小到大排序arrange(test, desc...(Sepal.Length))#用desc从大到小summarise():汇总,对数据进行汇总操作,结合group_by使用实用性强summarise(test, mean(Sepal.Length),...两个实用技能管道操作 %>% (cmd/ctr + shift + M)同时执行三件事(加载任意一个tidyverse包即可用管道符号)count统计某列的unique值dplyr处理关系数据即将2个表进行连接內连

10710

从Excel到Python:最常用的36个Pandas函数

Python中使用shape函数来查看数据表的维度,也就是行数和列数。 df.shape 2.数据表信息 使用info函数查看数据表的整体信息,包括数据维度、列名称、数据格式和所占空间等信息。...也可以使用数字对空值进行填充 #使用数字0填充数据表中空值 df.fillna(value=0) 使用price列的均值来填充NA字段,同样使用fillna函数,在要填充的数值中使用mean函数先计算price...在Python中使用split函数实现分列在数据表中category列中的数据包含有两个信息,前面的数字类别id,后面的字母为size值。中间以连字符进行连接。...2.位置提取(iloc) 使用iloc函数位置对数据表中的数据进行提取,这里冒号前后 的数字不再是索引的标签名称,而是数据所在的位置,从0开始。...#对筛选后的结果price进行求和 df_inner.query('city == ["beijing", "shanghai"]').price.sum() 12230 数据汇总 Excel中使用分类汇总和数据透视可以特定维度对数据进行汇总

11.4K31

生信入门day6分野—R包的使用

mirrors.ustc.edu.cn/bioc/")对应中科大源当然可以换成其他地区的镜像包的安装install.packages("包")BiocManager::install("包“)包的加载以下两个都可以使用...mirrors.tuna.tsinghua.edu.cn/CRAN/"))options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")install.packages("dplyr...")library(dplyr)dplyr 五个基本函数mutate()新增列mutate(test,new=Sepl.Lengh*Sepal.Width)select()列筛选列号筛选select...(test,1)列名筛选select(test,Sepal.Length)筛选行filter()某1列或者某几列对整个表格进行排序arrange()汇总sunnarise()dplyr的实用技能管道操作...%>% 该命令可以用ctrl+shift+M 可以将前一行输出的结果传递给后一行作为输入统计某列的值count()dplyr处理关系数据inner_join内连取交集left_jion左连full_join

26240

《高效R语言编程》6--高效数据木匠

这是本书最重要的一章,将涉及以下内容: 使用tidyr整理数据 使用dplyr处理数据 使用数据库 使用data.table处理数据 软件配置 library("tibble") library("tidyr...unlist()函数的作用,就是将list结构的数据,变成非list的数据,即将list数据变成字符串向量或者数字向量的形式。...滤除行 filter() ## 键操作 数据聚合 基于组合变量生成数据汇总,以前称为split-apply-combine。summarize是一个多面手,用于返回自定义范围的汇总统计值。...数据库与dplyr 必须使用src_*()函数创建一个数据源。# 使用data.table()处理数据 是dplyr的替代,两个哪个好存在争议,最好学一个一直坚持下去。...如果两个都是新手,推荐dplyr。为了提升性能,可以设置键,类似数据库的主键,方便二进制算法提取目标子集行。 ?

1.9K20

R语言数据处理:飞机航行距离与到达延误时间有什么关系??

数据分析有一半以上的时间会花在对原始数据的整理及变换上,包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。...这一点,我想大部分使用EXCEL的童鞋都深有体会,写论文时,这么多的数据进行处理,手动汇总、筛选、变换,工作量实在是太大。...带着这个问题,我们将首先使用dplyr包对给出的航班数据进行处理。...3.2 应用函数及组合结果 我们使用dplyr包中的summarize()函数,进行数据统计指标的获取及组合。计算出不同目的地的平行航行距离以及平均延误时间。...为了统计的科学合理性,需要对数据量太少的组别进行剔除,即剔除噪音数据,再次使用filter()函数剔除,剔除限度设为count>20。

3K40
领券