首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

图解面试题:人均付费如何分析?

按照各城市(也就是每个城市分组 (group by),统计用户数(计数函数count,加上distinct去掉重复用户id)、总费用(求和函数sum) select 城市,count(distinct...(1)各城市(每个城市),也就是城市分组 (group by) select 城市from 各城市用户ARPU值group by 城市; (2)对用户ARPU值进行分类,用case when 语句选出...ARPU值group by 城市; 最终查询结果如下: 3.表二中用户有重复记录,找出重复用户 表二中用户有重复记录,请写出提取2条及以上用户SQL语句 大白话理解为:找出有2条重复记录及以上用户...2.查找重复数据,可以在分组汇总后,使用having对分组结果指定条件,如果汇总数据值>=2就是重复数据。... 活动表group by 点赞用户id; 查询结果入下: 如何从零学会sql?

92340

数据分组

> #对分组数据进行计数运算 df.groupby("客户分类").count() #对分组数据进行求和运算 df.groupby("客户分类").sum() #只会对数据类型为数值(...df.groupby(["客户分类","区域"]).sum() #只会对数据类型为数值(int,float)列才会进行运算 无论分组键是一列还是多列,只要直接在分组数据进行汇总运算,就是对所有可以计算列进行计算...) #对分组数据进行求和运算 df.groupby(df["客户分类"]).sum() #只会对数据类型为数值(int,float)列才会进行运算 (2)按照多个Series进行分组 #以 客户分类...df.groupby(df["客户分类"]) #分组键是Series #对分组数据进行 计数运算 求和运算 df.groupby("客户分类").aggregate(["count","sum..."]) #对分组数据 用户ID列进行计数运算,8月销量进行求和运算 df.groupby(df["客户分类"]).aggregate({"用户ID":"count","8月销量":"sum"}

4.5K11
您找到你想要的搜索结果了吗?
是的
没有找到

金融行业实战项目:如何理解业务?

(比如家庭成员,情侣等) (3)请找出数据表中异常值,并以此阐述你如何控制数据质量并以本数据为例设计数据质量报表。...其中用户id已进行加密,手机省份手机城市是注册所在地,用户注册终端是注册时终端(电脑端web、苹果手机、安卓手机),用户注册渠道展示是渠道ID。...涉及到“每个”到业务问题,要想到《猴子 从零学会SQL》里讲过用“分组汇总”来实现。 这里分组用户id,汇总使用count函数进行计数。...image.png 该问题是“找重复数据”类问题,“最近一次登陆ip”分组(group by),然后使用having来筛选出每组里面次数>1次就是重复数据。...用户id(7、8)具有相同ip地址,性别一男一女,年龄相差3岁,可以推测是夫妻关系。 (3)请找出数据表中异常值,并以此阐述你如何控制数据质量并以本数据为例设计数据质量报表。

1K50

如何分析房子?

数据按照每天、每个城市维度分组(group by),分组后对房源个数进行汇总(count求房源号这一列有多少行) 2.如何分组?...“每天”分组后如下图: image.png 在第一步基础上,“每个城市分组如下图: image.png 这样就完成了从时间城市两个维度分组拆解,分组在SQL中用group by image.png...现在组已经分好了,我们只需要看每个分组房源号个数计数,就完成了分组计数。...计数在SQL中用count(计数字段)来表示,这里count就是一种聚合函数,与分组函数group by常常搭配使用。...image.png 【举一反三】 房源表如下,找出每天每个城市新增房源数大于1城市、日期新增房源数 image.png 参考答案:分组后对数据筛选用having子句 image.png 查询结果

51500

教育行业案例:如何分析​复购用户

【面试题】 "课程订单表”里记录了某在线教育App用户购买课程信息(部分数据截图)。 请使用sql将购买记录表中信息,提取为下表(复购分析表)格式。并用一条sql语句写出。...【解题思路】 这是常见复购问题,也就是将用户购买时间分组,比较不同时间组用户复购数。其本质是使用里了群组分析方法,将数据某些特征进行分类,分成不同组进行分析。...该业务分析要求查询结果中包括:日期(说明是购买日期来汇总数据)、当日首次购买用户数、此月复购用户数,第N月复购用户数。 1.当日首次购买用户数 先来看当日首次购买用户数这一列如何分析出?...每日首次购买用户数,表示每一行记录是当天购买用户数。 当有“每个”出现时候,要想到《猴子从零学会SQL》中讲过用“分组汇总来”来实现。...每天分组(group by ),汇总购买用户数(计数函数count)。

1K10

Pandas中第二好用函数 | 优雅apply

结合我们目标,揉面是省份进行分组,得到每个省各个城市对应销售额面团;DIY包子是在每个面团中取其第三名城市销售额字段。 第一步分组非常简单,省份分组即可。...有个问题需要注意,有一些直辖市是省并列,而作为城市只有单独一行,这样城市我们就默认返回其本身数据;对于非直辖市省份来说,就需要定位筛选。...答案是直接索引,把他看作是一个DataFrame格式表,要选取第3行所有值,包括城市销售额,这里用iloc索引,很简单一行代码: ?...至此,每个省份,销售额排名第三城市已经成功筛选出来。回顾整个操作流程,先排序,后分组,最后通过定义函数传入apply,提取出我们目标值。...分组数据抽象形态,以及如何判断取出我们需要值,是解决问题关键难点。

1K30

Python数据分析中第二好用函数 | apply

结合我们目标,揉面是省份进行分组,得到每个省各个城市对应销售额面团;DIY包子是在每个面团中取其第三名城市销售额字段。 第一步分组非常简单,省份分组即可。...有个问题需要注意,有一些直辖市是省并列,而作为城市只有单独一行,这样城市我们就默认返回其本身数据;对于非直辖市省份来说,就需要定位筛选。...答案是直接索引,把他看作是一个DataFrame格式表,要选取第3行所有值,包括城市销售额,这里用iloc索引,很简单一行代码: ?...至此,每个省份,销售额排名第三城市已经成功筛选出来。回顾整个操作流程,先排序,后分组,最后通过定义函数传入apply,提取出我们目标值。...分组数据抽象形态,以及如何判断取出我们需要值,是解决问题关键难点。 “报告老板!筛选任务已经完成!”apply在握,小Z底气变得格外足。

1.2K20

Python 数据分析初阶

loc: 函数标签值进行提取 iloc: 位置进行提取 ix: 可以同时标签位置进行提取 具体使用见下: df.loc[3]: 索引提取单行数值 df.iloc[0:5]: 索引提取区域行数据值...[:3]): 提取前三个字符,并生成数据数据筛选 使用与、或、非三个条件配合大于、小于、等于对数据进行筛选,并进行计数求和。...= 'beijing'), ['id', 'city', 'age']].sort(['id']) 筛选后灵气 city 列进行计数 df.loc[(df['city'] !...df.groupby('city').count(): city 列分组后进行数据汇总 df.groupby('city')['id'].count(): city 进行分组,然后汇总 id..., np.sum,np.mean]): 对 city 进行分组,然后计算 pr 列大小、总和和平均数 数据统计 数据采样,计算标准差、协方差相关系数。

1.3K20

Python处理疫情数据(城市编码缺失补全),让你pandas跟上你数据思维

数据大致如下: - 一行记录表示,某时间点(updateTime)某地区(cityName)各项疫情指标 - 由于网站上显示是当前最新累计数据,因此本数据统计指标同样是累计数值 面对几万行多列数据...上直接显示报告,你也可以输出到单独网页文件,用浏览器打开即可查看 --- 实际可以从报告中发现很多这份数据问题,不过本文我们只关注"省份城市编码问题"。...看看如下数据你就明白: - 可以看到,"杨浦""杨浦区"实际是同一个地区,名字却从某时刻开始改变了 - 更严重是,"杨浦"城市编码是空!...--- # 找出有问题数据 处理很3步: - 省名字+城市名+城市编码,去除重复(这是因为此数据同一个城市数据在同一天会被记录多次) - 省名字+城市分组,那些组中超过1条记录,就是有问题记录...- 行11: 省份+缺失表城市分组,取相似度最大记录索引 - 行12:取出记录 直接输出到 Excel 看看: - 看最右边列,是相似度。

98910

作业

选择类型为行标签,值为餐饮评价求平均值。(另一种方法与第二题一样,注意这里因为茶馆酒吧都没有评价数据,所以使用函数计算会报错,但是不影响结果。)...6.上海地区中,各个类型饭店服务前五名? 答:先对数据源进行筛选出上海地区,然后类型升序排序再按服务降序排序,插入辅助列写出排名并筛选出前五名即可。 7.没有评价饭店有几家?...1.统计不同月份下单人数 分析:首先应过滤出成功购买数据即是已支付,然后考虑统计不同月份是按月份分组需要用到groupby关键字,统计人数是计数需要用count函数,这里要注意一个问题因为有的人有多次购买行为...分析:消费频次是指在一段时间内每人消费次数,计算式子为 消费频次 = 总消费次数 ÷ 总消费人数 题目要求需要统计男女用户则需要对sex进行分组,性别消费在不同表里则需要用join关联表,order...分析:统计是多次消费用户,需要先把这些数据过滤出来,用户统计则需要对用户进行分组,第一次消费时间最后一次时间可以分别用min、max函数计算出来,然后求间隔用日期时间函数 语句: select

3.9K30

SQL命令 GROUP BY

飘絮,字母大小写优化 本节描述GROUP BY如何处理只有字母大小写不同数据值。...依次选择系统管理、配置、SQL对象设置、SQL。查看编辑GROUP BYDISTINCT查询必须生成原始值复选框。默认情况下,此复选框未选中。此默认设置字母值大写排序规则对字母值进行分组。...Sample.Person GROUP BY Home_City /* 将Home_City值其大写字母值组合在一起将以大写字母返回每个分组城市名称。...*/ SELECT Home_City FROM Sample.Person GROUP BY %EXACT(Home_City) /*将Home_City值其原始字母大小写组合在一起将返回每个分组城市名称...带有GROUP BY子句SELECT语句返回所做所有数据修改,无论它们是否已提交。 示例 下面的示例名称首字母对名称进行分组。它返回首字母、共享该首字母姓名计数以及一个Name值示例。

3.8K30

Spring认证中国教育管理中心-Spring Data MongoDB教程七

计数排序 计数排序操作根据指定表达式值对传入文档进行分组,计算每个不同组中文档计数,并按计数对结果进行排序。它提供了在使用分面分类时应用排序便捷快捷方式。...计数排序操作需要分组字段或分组表达式。以下清单显示了计数排序示例: 示例 104....在这里,我们希望使用聚合框架返回每个州人口划分最小最大城市。此示例演示了分组、排序投影(选择)。...使用该sort操作pop,statecity字段对中间结果进行升序排序,使得最小城市在结果顶部,最大城市在结果底部。...我们在操作中分别选择调用last(…)first(…)运算符最大和最小城市名称人口计数project。 state从上一个group操作中选择字段。

8K30

从Excel到Python:最常用36个Pandas函数

本文为粉丝投稿《从Excel到Python》读书笔记 本文涉及pandas最常用36个函数,通过这些函数介绍如何完成数据生成导入、数据清洗、预处理,以及最常见数据分类,数据筛选,分类汇总,透视等最常见操作...Python支持从多种类型数据导入。...4.数据分组 Excel中可以通过VLOOKUP函数进行近似匹配来完成对数值分组,或者使用“数据透视表”来完成分组 Python中使用Where函数用来对数据进行判断分组 #如果price列值>3000...3.标签位置提取(ix) ix是lociloc混合,既能索引标签提取,也能位置进行数 据提取....4.条件提取(区域条件值) 使用locisin两个函数配合使用,指定条件对数据进行提取 #判断city列值是否为beijing df_inner['city'].isin(['beijing'

11.4K31

python df 列替换_如何用Python做数据分析,没有比这篇文章更详细了(图文详情)...

Excel 中文件菜单中提供了获取外部数据功能,支持数据库和文本文件页面的多种数据源导入。  获取外部数据  python 支持从多种类型数据导入。...首先我们 age 列中用户年龄对数据表进行排序。  使用函数为 sort_values。  ...1#使用 iloc 位置单独提取数据  2df_inner.iloc[[0,2,5],[4,5]]  iloc2  标签位置提取(ix)  ix 是 loc iloc 混合,既能索引标签提取...1#使用 ix 索引标签位置混合提取数据  2df_inner.ix[:'2013-01-03',:4]  ix  条件提取(区域条件值)  除了标签位置提起数据以外,还可以具体条件进行数据...,并进行计数求和。

4.4K00

通过常见业务掌握SQL高级功能

前言: 本文使用窗口函数需要Mysql8 阅读需要10分钟,题目有一定难度 1、窗口函数 基本语法: over (partition by order by <用户排序列名...所以用dense_rank 5、【面试题类型】topN问题 ?...分组取每组最大值 案例:课程号分组取成绩最大值所在行数据 select 课程号,max(成绩) as 最大成绩 from score group by 课程号; 分组取每组最小值 案例:课程号分组取成绩最小值所在行数据...这样使用窗口函数作用就是,可以在每一行数据可以直观看到,截止到本行数据,统计数据是多少行,同时可以看到每一行数据,对整体统计数据影响。 7、如何在每个组里面比较 ?...)经典top N问题 找出每个部门排名前N员工进行奖励 2)经典排名问题 业务需求“在每组内排名”,比如:每个部门业绩来排名 3)在每个组里比较问题 比如查找每个组里大于平均值数据,可以有两种方法

1.4K41

数据分析基础——EXCEL快速上手秘籍

下面我们结合数据来一探究竟: 源数据是2017年7月-12月销售数据,每一行代表一笔交易,数据涉及5个关键字段”订单序列”,“日期”,“省份”,“城市”,销售额“。...那是因为,我们源数据格式是酱紫数据透视表分组逻辑是判断是否唯一,如果唯一则单独分为一行(或一列),想要把行标签日期格式变成月维度,也HIN简单。...起始时间默认是源数据中最早最晚时间,这里不用更改,“步长”就是选择以什么时间维度去分组,我们想以月维度创建分组,所以选择“月” ? 这透视表分组,如你所愿了,行是月份,列是省份。...1.2、分列: 很多时候,我们拿到数据某一列是一定规律混杂,而我们需要把它分成多个列,从而有侧重分析。 假如我们从数据库中导出数据是这样: ?...上面的公式是说我们从第4个字符开始,提取其后4位,结果如下: ? 咳,提取问题加大难度: ? 假如我们想要提取上面“省-市”单元格中城市部分,怎么办呢?(比如武汉市、杭州市..)

1.9K00

数据分析基础——EXCEL快速上手秘籍

下面我们结合数据来一探究竟: 源数据是2017年7月-12月销售数据,每一行代表一笔交易,数据涉及5个关键字段”订单序列”,“日期”,“省份”,“城市”,销售额“。...那是因为,我们源数据格式是酱紫数据透视表分组逻辑是判断是否唯一,如果唯一则单独分为一行(或一列),想要把行标签日期格式变成月维度,也HIN简单。...起始时间默认是源数据中最早最晚时间,这里不用更改,“步长”就是选择以什么时间维度去分组,我们想以月维度创建分组,所以选择“月” ? 这透视表分组,如你所愿了,行是月份,列是省份。...1.2、分列: 很多时候,我们拿到数据某一列是一定规律混杂,而我们需要把它分成多个列,从而有侧重分析。 假如我们从数据库中导出数据是这样: ?...上面的公式是说我们从第4个字符开始,提取其后4位,结果如下: ? 咳,提取问题加大难度: ? 假如我们想要提取上面“省-市”单元格中城市部分,怎么办呢?(比如武汉市、杭州市..)

2K10

Python Pandas 用法速查表

3] 提取一行 df_inner.iloc[0:5]df_csv.iloc[3:5, 0:2]df_csv.iloc[[1, 2, 4], [0, 2]]df_csv.iloc[1:3, :]df_inner.ix...’].isin([‘beijing’,‘shanghai’])] 判断city列里是否包含beijingshanghai,然后将符合条件数据提取出来 pd.DataFrame(category.str...= ‘beijing’), [‘id’,‘city’,‘age’,‘category’,‘gender’]].sort([‘id’]).city.count() 对筛选后数据city列进行计数 df_inner.query...() 城市对id字段进行计数 df_inner.groupby([‘city’,‘size’])[‘id’].count() 对两个字段进行汇总计数 df_inner.groupby(‘city’)[...否则显示low df_inner.loc[(df_inner[‘city’] == ‘beijing’) & (df_inner[‘price’] >= 4000), ‘sign’]=1 对复合多个条件数据进行分组标记

1.8K20

AkShare-中国宏观-邮电业务基本情况

邮电业务量专业分类包括函件、包 件、汇票、报刊发行、邮政快件、特快专递、邮政储蓄、集邮、公众电报、用户电报、传真、长途电话、出租电路、市话无线寻呼、移动电话、分组交换数据通信、 出租代维等。...计算方法为各类产品乘以相应平均单价(不变价)之和,再加上出租电路设备、代用户维护电话交换机线路等服务收入。...它综合反映了一定时 期邮电业务发展总成果,是研究邮电业务量构成发展趋势重要指标。...输入参数 名称 类型 必选 描述 无 无 无 无 输出参数 名称 类型 默认显示 描述 统计时间 str Y 年月 邮电业务总量 float Y 注意单位: 亿元 邮电业务总量同比增长 float...float Y 注意单位: % 本地电话期末用户数同比增长 float Y 注意单位: % 城市电话用户数 float Y 注意单位: 万户 城市电话用户数同比增长 float Y 注意单位: % 乡村电话用户

30820
领券