库存可供应天数=(可用性数量为负的最早日期 - 当前日期 - 1)+ 不为负的最近可用性数量/需求数量。
需求 用户记录去重,两次记录间隔超过90天算新的记录——此案例已征求网友同意 建表语句 create table wangyou( uid string, time string ); 数据 insert into wangyou values ("1","2021-01-01"), ("1","2021-02-03"), ("1","2021-04-02"), ("1","2021-05-07"), ("1","2021-07-02"), ("1","2021-08-15"); 实现 se
出现在其他语句中的select语句,称为子查询或内查询 外部出现的查询语句,称为主查或外查询
已经介绍了R语言中的排名窗口函数,本节介绍一下R语言中的偏移窗口函数,如果使用纯R语言语句实现“偏移”效果,很是复杂,可以说偏移窗口函数是处理“偏移”数据问题的利器。
当用户键入日期时,将专门处理具有2位数年份的日期。 例如。7/7/77被解释为1977年7月7日,而不是77年7月7日。这个逻辑看起来是未来20年:现在(2015年8月),“35”被解释为2035,但“36”被解释为“1936”。 明年,“36”将开始被解释为2036年。
从实际业务的角度出发,我们日常打交道最多的模块,就是财务模块了。而针对不同的行业,每个财务模块对于一些业务逻辑的定义和算法,都是有区别。
最近闹得比较厉害的新闻就是美国特朗普和中国贸易团之间的谈判,目前中美贸易之间已按美国征税25%告一段落。在近期的汇率市场上的变动显示的尤为明显。我们看到下图中最近的美元非常的强劲。
数据分析有一半以上的时间会花在对原始数据的整理及变换上,包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。这一点,我想大部分使用EXCEL的童鞋都深有体会,写论文时,这么多的数据进行处理,手动汇总、筛选、变换,工作量实在是太大。而本文介绍的dplyr包简直就是Hadley Wickham (ggplot2包的作者,被称作“一个改变R的人”)大神为我们提供的“数据再加工”神器啊。 本文试图通过一个案例,对神奇的dplyr包的一些常用功能做简要介绍
相信经常做数据分析的同学都听说过Cohort 分析,特别是互联网运营中,用于分析客户存留等场景,以往这种分析大都借助SQL+Excel完成。
https://www.science.org/doi/10.1126/science.aam8940
现有用户登录记录表,已经按照用户日期进行去重处理。以用户登录的最早日期作为新增日期,请计算次日留存率是多少。
数据描述的是不同部门(department)的老师的收入(salary)情况。 具体可见上期。
可以定义日期、时间和时间戳数据类型,并通过标准 SQL 日期和时间函数相互转换日期和时间戳。例如,可以使用 CURRENT_DATE 或 CURRENT_TIMESTAMP 作为使用该数据类型定义的字段的输入,或者使用 DATEADD、DATEDIFF、DATENAME 或 DATEPART 来操作使用该数据类型存储的日期值。
https://r4ds.had.co.nz/transform.html#grouped-summaries-with-summarise
1写在前面 桑基图(Sankey diagram),即桑基能量分流图,也叫桑基能量平衡图,应用场景非常广泛,举个栗子:ceRNA调控网络等。😉 本期我们画一个不一样的桑基图吧,可视实现动态交互。🤗 2用到的包 rm(list = ls()) library(tidyverse) library(visNetwork) library(networkD3) library(igraph) 3示例数据 本次使用的示例数据是Daniel van der Meulen在1585年收到的信件所组成,包括writer
除了选择已存在的列,另一个常见的操作是添加新的列。这就是mutate()函数的工作了。
在数据处理和分析过程中,可能会涉及到数据的聚合操作(可理解为统计汇总),如计算门店每天的营业总额、计算各地区的二手房的平均价格、统计每个消费者在近半年内最后一笔交易时间等。如果基于数据库SQL的语法来解决这些问题,将会显得非常简便,如果没有数据库环境该如何实现类似聚合问题的解决呢?
所谓时间戳,是指自格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。
所以在画图的时候,也需要区分这三类。下面这张表就是GO富集分析得到的结果,我们可以根据ONTOLOGY这一列来分组,就可以得到BP,CC和MF三个组。然后取每一个组的前10个条目或者前5个条目来绘制柱形图或者气泡图。
上节我们对选择现有的列和使用mutate添加新列做了介绍。现在对数据框使用summarize()进行分组摘要进行介绍。函数功能:summarize()可以将数据框折叠成一行:
1写在前面 上期介绍了一元线性回归,现在我们增加预测变量个数,稍微扩展一下我们的一元线性模型,就是多元线性回归了。😘 多元线性回归分析法的数学方程: y = a+βx_1+βx_2+ϵ 2用到的包 rm(list = ls()) library(tidyverse) library(ggsci) library(rms) 3示例数据 还是使用的上期介绍的mtcars,为1974年《Motor Trend US》杂志上记录的,包括32种汽车的mpg(燃料消耗)、hp(马力)等方面的数据。 dat <- m
上一篇我重点写了秦路老师在七周数据分析师系列课程中MySQL模块的实战作业SQL语法,对比了自己的冗余思路与老师的最佳思路。 MySQL入门学习笔记——七周数据分析师实战作业 这一篇,仍然是相同的六个业务问题,我尝试着R语言、Python复盘一遍,这样你可以对比同样的业务逻辑,使用不同工具处理之间的效率、逻辑的差异,以及各自的优缺点。在R语言代码部分,适当位置酌情做了注释,Python部分未做注释,请谨慎参考! 首先大致介绍这两份数据: userinfo 客户信息表 userId 客户id ge
柱状图绘制 柱状图也是较为常见的一种数据展示方式,可以展示基因的表达量,也可以展示GO富集分析结果,基因注释数据等。 常规矩阵柱状图绘制 有如下4个基因在5组样品中的表达值 data_ori <- "Grp_1;Grp_2;Grp_3;Grp_4;Grp_5 a;2.6;2.9;2.1;2.0;2.2 b;20.8;9.8;7.0;3.7;19.2 c;10.0;11.0;9.2;12.4;9.6 d;9;3.3;10.3;11.1;10" data <- read.table(text=data_ori
解释:返回日历表中第一个时间,一般来说日历表都是排序好的,如果是未排序的日历,返回的则是第一个日期值。
这里用到的是R语言的内置数据集sample_n_by()函数很有用,能够分组随机抽样%>% 是管道符 是将前面的结果传输给后面的函数
1写在前面 天真的好冷啊,不知道各位穿秋裤了没有,有没有感冒。😘 这期就介绍一下ggokabeito包,是一个支持ggplot2和ggraph的即用型配色包,喜欢就去安装吧。🤪 再放一张去年拍的雪人照片,哈哈哈哈哈。☃️ 📷 2用到的包 rm(list = ls()) #devtools::install_github("malcolmbarrett/ggokabeito") library(tidyverse) library(ggokabeito) library(igraph) library(ggr
WPF控件是Windows Presentation Foundation(WPF)中的基本用户界面元素。它们是可视化对象,可以用来创建各种用户界面。WPF控件可以分为两类:原生控件和自定义控件。
这个包以一种统一的规范更高效地处理数据框。dplyr 包里处理数据框的所有函数的第一个参数都是数据框名。
要想对两个分类变量间的相关变动进行可视化表示,需要计算出每个变量组合中的观测数量。常用的两种方法有:
经过研究表明,在旅行者的决策过程中,TripAdvisor(猫途鹰,全球旅游点评网)正变得越来越重要。然而,了解TripAdvisor评分与数千个评论文本中的每一个的细微差别是很有挑战性的。为了更彻底地了解酒店客人的评论是否会影响酒店的加班表现,我从TripAdvisor截取了一家酒店 – 希尔顿夏威夷度假村(Hilton Hawaiian Village)的所有英语评论 (Web抓取的细节和Python代码在文末)。
DATESBETWEEN函数隶属于“时间智能函数”,属于“表”函数。可以用作生成固定范围的日期,也可以用来作为限定条件来对聚合计算进行限制。
问题:依据group分组,按照dat(日期)升序对num列数据累计求和并生成cum_num列
本次使用的示例数据是Daniel van der Meulen在1585年收到的信件所组成,包括writer,source, destination和date
上一篇我们一起学习了计划日历-计划日历-PPC Planning Calendar(上),在上篇中对计算规则1进行示例说明。(计算规则说明参见上篇)。
春风得意马蹄疾,一日看尽长安花 作为快速开始,本章将简单展示SCP三个模块(前处理、下游分析、可视化)的大致功能,各模块各函数的使用细节将在后续教程中详细说明。 目录: 1. 数据探索 9. RNA
重复测量方差分析 sunqi 2020/7/26 概述 双因素的重复测量资料方差分析 代码 数据获得 library(tidyverse) library(ggpubr) library(rstatix) rm(list=ls()) set.seed(123) data("selfesteem2", package = "datarium") # 抽样 selfesteem2 %>% sample_n_by(treatment, size = 1) ## # A tibble: 2 x 5 ## id
data_frame() is a better way than data.frame() for creating data frames. Benefits of data_frame():
代码来自《r-data-science-quick-reference-master》的内容。
由于空气污染对公众健康的不利影响,人们一直非常关注。世界各国的环境部门都通过各种方法(例如地面观测网络)来监测和评估空气污染问题
上面的例子summary的变量是disp,分组变量是cyl和am,使用三个点这里传递了任意个参数
最近在研究excel透视图,想到好像自己在R-分组操作并不是很流畅,顺便学习分享一下。R自带数据集比较多,今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算(操作)。
这部分介绍一下R语言中的聚合窗口函数,R语言中的聚合窗口函数与sql中的窗口函数有点差异,R语言中的相同记录的累计求和累计平均不再相同。
这里,参数:annotatePval,注意,这里的值,不是-log10转化的,而是原始的p值,比如,这里,我们想打印1e-8的snp名称,默认一个染色体只显示一个snp名称:
由于空气污染对公众健康的不利影响,人们一直非常关注。世界各国的环境部门都通过各种方法(例如地面观测网络)来监测和评估空气污染问题。全球的地面站及时测量了许多空气污染物,例如臭氧、一氧化碳、颗粒物。EPA(环境保护署)提供了空气污染数据,本文选择了颗粒物2.5(PM2.5)和空气质量指数(AQI)这两个关键变量,以可视化和分析空气污染的趋势和模式。PM2.5代表直径小于2.5微米的颗粒物浓度,AQI是综合考虑所有主要污染物的空气污染状况的整体指标。具体来说,此工作的数据源列出如下:
(这个地方就很符合jimmy大神的价值观:只允许用打开R-project的方式打开Rstudio,小本本记下来,小心被怼)
虽然与summarize()函数结合起来使用是最有效的,但分组也可以与mutate()和filter()函数结合,以完成非常便捷的操作。示例如下:
有5个基础的函数: - filter - select - arrange - mutate - summarise - group_by (plus)
最近做实验太累,感觉没有特别多的时间好好读文献了。可能这一段时间更新的会比较慢。今天先来点轻松地~
领取专属 10元无门槛券
手把手带您无忧上云