展开

关键词

python pandas

利用panda便捷的对日志:#!

44520

SHELL命令

useradd127.0.0.3 useradd127.0.0.2 useradd127.0.0.2 userupdate127.0.0.2 userdelete首先需要找出访问最多的IP,awk可以对文本进行割 awk {print $1} access.log127.0.0.1127.0.0.3127.0.0.2127.0.0.2127.0.0.2排序和去重 awk {print $1} access.log |sort|uniq -c 1 127.0.0.1 3 127.0.0.2 1 127.0.0.3此时需要从中选出值最大的IP,把整个列表按降序排序,然后取其中第一个。 awk {print $1} access.log |sort|uniq -c |sort -nr 3 127.0.0.2 1 127.0.0.3 1 127.0.0.1取出后,再次用awk进行,割。 【扩展】简单的次数思路可以使用 sort 和 uniq来做,awk的功能其实更强大。 awk { s++;} END { max=0;ip=;for(i in s) { if(max

31510
  • 广告
    关闭

    云产品限时秒杀

    云服务器1核2G首年50元,还有多款热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Mysql横向

    sum(if(product=枕头,price,0)) as 枕头from tradeGROUP BY DATE_FORMAT(created_time,%Y-%m-%d);利用sum if 来实现这种横向的效果

    12620

    awk求和次数

    如果第一列相同,则根据第一列来别打印第二列和第三列的和如果第一列相同,则根据第一列来别打印第二列和第三列的和求和image.png以第一列 为变量名  第一列为变量,将相同第一列的第二列数据进行累加打印出和

    7420

    python 连续值

    python 连续值 强烈推介IDEA2020.2破解激活,IntelliJ IDEA 注册码,2020.2 IDEA 激活码需求:  将左表 按照连续值? 然后根据 token 进行即可方便实现。       方法使用:pandas.core.groupby.DataFrameGroupBy.cumsum?

    9020

    快速学习Oracle-

    需要使用 GROUP BY 来 语法:SELECT * |列名 FROM 表名 {WEHRE 查询条件} {GROUP BY 字段} ORDER BY 列 名 1 ASC|DESC,列名 我们发现报了一个 ORA-00937 的错误 注意: 1.如果使用函数,SQL 只可以把 GOURP BY 条件字段和函数查询出来,不能有其他字段。 2.如果使用函数,不使用 GROUP BY 只可以查询出来函数的值 ? 范例:按部门,查询出部门名称和部门的员工数量 ? 范例:查询出部门人数大于 5 人的部门 析:需要给 count(ename)加条件,此时在本查询中不能使用 where,可以使用 HAVING ? 范例:查询出部门平均工资大于 2000 的部门 ?

    25320

    pandas使用技巧-数据

    Pandas本文介绍的是pandas库中如何实现数据的:不去重的,类似SQL中次数去重的,类型SQL的用户数,需要去重 模拟数据1本文案例的数据使用的是numpy 每个学生出现次数?某位同学的成绩次数找出张三同学的全部成绩张三成绩出现的次数?每个科目有多少同学出现? 需要进行去重:data.groupby(subject).nunique() # 去重? 模拟数据2数据import pandas as pd df = pd.DataFrame({ group: , param: })方法1直接使用groupby函数和nunique方法:? 方法2整体方法说明:?步骤解释:1、找出数据不是null的值?2、para参数中的唯一值?

    24330

    一段oracle中的“复杂”sql

    要求:呼叫系(Call Center)每天会有大量的电话进线数据,领导们要查看每天的进线数汇总,并且要求把 每天从上午8点到上午12点以及下午2点到晚上8点这两个时间段的数据汇总 “视”为当天的数据。 --即依据 思路:把时间段折成连续二段,一段是从当天08:00到11:59的数据,一段是当日12:01到19:59的数据,然后用union all合并起来,最后再用sum求和代码 select

    867100

    你只想到group_by操作吗?

    最近在研究excel透视图,想到好像自己在R-操作并不是很流畅,顺便学习享一下。R自带数据集比较多,今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的算(操作)。 和summarise多变量算 2 ddply2.1 ddply语法2.2 ddply算示例3 aggregate3.1 aggregate语法3.2 aggregate算示例3.3 aggregate ,可以是一个也可以是多个,多个的话以逗号割group_by(mtcars, vs, am)1.2 summarise语法data为数据集,如果data被group_by定义,则根据变量算 (group, sex)...为算函数,可以是一个也可以是多个,2.2 ddply算示例> library(plyr); library(dplyr)> dfx > ddply(dfx, . (group, sex)3 aggregate3.1 aggregate语法aggregate(x, by, FUN)x为数据集by为变量列表FUN为算函数3.2 aggregate算示例>

    47130

    Python数据析pandas之透视表

    Python数据析pandas之透视表 大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说Python数据析pandas之透视表,希望能够帮助大家进步!!! 数据聚合Padans里的聚合即是应用的方法对数据框进行聚合,常见的有min(最小)、max(最大)、avg(平均值)、sum(求和)、var()、std(标准差)、百位数、中位数等。 (最大值)情况 print(df2.groupby(level).max()) #结果name age score level A 麻六 35 91 B 王二 19 78 C 王三 34 55按照多列多列 (两列以上),当前以等级、排名列为例,聚合函数是最大值(max)。 rate level rn A 2 0.833333 3 0.791667 B 2 0.866667 C 1 0.841751结合APPLY与索引重建通过APPLY结合lambda表达式生成新列

    3830

    hadoop MapReduce编写一个并排序查询-

    说一下需求,有一张销售表,记录每个销售员每天的销售情况,现在要出某一月的每个销售员的销售情况并且按照销售额从高往低排序(hadoop默认是升序)。 销售日期(年-月-日),  PRIMARY KEY (`id`)) ENGINE=InnoDB AUTO_INCREMENT=11717 DEFAULT CHARSET=utf8 COMMENT=销售表 我们先来析下数据,在文本里每一行代表一个记录,在一行中以制表符区字段。我们首先要取出所有五月份的数据,然后再对每一天的数据进行操作,取出每个人的销售额,最后排序。 那么具体到程序上,map的任务就是取出五月份的的数据,reduce就是进行。好了,下面开始编写。 在Eclipse创建项目,编写一个GroupCount类,下面是类代码:GroupCount.java此类将数据提取出来,然后按销售员输出 package gruopcount; import java.io.IOException

    34720

    Sql Server:多行合并成一行,并做

    2UNION ALL SELECT 002, aaa,4UNION ALL SELECT 002, bbb,5UNION ALL SELECT 002, ccc,3;   --方法一--将多行合并成一行,并做

    2.6K10

    django查询今天,昨天,一周,月,年

    最近一个月,每一天的数量3. 最近1年,每一个月的数量二、项目演示新建一个项目,名字为:test_rom,应用名称为:applicationdjango版本为:3.0.8settings.py修改时区,内容如下:TIME_ZONE time.localtime(time.time()))    this_month = time.strftime(%m, time.localtime(time.time()))     # 按天 time_ago)    # 获取近一年数据    one_year_data = models.User.objects.filter(create_time__gte=time_ago)    # 每个月的数据 访问最近一个月数据http:127.0.0.1:8001month效果如下:?访问最近一年的数据http:127.0.0.1:8001year效果如下:?

    92541

    按 user 视图|全方位认识 sys 系

    在上一篇《按 host 视图 | 全方位认识 sys 系库》中,我们介绍了sys 系库中按 host 的视图,类似地,本期的内容将为大家介绍按照 user 进行的视图。 01.user_summary,x$user_summary查看活跃连接中按用户的总执行时间、平均执行时间、总的IOS、总的内存使用量、表扫描数量等信息,默认按照总延迟时间(执行时间)降序排序。 按照用户的文件IO延迟时间、IOS信息,默认按照总文件IO时间延迟时间(执行时间)降序排序。 IO等待事件信息(waitiofile%)04.user_summary_by_stages,x$user_summary_by_stages按用户的阶段事件信息,默认情况下按照用户名和阶段事件总延迟时间 ,也是语句command类型字符串类似)的语句信息,默认情况下按照用户名和对应语句的总延迟时间(执行时间)降序排序。

    32150

    按 file 视图 | 全方位认识 sys 系

    在上一篇《按 user 视图 | 全方位认识 sys 系库》中,我们介绍了sys 系库中按 user 的视图,类似地,本期的内容将为大家介绍按照 file 进行的视图。 01.io_by_thread_by_latency,x$io_by_thread_by_latency按照thread ID、processlist ID、用户名的 IO等待时间开销信息,默认情况下按照总 读写文件IO事件数量进行,默认情况下按照总IO(读写字节数)进行降序排序。 03.io_global_by_file_by_latency,x$io_global_by_file_by_latency按照文件路径+名称的全局IO事件的时间开销信息,默认情况下按照文件总的 misc_latency:其他IO事件的总延迟时间(执行时间)04.io_global_by_wait_by_bytes,x$io_global_by_wait_by_bytes按照文件IO事件名称后缀进行信息

    32530

    按 host 视图 | 全方位认识 sys 系

    本期的内容先给大家介绍按照host进行相关的视图。下面请跟随我们一起开始 sys 系库的系学习之旅吧。 ),按照host进行的视图应该有6对,这些视图提供的查询内容本质上就是用更易读的格式按照主机的维度进行等待事件、语句事件、阶段事件等。 01.host_summary_by_file_io,x$host_summary_by_file_io按主机(与用户账号成中的host值相同)的文件IO的IO总数和IO延迟时间,默认按照总IO 详见后续章节该视图只文件IO等待事件信息(waitiofile%)02.host_summary,x$ host_summary按照主机的语句延迟(执行)时间、次数、相关的文件IO延迟、连接数和内存配大小等摘要信息 PS:该视图只文件IO等待事件信息(waitiofile%)03.host_summary_by_file_io_type,x$host_summary_by_file_io_type按照主机和事件名称的文件

    31940

    按 user 视图|全方位认识 sys 系

    在上一篇《按 host 视图|全方位认识 sys 系库》中,我们介绍了sys 系库中按 host 的视图,类似地,本期的内容将为大家介绍按照 user 进行的视图。 01user_summary,x$user_summary查看活跃连接中按用户的总执行时间、平均执行时间、总的IOS、总的内存使用量、表扫描数量等信息,默认按照总延迟时间(执行时间)降序排序。 按照用户的文件IO延迟时间、IOS信息,默认按照总文件IO时间延迟时间(执行时间)降序排序。 IO等待事件信息(waitiofile%)04user_summary_by_stages,x$user_summary_by_stages按用户的阶段事件信息,默认情况下按照用户名和阶段事件总延迟时间 ,也是语句command类型字符串类似)的语句信息,默认情况下按照用户名和对应语句的总延迟时间(执行时间)降序排序。

    10920

    按 file 视图 | 全方位认识 sys 系

    在上一篇《按 user 视图 | 全方位认识 sys 系库》中,我们介绍了sys 系库中按 user 的视图,类似地,本期的内容将为大家介绍按照 file 进行的视图。 01io_by_thread_by_latency,x$io_by_thread_by_latency按照thread ID、processlist ID、用户名的 IO等待时间开销信息,默认情况下按照总 IO事件数量进行,默认情况下按照总IO(读写字节数)进行降序排序。 03io_global_by_file_by_latency,x$io_global_by_file_by_latency按照文件路径+名称的全局IO事件的时间开销信息,默认情况下按照文件总的IO misc_latency:其他IO事件的总延迟时间(执行时间)04io_global_by_wait_by_bytes,x$io_global_by_wait_by_bytes按照文件IO事件名称后缀进行信息

    12620

    dataframe进行常用平均绝对偏差等操作函数。

    pandas在dataframe中提供了丰富的、合并、、缺失值等操作函数。 1.函数df.count() #非空元素算 df.min() #最小值 df.max() #最大值 df.idxmin() #最小值的位置,类似于R中的which.min函数 df.idxmax( 众数 df.var() #方差 df.std() #标准差 df.mad() #平均绝对偏差 df.skew() #偏度 df.kurt() #峰度 df.describe() #一次性输出多个描述性指标 2. 依托group by 单列如:df.groupby(‘sex’).sum() 通过多个列进行形成一个层次索引,然后执行函数:df.groupby().sum() 案例:#! = pd_data=pd.read_sql(sqldb,conn) pd_data=(pd_data-pd_data*2)**2 print(pd_data.head(5)) #获取对应效果描述

    2.2K60

    hadoop MapReduce编写一个并排序查询-排序

    Reduce.class);        job.setOutputFormatClass(TextOutputFormat.class);        默认即可,若需要进行效率调优使用此代码自定义片         设置要片的calss        job.setCombinerClass(Reduce.class);         设置片calss        job.setPartitionerClass (SectionPartitioner.class);        设置片个数        job.setNumReduceTasks(3);        job.setOutputKeyClass

    46640

    扫码关注云+社区

    领取腾讯云代金券