首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Linux文件随机抽取N

有时候需要从大文件中随机抽取N出来进行模拟,但是用python或者别的语言感觉不太方便,linux下直接分割感觉会更快捷。...一般可以考虑以下方法: 1. shuf shuf -n100 filename # 从文件中随机选取100 2. sort sort -R filename | head -n100 -R参数是将文件随机顺序...3. awk awk是一个处理文件神器,可以像下面这么写(别的写法也可实现): awk 'BEGIN{srand()} {print rand()"\t"$0}' filename | sort -nk...这一句话,strand()是设定随机数种子,必须写在BEGIN中才能正常运行;rand()是产生0到1之间随机数。...第一列是产生随机数。sort -nk 1是根据第一列排序,运行后输出: ? 因为种子不一样,所以结果与上图不同。 最后选取想要行数,然后输出除了第一列内容就可以了。

8.5K20
您找到你想要的搜索结果了吗?
是的
没有找到

linux查看文件有多少(WC)

wc -l filename 就是查看文件里有多少 wc -w filename 看文件里有多少个word。 wc -L filename 文件里最长那一是多少个字。...wc命令 wc命令功能为统计指定文件字节数、字数、行数,并将统计结果显示输出。 说明:该命令统计给定文件字节数、字数、行数。如果没有给出文件名,则从标准输入读取。...wc同时也给出所有指定文件总统计数。字是由空格字符区分开最大字符串。 该命令各选项含义如下: -c 统计字节数 -l 统计行数 -w 统计字数 这些选项可以组合使用。...输出列顺序和数目不受选项顺序和数目的影响。 总是按下述顺序显示并且每项最多一列。 行数、字数、字节数、文件名 如果命令行中没有文件名,则输出中不出现文件名。...使用ls -lht命令显示当前目录下所有文件,其中有一列就是显示这个文件大小。

9.7K20

linux中删除文件最后N小总结

现在,假设我们要从rumenz.txt文件中删除最后三 ( n=3 ) 。...sed命令及其地址范围,我们可以快速删除文件中从给定行号开始到最后一: sed 'GIVEN`LINE`NO, $d' input_file 例如,让我们从第5删除直到rumenz.txt结尾...由于我们输入文件有十,sed命令:sed 8,$d rumenz.txt将是解决问题方法。 这样,问题就变成了如何计算第一个要删除行号8 。 现在,是时候介绍wc命令了。...但是,如果我们可以颠倒输入文件顺序,问题就会变成从文件中删除前 n 。一个简单 sed 单行sed 1,n d可以删除前n。之后,如果我们再次反转线条,我们问题就解决了。...tac命令可以反向文件顺序。

7.4K10

使用pandas筛选出指定列值所对应

布尔索引 该方法其实就是找出每一中符合条件真值(true value),如找出列A中所有值等于foo df[df['A'] == 'foo'] # 判断等式是否成立 ?...这个例子需要先找出符合条件所在位置 mask = df['A'] == 'foo' pos = np.flatnonzero(mask) # 返回是array([0, 2, 4, 6, 7])...df.set_index('A', append=True, drop=False).xs('foo', level=1) # xs方法适用于多重索引DataFrame数据筛选 # 更直观点做法...数据提取不止前面提到情况,第一个答案就给出了以下几种常见情况:1、筛选出列值等于标量,用== df.loc[df['column_name'] == some_value] 2、筛选出列值属于某个范围内...df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)] 4、筛选出列值不等于某个/些值 df.loc[df['column_name

18.8K10

linux提取具体某一日志文件信息出来

Linux 系统中提取某一可以使用命令行工具 sed、awk、grep、head 或 tail。...以下是各个命令用法: sed 命令 sed 命令是一个强大文本处理工具,可以用来从文件或输入流中选择、编辑、替换某一。...下面的命令提取文件 file.txt 中第 5 : sed -n '5p' file.txt 其中,-n 表示不输出模式空间中内容,'5p' 表示选择第 5 并将其打印出来。...以下命令提取文件 file.txt 中第 5 : awk 'NR==5' file.txt 其中,NR 表示行号,$0 表示整行,== 表示相等,'5' 表示第 5 。...以下命令提取文件 file.txt 中第 5 : head -n 5 file.txt | tail -n 1 其中,head -n 5 表示选取前 5 ,tail -n 1 表示选取最后一

11110

为什么你shp文件字段名那么

本篇推送,将讲一讲:为什么?长为什么长?以及怎么把变长? ​ shp是个啥? shp是一种最常见地理数据格式,大多数人对这种格式都不陌生。...shp是由多个文件组成(这几个是必须): .shp – 主文件,存储几何实体; .shx – 索引文件,存储几何实体索引; .dbf – dBase数据库,存储属性信息。...除了以上三个文件,还可以有其它文件支持(这些是可选): .sbn 和 .sbx–; .cpg – 文件编码信息; .prj – 坐标信息; .shp.xml – 元数据; …… 一份完整shp数据...如果在工作中收到了少于3这三个文件shp数据,直接把本文发给对方就行。如果少了坐标定义信息,直接把本文发给对方就行(少了prj文件)。...在前面的内容中介绍过:shp数据属性是存在.dbf文件。dbf类型文件字段名长度最长只能有10个字节。

1.3K50

如何在矩阵上显示“其他”【3】切片器动态筛选猫腻

往期推荐 如何在矩阵上显示“其他”【1】 如何在矩阵上显示“其他”【2】 正文开始 上一篇文章末尾,我放了一张动图: 当年度切片器变换筛选时,子类别中显示种类和顺序是不相同,但不变是...: ①others永远显示在最后一 ②显示10个子类别按照sales或sales%从高到低排序 看上去好像不难。...那么我们基本上可以得出结论了:数据表是由子类别和年度组合构成,把每年子类别对应销售额放进去,通过筛选年度切片器,达到选择不同年份时显示不同销售额。 我们根据以上思路试着来建立模型。...sales = VAR NIAN=[年度] RETURN CALCULATE([sales],'日期表'[年度]=NIAN) 3.添加各年每个子类别的sales排名 RANKX是迭代函数,会将上下文自动转为筛选上下文...我们来看一下效果: 这样基本达到了本文开始要求: 当年度切片器变换筛选时,子类别中显示种类和顺序是不相同,但不变是: ①others永远显示在最后一 ②显示10个子类别按照sales或sales

2.5K20

使用Python批量筛选上千个Excel文件某一数据并另存为新Excel文件(上篇)

二、需求澄清 粉丝问题来源于实际需求,她现在想要使用Python批量筛选上千个Excel文件某一数据并另存为新Excel文件,如果是正常操作的话,肯定是挨个点击进去Excel文件,然后CTRL...+F找到满足筛选条件数据,之后复制对应那一,然后放到新建Excel文件中去。...这里装X了,其实码代码还是需要点时间,狗头保命! 下面这个代码是初始代码,可以实现筛选出来每一都另存为新文件,100个文件就存100个文件了。.../res/' + name_list[0][i]) 三、实现过程 这里给大家提供两个可行代码,思路也很简单,直接遍历文件夹,然后加条件筛选,之后符合条件,直接使用concat进行合并,代码如下:...Excel满足筛选条件Excel,存到一个单独Excel中去。

2.4K30

使用Python批量筛选上千个Excel文件某一数据并另存为新Excel文件(下篇)

昨天给大家分享了使用Python批量筛选上千个Excel文件某一数据并另存为新Excel文件(上篇),今天继续给大家分享下篇。 二、需求澄清 需求澄清这里不再赘述了,感兴趣小伙伴请看上篇。...三、实现过程 这里思路和上篇稍微有点不同。鉴于文件夹下Excel格式都是一致,这里实现思路是先将所有的Excel进行合并,之后再来筛选,也是可以。...手把手教你4种方法用Python批量实现多Excel多Sheet合并、盘点4种使用Python批量合并同一文件夹内所有子文件夹下Excel文件内所有Sheet数据、补充篇:盘点6种使用Python批量合并同一文件夹内所有子文件夹下...Excel文件内所有Sheet数据、手把手教你用Python批量实现文件夹下所有Excel文件第二张表合并。...: 现在就可以针对合并后数据进行筛选了,代码和上篇一样,如下所示: # import os import pandas as pd df = pd.read_excel("hebing.xlsx

1.7K20

Linux 删除文本中重复

在进行文本处理时候,我们经常遇到要删除重复情况。那怎么解决呢? 下面就是三种常见方法? 第一,用sort+uniq,注意,单纯uniq是不行。...shell> sort -k2n file | uniq 这里我做了个简单测试,当file中重复不再一起时候,uniq将服务删除所有的重复。...经过排序后,所有相同行都在相邻,因此unqi可以正常删除重复。 第二,用sort+awk命令,注意,单纯awk同样不行,原因同上。...P; D' 最后附一个必须先用sort排序文本例子,当然,这个需要用sort排序原因是很简单,就是后面算法设计时候“局部性”,相同可能分散出现在不同区域,一旦有新相同行出现,那么前面的已经出现记录就被覆盖了...参考推荐: 删除文本中重复(sort+uniq/awk/sed)

8.5K20
领券