首页
学习
活动
专区
圈层
工具
发布

Linux文件随机抽取N行

有时候需要从大文件中随机抽取N行出来进行模拟,但是用python或者别的语言感觉不太方便,linux下直接分割感觉会更快捷。...一般可以考虑以下的方法: 1. shuf shuf -n100 filename # 从文件中随机选取100行 2. sort sort -R filename | head -n100 -R参数是将文件随机顺序...3. awk awk是一个处理文件神器,可以像下面这么写(别的写法也可实现): awk 'BEGIN{srand()} {print rand()"\t"$0}' filename | sort -nk...这一句话,strand()是设定随机数种子,必须写在BEGIN中才能正常运行;rand()是产生0到1之间的随机数。...第一列是产生的随机数。sort -nk 1是根据第一列排序,运行后输出: ? 因为种子不一样,所以结果与上图不同。 最后选取想要的行数,然后输出除了第一列的内容就可以了。

9.4K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    uniq命令 – 去除文件中的重复行

    uniq命令全称是“unique”,中文释义是“独特的,唯一的”。该命令的作用是用来去除文本文件中连续的重复行,中间不能夹杂其他文本行。去除了重复的,保留的都是唯一的,也就是独特的,唯一的了。...我们应当注意的是,它和sort的区别,sort只要有重复行,它就去除,而uniq重复行必须要连续,也可以用它忽略文件中的重复行。...语法格式:uniq [参数] [文件] 常用参数: -c 打印每行在文本中重复出现的次数 -d 只显示有重复的纪录,每个重复纪录只出现一次 -u 只显示没有重复的纪录 参考实例 删除连续文件中连续的重复行...95 Linux 85 Linux 85 [root@linuxcool ~]# uniq testfile test 30 Hello 95 Linux 85 打印每行在文件中出现重复的次数...,且每个纪录只出现一次: [root@linuxcool ~]# uniq -d testfile test 30 Hello 95 Linux 85 只显示没有重复的纪录: [root

    3.6K00

    文件的随机读写

    文件的随机读写 文件的随机读写 定义:读写操作时,不按照数据在文件中先后次序依次读写,而是可以对文件中任意位置的数据进行访问,在读写文件中特定数据时效率较高。...10.4.1 文件位置标记 为对文件读写的数据进行控制,系统为每个文件设置一个文件读写位置标记(简称文件位置标记),指示“要读写的下一个数据的位置”。...文件位置标记的定位 文件位置标记的定位 (1)void rewind(FILE *fp) 把fp指向文件的文件位置标记定位到文件的开头位置,并清除文件结束标记和错误标记。...向文件尾方向偏移10个字节 fseek(fp, -10L, CUR_END); //文件尾开始,向文件头方向偏移10个字节 (3) long ftell(FILE *fp):返回fp所指向文件的文件位置标记的值...例:在二进制文件integer.dat中存放有若干个整数,计算文件中奇数位置(第1、3、5、…)上的整数的和。

    65720

    如何随机选择vcf文件中的变异位点

    现在做群体基因组的论文大部分会公开自己论文分析中的变异检测结果,通常是vcf文件,我们自己可以把vcf文件下载下来试着复现论文中的内容,有时候vcf文件过大,每一步处理起来都会花费比较长的时间。...有时候就想把这个vcf文件缩小,随机选择一部分。 查了一下,没有找到现成的工具或者脚本。尝试自己写脚本,没有思路。...这个函数随机生成一个小于1的数,如果我们想要随机取vcf文件中的10%,就设置random.random()的行就是所有的行的10%左右。...种子设置的一样,输出的行就是一样的 完整的python脚本 import sys import random # 1 input vcf # 2 output vcf # 3 proportion 0...运行 python randomSelectRowsFromVCF.py tiny.vcf tiny.out.vcf 1 123 四个位置参数分别是 输入文件 输出文件 随机选取的比例(0-100)

    62310

    使用uniq命令去除文件中的重复行

    uniq命令全称是“unique”,中文释义是“独特的,唯一的”。该命令的作用是用来去除文本文件中连续的重复行,中间不能夹杂其他文本行。去除了重复的,保留的都是唯一的,也就是独特的,唯一的了。...我们应当注意的是,它和sort的区别,sort只要有重复行,它就去除,而uniq重复行必须要连续,也可以用它忽略文件中的重复行。...语法格式:uniq [参数] [文件] 常用参数: -c 打印每行在文本中重复出现的次数 -d 只显示有重复的纪录,每个重复纪录只出现一次 -u 只显示没有重复的纪录 参考实例 删除连续文件中连续的重复行...95 Linux 85 Linux 85 [root@linuxcool ~]# uniq testfile test 30 Hello 95 Linux 85 打印每行在文件中出现重复的次数...,且每个纪录只出现一次: [root@linuxcool ~]# uniq -d testfile test 30 Hello 95 Linux 85 只显示没有重复的纪录: [root

    2.7K00

    java按字节、字符、行、随机读取文件,并设置字符编码格式

    首先介绍可能用到的java类: inputStream:是字节输入流的所有类的超类,是一个抽象类;返回0-225内的字节值,如果没有字节可以读取则返回-1; FileInputStream:读取文件中的字节...,转成字节流,字节流读取不存在编码问题 FileReader:读取文件中的字符,转成字符流,字符读取需要注意编码问题 BufferedInputStream:字节读取,减少磁盘开销,不带缓存没读取一个字节就要写入一个字节...System.out.println("----------字节读取文件前1024个字节内容的方法-------------"); readFileByBytes(fileName);//读取文件前...=-1){ System.out.print(new String(buf,0,tempByte)); //不能使用println,否则会出现错行的现象 } fis.close();...FileInputStream fis=new FileInputStream(fileName); byte[] buf =new byte[fis.available()];//fis.available()方法是读取文件中的所有内容的字节长度

    1.6K30

    vi中跳到文件的第一行和最后一行

    由于vi编辑器不能使用鼠标,所以一个大文件如果要到最后一行只用键盘下键的话会是一个很痛苦的过程,还好有各种比较快捷的方法归我们使用: 1. vi 编辑器中跳到文件的第一行:    a 输入 :0 或者...:1 回车    b 键盘按下 小写 gg 2.vi 编辑器跳到文件最后一行:    a 输入 :$ 回车    b 键盘按下大写 G    c 键盘按 shift + g (其实和第二种方法一样...) Vim快速移动光标至行首和行尾 1、 需要按行快速移动光标时,可以使用键盘上的编辑键Home,快速将光标移动至当前行的行首。...2、 如果要快速移动光标至当前行的行尾,可以使用编辑键End。也可以在命令模式中使用快捷键””(Shift+4)。与快捷键”^”和0不同,快捷键””前可以加上数字表示移动的行数。...例如使用”1”表示当前行的行尾,”2”表示当前行的下一行的行尾。

    12.2K40

    如何用 awk 删除文件中的重复行【Programming】

    了解如何在不排序或更改其顺序的情况下使用awk'!visited $ 0 ++'。 [jb0vbus7u0.png] 假设您有一个文本文件,并且需要删除它的所有重复行。...摘要 要删除重复的行,同时保留它们在文件中的顺序,请使用: awk '!...对于文件的每一行,如果行出现次数为零,则将其增加一并打印该行,否则,它仅增加出现次数而无需打印该行。 我对awk并不熟悉,所以我想了解它是如何通过这么短的脚本来实现这一点的。...我做了研究发现以下几点: 输入文件的每一行都会执行awk“脚本”!visited[$0]++。 visit []是类型为关联数组 (又称为Map )的变量。...abc ghi def xyz klm 参考资料 Gnu awk 用户指南 awk 中的数组 Awk真值 Awk 表达式 如何在Unix中删除文件中的重复行? 删除重复行而不排序 awk '!

    10.9K00

    10.Linux文件管理命令---uniq忽略文件中的重复行

    uniq忽略文件中的重复行作用:文件经过处理后,在它的输出文件中可能会出现重复的行。例如,使用 cat 命令将两个文件合并后,再使用 sort 命令进行排序,就可能出现重复行。...这时可以使用 uniq 命令将这些重复行从输出文件中删除,只留下每条记录的唯一样本。用法:uniq 选项...[输入输出] 主要选项如下。长选项必须使用的参数对于短选项也是必须使用的。...(2)显示文件 happy 中不重复的行,从第二个字段的第二个字符开始进行比较。#uniq -u -1 +1 happy(3)用-c 选项从 uniq 中获取一些统计信息。...这里uniq命令借助管道命令从标准输入设备读取文件,首先使用sort命令对文件进行排序, 然后对排序结果进行操作。(4)删除文件中重复的行并输出到一个新文件。...注意:请不要使用 uniq 或任何其他工具从包含财务或其他重要数据的文件中除去重复行。在这种情况下,重复行几乎总是表示同一金额的另一个交易,将它除去会给会计部造成许多困难。

    57010

    linux中删除文件的最后N行小总结

    -n选项(例如-n -x来打印文件中除最后x行之外的所有行 因此,我们可以使用此选项以直接的方式解决我们的问题: $ head -n -3 rumenz.txt 1 rumenz.com 2 rumenz...sed命令及其地址范围,我们可以快速删除文件中从给定行号开始到最后一行的行: sed 'GIVEN`LINE`NO, $d' input_file 例如,让我们从第5行删除直到rumenz.txt的结尾...但是,如果我们可以颠倒输入文件中的行顺序,问题就会变成从文件中删除前 n 行。一个简单的 sed 单行sed 1,n d可以删除前n行。之后,如果我们再次反转线条,我们的问题就解决了。...tac命令可以反向文件中的行的顺序。...在第一遍中,它会找出文件中的总行数,在第二遍中,我们打印我们想要保留的那些行: $ awk -v n=3 'NR==FNR{total=NR;next} FNR==total-n+1{exit} 1'

    9.1K10

    Python中的加权随机

    我们平时比较多会遇到的一种情景是从一堆的数据中随机选择一个, 大多数我们使用random就够了, 但是假如我们要选取的这堆数据分别有自己的权重, 也就是他们被选择的概率是不一样的, 在这种情况下, 就需要使用加权随机来处理这些数据...简单线性方法 下面是一种简单的方案, 传入权重的列表(weights), 然后会返回随机结果的索引值(index), 比如我们传入[2, 3, 5], 那么就会随机的返回0(概率0.2), 1(概率0.3...加速搜索 上面这个方法看起来非常简单, 已经可以完成我们所要的加权随机, 然是最后的这个for循环貌似有些啰嗦, Python有个内置方法bisect可以帮我们加速这一步 import random import...去掉临时变量 其实在这个方法里面totals这个数组并不是必要的, 我们调整下策略, 就可以判断出weights中的位置 def weighted_choice(weights): rnd = random.random...更多的随机数 如果我们使用同一个权重数组weights, 但是要多次得到随机结果, 多次的调用weighted_choice方法, totals变量还是有必要的, 提前计算好它, 每次获取随机数的消耗会变得小很多

    2.4K30

    随机之美——机器学习中的随机森林模型

    注:你可能需要参考前面的文章:《0x0B 菩提决策树,姻缘算法求》 实际应用中,一般可用随机森林来代替,随机森林在决策树的基础上,会有更好的表现,尤其是防止过拟合。...组合算法中,一类是Bagging(装袋),另一类是Boosting(提升),随机森林便是Bagging中的代表。...因此,随机森林算法中,“随机”是其核心灵魂,“森林”只是一种简单的组合方式而已。随机森林在构建每颗树的时候,为了保证各树之间的独立性,通常会采用两到三层的随机性。...在结点进行分裂的时候,除了先随机取固定个特征,然后选择最好的分裂属性这种方式,还有一种方式,就是在最好的几个(依然可以指定sqrt与log2)分裂属性中随机选择一个来进行分裂。...总结起来,使用随机性的三个地方: 1.随机有放回的抽取数据,数量可以和原数据相同,也可以略小; 2.随机选取N个特征,选择最好的属性进行分裂; 3.在N个最好的分裂特征中,随机选择一个进行分裂; 因此,

    2.1K90

    编写程序,随机产生30个1-100之间的随机整数并存入5行6列的二维列表中,按5行6列的格式输出

    一、前言 前几天在某乎上看到了一个粉丝提问,编写程序,随机产生30个1-100之间的随机整数并存入5行6列的二维列表中,按5行6列的格式输出?这里拿出来跟大家一起分享下。...30个1到100之间的整数 numbers = [random.randint(1, 100) for i in range(30)] # 将生成的数字按5行6列的格式存储到二维列表中 rows =...print("\n") 解释: random.randint(1, 100) 是用来生成1到100之间的随机整数的函数。...for 循环用来将随机数填充到二维列表中。 最后一个 for 循环用来按5行6列的格式输出二维列表中的数字。 运行之后,可以得到预期的结果: 后来看到问答区还有其他的解答,一起来看。...下面是【江夏】的回答: import random # 生成 30 个 1-100 的随机整数,并存入 5 行 6 列的二维列表中 data = [[random.randint(1, 100) for

    88920
    领券