首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

linux-两个文件交集、并集、差集

问题: 如何得到两个文件交集、并集和差集? 交集两个文件中都出现的行 并集:两个文件的所有行加起来,去掉重复 差集:在一个文件存在,而在另一个文件不存在。 ?...sort:用于将文本文件内容加以排序 uniq:删除文件重复的行,得到文件唯一的行 交集 sort a.txt b.txt | uniq -d (用sort将a.txt b.txt文件进行排序,uniq...使得两个文件的行唯一,使用-d输出两个文件次数大于1的内容,即是得到交集) 并集 sort a.txt b.txt | uniq (将a.txt b.txt文件进行排序,uniq使得两个文件的内容为唯一的...,即可得到两个文件的并集) 差集 a.txt-b.txt: sort a.txt b.txt b.txt | uniq -u (将两个文件排序,最后输出a.txt b.txt b.txt文件只出现过一次的内容...comm:用于比较两个已排过序的文件 交集 comm -12 a.txt b.txt 差集 a.txt-b.txt: comm -23 a.txt b.txt b.txt-a.txt: comm -13

13.7K31
您找到你想要的搜索结果了吗?
是的
没有找到

linux 文件交集、并集

(1)两个文件交集,并集 前提条件:每个文件不得有重复行 1. 取出两个文件的并集(重复的行只保留一份) cat file1 file2 | sort | uniq > file3 2....取出两个文件交集(只留下同时存在于两个文件文件) cat file1 file2 | sort | uniq -d > file3 3....删除交集,留下其他的行 cat file1 file2 | sort | uniq -u > file3 (2)两个文件合并 一个文件在上,一个文件在下 cat file1 file2 > file3...一个文件在左,一个文件在右 paste file1 file2 > file3 (3)一个文件去掉重复的行 sort file |uniq 注意:重复的多行记为一行,也就是说这些重复的行还在...sort file |uniq –u 上面的命令可以把重复的行全部去掉,也就是文件的非重复行!

2K30

linux 文件比较

Creating new file" date > $HOME/testing fi else echo "sorry .you do not have a home directory" fi 第一个检查用-e比较来判断用户是否有...如过有,下一个-e比较会检查并判断testing文件是否存在与$home目录。如果不存在,shell脚本会用单个大于号(输出重定向符号)来用date命令的输出创建一个新文件。...第二次运行这个shell脚本时,他会使用双大于号,这样他就能将date的输出追加到已经存在的文件后面。 '>'表示如果文件不存在 则创建文件,如果文件存在 则清空文件并输出。'...>>'表示 如果文件存在 则追加输出到文件后。 检查文件 -e比较适用于文件和目录。要确定指定的对象是个文件,必须用-f比较: #!...-r比较判断出我没有这个文件的读权限,所以test 命令失败了,而且bash shell 执行了if-then语句的else部分。 检查空文件 #!

2.1K20

ABAP 取两个内表的交集 比较两个内表的不同

SAP自带的函数: CTVB_COMPARE_TABLES和BKK_COMPARE_TABLES; 似乎可以比较两个内表,得出第二个内表不同于第一个内表的部分...因为,我在测试数据时,发现这两个函数的效果不那么简单。 如果上述函数确实可以,提取两个内表不同部分,则我可以据此做两次比较,得到两个内表的交集。...所以,我先用另外一种方式解决了-自己写了一个提取两个内表交集的函数,供大家检阅: *" IMPORTING *" VALUE(ITAB1) TYPE INDEX TABLE...以下转自华亭博客:感谢华亭的分享: 函数模块:CTVB_COMPARE_TABLES 这个函数模块比较两个内表,将被删除、增加和修改的内表行分别分组输出。...输入参数: TABLE_OLD:旧表 TABLE_NEW:新表 KEY_LENGTH:键长度,指定内表的前若干个字节(在 Unicode 系统为字符,因此指定长度内不能存在数值类型的字段)为主键

2.7K30

php 比较获取两个数组相同和不同元素的例子(交集和差集)

1、获取数组相同元素 array_intersect()该函数比较两个(或更多个)数组的键值,并返回交集数组,该数组包括了所有在被比较的数组(array1), 同时也在任何其他参数数组(array2...(或更多个)数组的键名和键值,并返回交集,与 array_intersect() 函数 不同的是,本函数除了比较键值, 还比较键名。...> // Array ( [a] => red [b] => green [c] => blue/ / ) 2、获取数组不同元素 array_diff() 函数返回两个数组的差集数组。...该数组包括了所有在被比较的数组,但是不在任何其他参数数组的键值。 在返回的数组,键名保持不变。 // Array ( [d] => yellow ) array_diff_assoc() 函数用于比较两个(或更多个)数组的键名和键值 ,并返回差集。 <?

3K00

使用布隆过滤器求两个文件交集

本文将以求两个文件共同元素为例,探讨一种基于布隆过滤器的高效算法。问题描述假设有文件A和文件B,各包含50亿个url,每个url 64字节,内存限制为4G。要求找出A和B的共同url。...这种方法可以控制每次内存使用,但需要对两个文件多轮遍历。当数据规模极大时,读写IO成本非常高。再一种方法是使用外部排序算法。先分别对A和B进行排序,然后归并式地求交集。...// 判断每个url是否在过滤器A print(url); // 如果存在,则输出 } } }}这个示例先初始化了两个布隆过滤器,然后分别加载两个文件的url,最后判断文件...B的url是否在过滤器A,从而找出交集。...算法实现基于布隆过滤器,可以设计一个求两个文件交集的算法:根据文件A的数据规模和可接受的误判率,初始化布隆过滤器A;遍历文件A,将每个url输入到过滤器A;同样初始化过滤器B,遍历文件B将元素输入过滤器

34830

php 比较获取两个数组相同和不同元素的例子(交集和差集)

1、获取数组相同元素 array_intersect()该函数比较两个(或更多个)数组的键值,并返回交集数组,该数组包括了所有在被比较的数组(array1), 同时也在任何其他参数数组(array2...(或更多个)数组的键名和键值,并返回交集,与 array_intersect() 函数 不同的是,本函数除了比较键值, 还比较键名。...// Array ( [a] = red [b] = green [c] = blue ) 2、获取数组不同元素 array_diff() 函数返回两个数组的差集数组。...该数组包括了所有在被比较的数组,但是不在任何其他参数数组的键值。 在返回的数组,键名保持不变。 <?...// Array ( [d] = yellow ) array_diff_assoc() 函数用于比较两个(或更多个)数组的键名和键值 ,并返回差集。 <?

2.5K31

比较两个vcf文件的多种实现方法

有粉丝邮件求助,给了我两个vcf文件,旧的vcf文件走的是标准的bwa+gatk流程,参考基因组是hg19,新的文件参考基因组是hg38,也是gatk标准流程。...想有比较它们,首先得保证两个vcf文件的参考基因组一致,因为版本不一致,所以需要使用CrossMap等软件进行参考基因组版本转换,然后里使用 SnpSift 软件的 Concordance 命令比较它们...image-20200711195600818 最后看专业的软件进行两个vcf文件比较 这里使用 SnpSift 软件的 Concordance 命令,代码如下: java -Xmx1g -jar...但是可以继续细致的探索 comp.results.txt 文件,拆分染色体后,继续统计上面提到的6种情况发生的频次。那就出一个学徒作业吧,比较两个vcf文件,然后区分染色体绘制韦恩图。...第3阶段:元字符,通配符及shell的各种扩展,从此linux操作不再神秘! 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。 第5阶段:任务提交及批处理,脚本编写解放你的双手。

2.7K20
领券