首先,我很抱歉,这也许是一个相当愚蠢的问题,不完全属于这里。
我的问题是:我有两个包含大量文件名的大文本文件,让我们称它们为A和B,我想确定A是否是B的子集,不考虑顺序,即对于A中的每个文件名,查找文件名是否也在B中,否则A不是一个子集。
我知道如何预处理文件(移除文件名本身以外的任何内容,删除不同的大写),但现在我想知道是否有一种简单的方法可以使用shell命令来执行任务。
迪夫可能不起作用对吧?即使我先对两个文件进行“排序”,这样至少两个文件中的文件都会按相同的顺序排列,因为A可能是B的适当子集,diff只会告诉我每一行都是不同的。
同样,如果这个问题不属于这里,最后,如果没有简单的方法,我会编写一个小程序来完成这项工作,但由于我试图更好地处理shell命令,我想先问一下。
发布于 2013-05-02 23:53:45
这样做:
cat b | sort -u | wc
cat a b | sort -u | wc如果得到相同的结果,a是b的子集。
发布于 2013-05-03 06:22:39
下面是如何在awk中实现这一目的
awk '
# read A, the supposed subset file
FNR == NR {a[$0]; next}
# process file B
$0 in a {delete a[$0]}
END {if (length(a) == 0) {print "A is a proper subset of B"}}
' A B发布于 2016-11-18 12:56:45
测试XSD文件是否是WSDL文件的子集:
xmllint --format file.wsdl | awk '{$1=$1};1' | sort -u | wc
xmllint --format file.wsdl file.xsd | awk '{$1=$1};1' | sort -u | wc这适应了RichieHindle以前的answer的优雅概念,使用:
xmllint --format而不是cat,可以很好地打印XML,因此每个XML元素都在一行上,这是sort -u | wc所要求的。其他漂亮的打印命令可能在这里工作,例如用于json的jq .。awk command:剥离前导和尾随(因为两个文件的缩进不同),并在内部折叠。警告:不考虑元素中的XML属性顺序。https://stackoverflow.com/questions/16349543
复制相似问题