首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何确定一个文件的内容是否包含在另一个文件的内容中

如何确定一个文件的内容是否包含在另一个文件的内容中
EN

Stack Overflow用户
提问于 2013-05-02 23:50:05
回答 3查看 1.8K关注 0票数 2

首先,我很抱歉,这也许是一个相当愚蠢的问题,不完全属于这里。

我的问题是:我有两个包含大量文件名的大文本文件,让我们称它们为A和B,我想确定A是否是B的子集,不考虑顺序,即对于A中的每个文件名,查找文件名是否也在B中,否则A不是一个子集。

我知道如何预处理文件(移除文件名本身以外的任何内容,删除不同的大写),但现在我想知道是否有一种简单的方法可以使用shell命令来执行任务。

迪夫可能不起作用对吧?即使我先对两个文件进行“排序”,这样至少两个文件中的文件都会按相同的顺序排列,因为A可能是B的适当子集,diff只会告诉我每一行都是不同的。

同样,如果这个问题不属于这里,最后,如果没有简单的方法,我会编写一个小程序来完成这项工作,但由于我试图更好地处理shell命令,我想先问一下。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2013-05-02 23:53:45

这样做:

代码语言:javascript
复制
cat b | sort -u | wc
cat a b | sort -u | wc

如果得到相同的结果,a是b的子集。

票数 11
EN

Stack Overflow用户

发布于 2013-05-03 06:22:39

下面是如何在awk中实现这一目的

代码语言:javascript
复制
awk '
    # read A, the supposed subset file
    FNR == NR {a[$0]; next}
    # process file B
    $0 in a {delete a[$0]}
    END {if (length(a) == 0) {print "A is a proper subset of B"}}
' A B
票数 0
EN

Stack Overflow用户

发布于 2016-11-18 12:56:45

测试XSD文件是否是WSDL文件的子集:

代码语言:javascript
复制
xmllint --format file.wsdl | awk '{$1=$1};1' | sort -u | wc
xmllint --format file.wsdl file.xsd | awk '{$1=$1};1' | sort -u | wc

这适应了RichieHindle以前的answer的优雅概念,使用:

  1. xmllint --format而不是cat,可以很好地打印XML,因此每个XML元素都在一行上,这是sort -u | wc所要求的。其他漂亮的打印命令可能在这里工作,例如用于json的jq .
  2. 一个规范空白的awk command:剥离前导和尾随(因为两个文件的缩进不同),并在内部折叠。警告:不考虑元素中的XML属性顺序。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16349543

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档