文章/答案/技术大牛

发布

社区首页 >问答首页 >如何确定一个文件的内容是否包含在另一个文件的内容中

问如何确定一个文件的内容是否包含在另一个文件的内容中
EN

Stack Overflow用户

提问于 2013-05-02 23:50:05

回答 3查看 1.8K关注 0票数 2

首先，我很抱歉，这也许是一个相当愚蠢的问题，不完全属于这里。

我的问题是:我有两个包含大量文件名的大文本文件，让我们称它们为A和B，我想确定A是否是B的子集，不考虑顺序，即对于A中的每个文件名，查找文件名是否也在B中，否则A不是一个子集。

我知道如何预处理文件(移除文件名本身以外的任何内容，删除不同的大写)，但现在我想知道是否有一种简单的方法可以使用shell命令来执行任务。

迪夫可能不起作用对吧？即使我先对两个文件进行“排序”，这样至少两个文件中的文件都会按相同的顺序排列，因为A可能是B的适当子集，diff只会告诉我每一行都是不同的。

同样，如果这个问题不属于这里，最后，如果没有简单的方法，我会编写一个小程序来完成这项工作，但由于我试图更好地处理shell命令，我想先问一下。

shell

diff

linux

回答 3

Stack Overflow用户

回答已采纳

发布于 2013-05-02 23:53:45

这样做：

cat b | sort -u | wc
cat a b | sort -u | wc

如果得到相同的结果，a是b的子集。

票数 11

Stack Overflow用户

发布于 2013-05-03 06:22:39

下面是如何在awk中实现这一目的

awk '
    # read A, the supposed subset file
    FNR == NR {a[$0]; next}
    # process file B
    $0 in a {delete a[$0]}
    END {if (length(a) == 0) {print "A is a proper subset of B"}}
' A B

票数 0

Stack Overflow用户

发布于 2016-11-18 12:56:45

测试XSD文件是否是WSDL文件的子集：

xmllint --format file.wsdl | awk '{$1=$1};1' | sort -u | wc
xmllint --format file.wsdl file.xsd | awk '{$1=$1};1' | sort -u | wc

这适应了RichieHindle以前的answer的优雅概念，使用：

xmllint --format而不是cat，可以很好地打印XML，因此每个XML元素都在一行上，这是sort -u | wc所要求的。其他漂亮的打印命令可能在这里工作，例如用于json的jq .。
一个规范空白的awk command：剥离前导和尾随(因为两个文件的缩进不同)，并在内部折叠。警告:不考虑元素中的XML属性顺序。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16349543

复制

相似问题

问如何确定一个文件的内容是否包含在另一个文件的内容中
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何确定一个文件的内容是否包含在另一个文件的内容中EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何确定一个文件的内容是否包含在另一个文件的内容中
EN