我有两份文件:
candidates.csv
id,value
1,123
4,1
2,5
50,5blacklist.csv
1
2
5
3
10我想从candidates.csv中删除第一列(id)中包含在blacklist.csv中的值的所有行。id总是数字的。在这种情况下,我希望我的输出如下所示:
id,value
4,1
50,5到目前为止,我的识别重复行的脚本如下所示:
cat candidates.csv | cut -d \, -f 1 | grep -f blacklist.csv -w这给了我输出
1
2现在我需要将这些信息传输回sed/awk/gawk/...删除副本但我不知道怎么做。有什么办法让我在这里继续吗?还是有更好的解决方案呢?我唯一的限制是它必须在bash中运行。
发布于 2018-10-04 14:51:09
如果您不太关心candidates.csv文件中行的顺序,可以使用以下方法:
join -v 1 -t, <(sort -t, candidates.csv) <(sort blacklist.csv)-v 1请求第一个文件(排序的candidates.csv)中的所有行,这些行在第一个字段上与第二个文件( blacklist.csv)不匹配。-t,只是将逗号设置为分隔符。
如果您关心candidates.csv文件中的标题行,您可以在排序之前删除它,或者更改顺序。
https://stackoverflow.com/questions/52649404
复制相似问题