我有两份文件:
candidates.csv
id,value
1,123
4,1
2,5
50,5blacklist.csv
1
2
5
3
10我想从candidates.csv中删除第一列(id)中包含在blacklist.csv中的值的所有行。id总是数字的。在这种情况下,我希望我的输出如下所示:
id,value
4,1
50,5到目前为止,我的识别重复行的脚本如下所示:
cat candidates.csv | cut -d \, -f 1 | grep -f blacklist.csv -w这给了我输出
1
2现在我需要将这些信息传输回sed/awk/gawk/...删除副本但我不知道怎么做。有什么办法让我在这里继续吗?还是有更好的解决方案呢?我唯一的限制是它必须在bash中运行。
发布于 2018-10-04 14:43:42
关于以下几点:
awk -F, '(NR==FNR){a[$1];next}!($1 in a)' blacklist.csv candidates.csv这是怎么工作的?
awk程序是一系列模式-动作对,编写为:
condition { action }
condition { action }
...其中condition通常是表达式,action是一系列命令。在这里,第一个条件-动作对读为:
(NR==FNR){a[$1];next}如果总记录计数NR等于文件FNR的记录计数(也就是说,如果我们正在读取第一个文件),将所有值存储在数组a中,然后跳到下一个记录(不要做任何其他事情)。!($1 in a),如果第一个字段不在数组a中,则执行默认操作,即打印该行。这将只在第二个文件上工作,因为第一个条件-动作对的条件不存在。发布于 2018-10-04 14:51:09
如果您不太关心candidates.csv文件中行的顺序,可以使用以下方法:
join -v 1 -t, <(sort -t, candidates.csv) <(sort blacklist.csv)-v 1请求第一个文件(排序的candidates.csv)中的所有行,这些行在第一个字段上与第二个文件( blacklist.csv)不匹配。-t,只是将逗号设置为分隔符。
如果您关心candidates.csv文件中的标题行,您可以在排序之前删除它,或者更改顺序。
发布于 2018-10-04 14:48:53
您可以同时使用sed和grep来获得输出
$ sed -e 's/[0-9]+/&\,/g' blacklist.csv > filter.csv
$ grep -Fvf filter.csv candidates.csv
id,value
4,1
50,5sed命令向每个id添加一个,,并将输出添加到一个filter.csv。E是在MacOSX/FreeBSD中解释正则表达式,与GNU sed中的-r相同。
grep使用选项f在文件之间进行比较,然后使用v删除行。F用于固定字符串。
https://stackoverflow.com/questions/52649404
复制相似问题