首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何根据另一个文件的列表值从csv文件中删除行?

如何根据另一个文件的列表值从csv文件中删除行?
EN

Stack Overflow用户
提问于 2018-10-04 14:36:34
回答 3查看 5.9K关注 0票数 4

我有两份文件:

candidates.csv

代码语言:javascript
运行
复制
id,value
1,123
4,1
2,5
50,5

blacklist.csv

代码语言:javascript
运行
复制
1
2
5
3
10

我想从candidates.csv中删除第一列(id)中包含在blacklist.csv中的值的所有行。id总是数字的。在这种情况下,我希望我的输出如下所示:

代码语言:javascript
运行
复制
id,value
4,1
50,5

到目前为止,我的识别重复行的脚本如下所示:

代码语言:javascript
运行
复制
cat candidates.csv | cut -d \, -f 1 | grep -f blacklist.csv -w

这给了我输出

代码语言:javascript
运行
复制
1
2

现在我需要将这些信息传输回sed/awk/gawk/...删除副本但我不知道怎么做。有什么办法让我在这里继续吗?还是有更好的解决方案呢?我唯一的限制是它必须在bash中运行。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2018-10-04 14:43:42

关于以下几点:

代码语言:javascript
运行
复制
 awk -F, '(NR==FNR){a[$1];next}!($1 in a)' blacklist.csv candidates.csv

这是怎么工作的?

awk程序是一系列模式-动作对,编写为:

代码语言:javascript
运行
复制
condition { action }
condition { action }
...

其中condition通常是表达式,action是一系列命令。在这里,第一个条件-动作对读为:

  • (NR==FNR){a[$1];next}如果总记录计数NR等于文件FNR的记录计数(也就是说,如果我们正在读取第一个文件),将所有值存储在数组a中,然后跳到下一个记录(不要做任何其他事情)。
  • !($1 in a),如果第一个字段不在数组a中,则执行默认操作,即打印该行。这将只在第二个文件上工作,因为第一个条件-动作对的条件不存在。
票数 11
EN

Stack Overflow用户

发布于 2018-10-04 14:51:09

如果您不太关心candidates.csv文件中行的顺序,可以使用以下方法:

代码语言:javascript
运行
复制
join -v 1 -t, <(sort -t, candidates.csv) <(sort blacklist.csv)

-v 1请求第一个文件(排序的candidates.csv)中的所有行,这些行在第一个字段上与第二个文件( blacklist.csv)不匹配。-t,只是将逗号设置为分隔符。

如果您关心candidates.csv文件中的标题行,您可以在排序之前删除它,或者更改顺序。

票数 1
EN

Stack Overflow用户

发布于 2018-10-04 14:48:53

您可以同时使用sedgrep来获得输出

代码语言:javascript
运行
复制
$ sed -e 's/[0-9]+/&\,/g' blacklist.csv > filter.csv
$ grep -Fvf filter.csv candidates.csv
id,value
4,1
50,5

sed命令向每个id添加一个,,并将输出添加到一个filter.csvE是在MacOSX/FreeBSD中解释正则表达式,与GNU sed中的-r相同。

grep使用选项f在文件之间进行比较,然后使用v删除行。F用于固定字符串。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52649404

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档