我有一个包含500个成员和他们的电话号码的CSV列表。我尝试过diff工具,但似乎都找不到重复的工具。
我可以使用正则表达式根据成员的电话号码查找重复行吗?
我在Mac上使用Textmate。
非常感谢
发布于 2010-09-27 21:59:40
您在搜索哪些重复项?全部线路还是相同的电话号码?
如果是整行,那么尝试这样做:
sort phonelist.txt | uniq -c | sort -n
你会在底部看到所有的线,不只出现一次。
如果它只是某个列中的电话号码,则使用以下命令:
awk -F ';' '{print $4}' phonelist.txt | uniq -c | sort -n
将“4”替换为带有电话号码的列号,并将“;”替换为您在文件中使用的实际分隔符。
或者给我们这个文件中的一些示例代码行。
编辑
如果数据格式为:name,mobile,phone,uniqueid,group
,则使用以下内容:
awk -F ',' '{print $3}' phonelist.txt | uniq -c | sort -n
在命令行中。
发布于 2010-09-27 22:00:13
是。要实现这一点,请看。但是你可能不想这样做。
发布于 2010-09-27 21:56:55
您可以正常地解析此文件,并检查哪些行是重复的。我认为对于这个问题,RAGEX
是最糟糕的解决方案。
https://stackoverflow.com/questions/3804485
复制相似问题