需求从A文件当中查找不存在B文件当中的内容
方案1、
diff -B a.txt b.txt |awk '/</{print $2}'
#如果文件过大diff会超出内存就没法玩了~
方案2、
sort a.txt b.txt b.txt | uniq -u > c.txt
#排序并去重
方案3、
awk '{if(ARGIND==1) {val[$0]}else{if($0 in val) delete val[$0]}}END{for(i in val) print i}' a.txt b.txt > c.txt
其他命令参考:
#拆分文件
split -l 5000000 -d -a 3 c.txt
将c.txt按照每个文件500w行拆分,后缀是数字,并且后缀长度是3