我想使用Linux命令从一个以制表符分隔的大文件中删除重复的单词/字符串。
names john, cnn, mac, tommy, mac, patrick, ngc, discovery, john, cnn, adam, patrick
cities san jose, santa clara, san franscisco, new york, san jose, santa clara
以上是文件格式,去掉重复的单词后,我想保留制表符和逗号。
names john, cnn, mac, tommy, patrick,
C代码非常简单:从一个名为file_bib1的文件中获取每一行文本以供进一步分析(尚未实现)。代码如下:
int main ()
{
FILE * fp;
char *a;
int check;
int end = 0;
long int size;
long int start = 0;
fp = fopen("file_bib1", "r");
while ( end != 1 )
{
size = 0;
if (ftell(fp) != 0)
start = ftell(fp) + 1;
fseek(fp, s