在Python中删除不同文本文件中的重复单词

可以通过以下步骤实现：

首先，需要读取每个文本文件并将其内容存储在一个字符串变量中。可以使用Python的内置函数open()来打开文件，并使用read()方法读取文件内容。
接下来，需要将每个文本文件的内容拆分成单词。可以使用Python的字符串方法split()将字符串拆分成单词列表。
然后，可以使用Python的集合（Set）数据结构来去除重复的单词。集合是一种无序且不重复的数据结构，可以使用set()函数将单词列表转换为集合。
接着，可以将去重后的单词列表重新转换为字符串，并将其写入一个新的文本文件中。可以使用join()方法将单词列表中的单词连接成一个字符串，并使用write()方法将字符串写入文件。

下面是一个示例代码，演示了如何实现上述步骤：

import os

def remove_duplicate_words(file_path):
    # 读取文件内容
    with open(file_path, 'r') as file:
        content = file.read()

    # 拆分成单词列表
    words = content.split()

    # 去除重复的单词
    unique_words = set(words)

    # 将去重后的单词列表转换为字符串
    new_content = ' '.join(unique_words)

    # 写入新的文件
    new_file_path = os.path.splitext(file_path)[0] + '_nodup.txt'
    with open(new_file_path, 'w') as new_file:
        new_file.write(new_content)

    print(f"已生成去重后的文件：{new_file_path}")

# 处理多个文本文件
file_paths = ['file1.txt', 'file2.txt', 'file3.txt']
for file_path in file_paths:
    remove_duplicate_words(file_path)

在上述代码中，remove_duplicate_words()函数接受一个文件路径作为参数，处理该文件并生成去重后的文件。file_paths列表包含要处理的多个文本文件的路径。可以根据实际情况修改文件路径。

这个方法适用于任何文本文件，可以用于清理重复单词，提高文本数据的质量和可读性。

腾讯云相关产品和产品介绍链接地址：