TXT文件是一种纯文本文件,它只包含基本的字符,如字母、数字和标点符号,不包含任何格式信息或特殊编码。每个字符在TXT文件中通常占用一个字节(对于ASCII字符)或两个字节(对于非ASCII字符,如中文)。
从字符限制的角度来看,TXT文件可以分为:
原因:
解决方法:
假设我们有一个非常大的TXT文件,需要将其分割成多个小文件,每个文件包含不超过1000行。
def split_txt_file(input_file, output_prefix, max_lines=1000):
with open(input_file, 'r', encoding='utf-8') as infile:
lines = infile.readlines()
file_count = 0
line_count = 0
for i, line in enumerate(lines):
if line_count == max_lines:
with open(f'{output_prefix}_{file_count}.txt', 'w', encoding='utf-8') as outfile:
outfile.writelines(lines[line_count-max_lines:line_count])
file_count += 1
line_count = 0
line_count += 1
# Write remaining lines to the last file
if line_count > 0:
with open(f'{output_prefix}_{file_count}.txt', 'w', encoding='utf-8') as outfile:
outfile.writelines(lines[line_count-max_lines:])
# 使用示例
split_txt_file('large_file.txt', 'small_file')
这段代码将一个大TXT文件分割成多个小文件,每个文件最多包含1000行。你可以根据需要调整max_lines
参数。