今
日
鸡
汤
山映斜阳天接水,芳草无情,更在斜阳外。
大家好,我是Python进阶者。
前几天在Python最强王者交流群【修素】问了一个Python处理text文本数据的实战问题。问题如下:
想请问一下各位大佬,pycharm中怎么导入要分析的text文本?实在是操作了两三个小时还是整不明白……
这里【冷喵】给了一个思路:你想把什么放进去?,他不是open了下么?
【修素】:我想把下载好的32个省份的政府工作报告文本(txt格式)放到项目里进行分析。
【冷喵】:那就放在同一个位置,然后把你那个代码里的文件名改成对应的
【修素】:一开始是不会把文件放在同一个位置,现在试了好几种方式,把压缩包放进去了。但是代码会不会影响呀?
【冷喵】:压缩包格式不是zip么?不是txt 不能直接用 你是文件多么?
【修素】:对的,总共是200多个文件。如果不是压缩包的话,请问还可以怎么导入到pycharm中呀?
【冷喵】:都是txt的话,你就解压放到一个文件夹,然后遍历读取所有文件,将读取的内容放进一个变量,然后扔进去做词频分析。
【修素】:谢谢您,我再去试一试。
【冷喵】:当然,我可以帮你完成这个任务。以下是一个示例代码,它将文件夹内所有的.txt
文件读取并进行分词,然后进行词频统计:
import os
import jieba
from collections import Counter
def read_files(folder_path):
files_content = []
for file_name in os.listdir(folder_path):
if file_name.endswith('.txt'):
file_path = os.path.join(folder_path, file_name)
with open(file_path, 'r', encoding='utf-8') as file:
files_content.append(file.read())
return files_content
def tokenize_and_count_frequency(files_content):
tokenized_words = []
for content in files_content:
# 使用jieba进行分词
words = jieba.cut(content)
tokenized_words.extend(words)
# 进行词频统计
word_frequency = Counter(tokenized_words)
return word_frequency
def main():
folder_path = './your_folder_path' # 修改为你的文件夹路径
files_content = read_files(folder_path)
word_frequency = tokenize_and_count_frequency(files_content)
# 输出词频统计结果
print("词频统计结果:")
for word, freq in word_frequency.most_common():
print(f"{word}: {freq}")
if __name__ == "__main__":
main()
在运行代码之前,请确保你已经安装了jieba
库。你可以使用以下命令来安装:
pip install jieba
在代码中,请将'./your_folder_path'
替换为你存储.txt
文件的文件夹路径。然后,运行代码,它将读取文件夹内所有.txt
文件的内容,进行分词,并统计词频。
【冷喵】:你参考下,我问了下gpt
【修素】:非常谢谢这位热心的大佬!!!
顺利地解决了粉丝的问题。
如果你也有类似这种Python相关的小问题,欢迎随时来交流群学习交流哦,有问必答!
大家好,我是Python进阶者。这篇文章主要盘点了一个Pycharm批量读取text文件的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。