首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

python通用论坛正文提取pytho

总共的代码,算上中间的过程处理也不超过500行,代码思想也还比较简单,主要是根据论坛的短文本特性和楼层之间内容的相似来完成的。...(通俗点说就是去噪去噪去噪,然后只留下相对有规律的日期,内容) 前期准备 软件和开发环境: Pycharm,Python2.7,Linux系统 用的主要Python包: jieba, requests...+ " " + str(dic.get(word_weight[0], 'not found')) + '\n') 统计出来然后经过我们测试和筛选得出的停用词有这些 回帖 积分 帖子 登录 论坛...经过观察,所有的论坛中日期的形式只有5种(目前只看到5种,当然后期可以加上)。我们可以用正则匹配出日期所在的行,根据两个日期所在行数的中间所夹的就是评论内容和用户名来完成我们的评论内容提取。...才疏学浅,刚学了几个月python,代码难免有不合理的地方,望各位提出宝贵意见。 个人博客 8aoy1.cn

75710
领券