文章/答案/技术大牛

发布

python数据分析

共 21 篇文章

Python数据分析师养成记

Python数据分析之jieba库的运用步骤词云制作《斗破苍穹》词云

Python数据分析之锁具装箱问题问题重述问题分析建模与求解

Python数据分析之一元线性回归问题Python方差分析结论

Python数据分析之简书七日热门数据分析七日热门的文章发布日期排名

Python数据分析之贴吧的问与答读取数据库获取question列分词词云

Python数据分析之pandas数据可视化折线图条形图pandas绘图乱码解决

Python数据分析之groupby语法糖对分组进行迭代语法糖一：选取一个或多个列

Python数据分析之dataframe索引会这个就行啦

Python数据分析之dataframe的groupbygroupby函数highcharts绘图

Python数据分析之读取文件读取CSV读取Excel读取MySQL读取MongoDB

Python数据分析之merge使用

Python数据分析之matplotlib（二）

Python数据分析之matplotlib（一）

Python数据分析之小鲜肉粉丝情况数据预处理数据分析

清单首页python数据分析文章详情

清单「python数据分析」 12/21

Python数据分析之贴吧的问与答读取数据库获取question列分词词云

罗罗攀

上次爬虫小分队爬取了贴吧中python问题的精品回答，我自己也用scrapy写了一个程序，爬取了一点信息，存入MongoDB数据库中，代码就不上了，今天主要是通过pandas库读取数据，做问与答的文字云。

读取数据库

pandas库读取文件很方便，主要是运用dataframe，首先导入需要的模块；

import pandas as pd
import pymongo
import jieba.analyse

然后连接数据库，读取数据；

client = pymongo.MongoClient('localhost',port = 27017)
test = client['test']
tieba = test['tieba']
data = pd.DataFrame(list(tieba.find()))
data

获取question列

我们知道分词需要的是字符串格式的数据，所以需要通过dataframe的切片提取question这列的数据，并转化为字符串格式。

question_data = ''  #初始化字符串
for i in range(563):   #数字为数据的行数
    index = data.ix[i,:]   #取每行
    question = index['question']  #取每行的question
    question_data = question_data + question
print(question_data)

分词

这部分以前讲过，贴上代码。

jieba.analyse.set_stop_words('停用词表路径')
tags = jieba.analyse.extract_tags(question_data, topK=50, withWeight=True)
for item in tags:
    print(item[0]+'\t'+str(int(item[1]*1000)))

词云

类似，也可以做出回答的词云。问：

答：

python数据分析

Python数据分析之贴吧的问与答读取数据库获取question列分词词云

读取数据库

获取question列

分词

词云

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐