Python数据分析之贴吧的问与答读取数据库获取question列分词词云

上次爬虫小分队爬取了贴吧中python问题的精品回答,我自己也用scrapy写了一个程序,爬取了一点信息,存入MongoDB数据库中,代码就不上了,今天主要是通过pandas库读取数据,做问与答的文字云。

读取数据库

pandas库读取文件很方便,主要是运用dataframe,首先导入需要的模块;

import pandas as pd
import pymongo
import jieba.analyse

然后连接数据库,读取数据;

client = pymongo.MongoClient('localhost',port = 27017)
test = client['test']
tieba = test['tieba']
data = pd.DataFrame(list(tieba.find()))
data

获取question列

我们知道分词需要的是字符串格式的数据,所以需要通过dataframe的切片提取question这列的数据,并转化为字符串格式。

question_data = ''  #初始化字符串
for i in range(563):   #数字为数据的行数
    index = data.ix[i,:]   #取每行
    question = index['question']  #取每行的question
    question_data = question_data + question
print(question_data) 

分词

这部分以前讲过,贴上代码。

jieba.analyse.set_stop_words('停用词表路径')
tags = jieba.analyse.extract_tags(question_data, topK=50, withWeight=True)
for item in tags:
    print(item[0]+'\t'+str(int(item[1]*1000)))

词云

类似,也可以做出回答的词云。 问:

答:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏知识分享

7-51单片机ESP8266学习-AT指令(测试TCP服务器--51单片机程序配置8266,用手机TCP调试助手发信息给单片机控制小灯的亮灭)

http://www.cnblogs.com/yangfengwu/p/8759294.html 如不做任何说明默认最头上的链接为上一篇链接,末尾的链接为下一篇...

6264
来自专栏Theo Tsao

Markdown语法

732
来自专栏个人分享

Parquet文件结构笔记

  Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目...

922
来自专栏FreeBuf

技术分享:杂谈如何绕过WAF(Web应用防火墙)

0x01开场白 这个议题呢,主要是教大家一个思路,而不是把现成准备好的代码放给大家。 可能在大家眼中WAF(Web应用防火墙)就是“不要脸”的代名词。如果没有他...

1826
来自专栏技术碎碎念

windows API 开发飞机订票系统 图形化界面 (四)

接下来的是录入航班、修改航班信息功能的实现: 1 //录入航班 2 BOOL EntryFlight(HWND hEntryDlg){ 3 4 ...

2765
来自专栏逆向技术

通过游戏外挂.学习逆向技术指超级马里奥.

  逆向就是在没有源代码的情况下.通过汇编.反汇编来逆向一个成品的Exe(也可以是别的.举例是EXE)这样叫做逆向.

541
来自专栏https://www.cnblogs.com/L

Hive篇--相关概念和使用二

分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储。 对于hive中每一个表、分区都可以进一步进行分桶。(可以对列,也可以对表进行分桶) 由列的哈希值除...

1272
来自专栏信安之路

RedTiger 通关学习总结

学习 SQL 注入有两套必刷题,一个是 sqli-labs,这个已经有了成套的 wp 讲解,在上面的网盘里。

610
来自专栏游戏杂谈

利用threshold实现的遮罩引导

点击“开始引导”,则进入引导操作。除指定的按钮可以操作外,其它区域均不可点击。这种应用当新功能或是新产品上线后,用来引导用户来使用产品/功能,是十分有用的。fa...

661
来自专栏PPV课数据科学社区

【学习】七天搞定SAS(一):数据的导入、数据结构

SAS的数据类型 ? 首先,sas的编程大概就两块:Data和PROC,这个倒是蛮清晰的划分。然后目前关注data部分。 SAS的数据类型还真的只有两种:数字和...

35012

扫码关注云+社区