专栏首页菲宇利用jieba和pyecharts做新闻关键词统计可视化

利用jieba和pyecharts做新闻关键词统计可视化

pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图。

安装pyecharts、jieba

pip install pyecharts jieba

详细代码

新闻原文链接

import jieba
import re
from collections import Counter
cut_words=""
for line in open('text',encoding='utf-8'):
    line.strip('\n')
    line = re.sub("[A-Za-z0-9\'\:\·\—\,\。\“ \”\n\u3000\?\、\'*\',\']", "", line)
    seg_list=jieba.cut(line,cut_all=False)
    cut_words+=(" ".join(seg_list))
all_words=cut_words.split()
# print(all_words)
c=Counter()
for x in all_words:
    if len(x)>1 and x != '\r\n':
        c[x] += 1

print('\n词频统计结果:')
dict={}
for (k,v) in c.most_common(10):# 输出词频最高的前10个词
    dict[k]=v
    # # dict['value']=v
    print("%s:%d"%(k,v))

keyList,valueList = [],[]
for k,v in dict.items():
    keyList.append(k)
    valueList.append(v)
print(keyList,valueList)

# 导入柱状图-Bar
from pyecharts.charts import Bar
bar = Bar()
bar.add_xaxis(keyList)
bar.add_yaxis("新关键字统计",valueList)
bar.render()

运行结果

柱状图结果

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!
本文分享自作者个人站点/博客:https://blog.csdn.net/bbwangj复制
如有侵权,请联系 yunjia_community@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 新闻联播也可以拿来做数据分析?

    在Tushare Pro数据开放平台上,最近上线了近10年CCTV新闻联播文本数据,以及各大财经网站的即时资讯文本。

    龙哥
  • 手把手教你对文本文件进行分词、词频统计和可视化(附源码)

    本文主要涉及的库有爬虫库requests、词频统计库collections、数据处理库numpy、结巴分词库jieba 、可视化库pyecharts等等...

    Python进阶者
  • 利用jieba和wordcloud从新闻中生成词云

    wordcloud 是一个python实现的高效词频可视化工具,除了可以使用各种mask和颜色提供个性化的掩膜,还可以通过api便捷的挑战获得个性化的词云输出。...

    菲宇
  • 手把手教你几种生成词云的方式

    在数据可视化方面,词云一直是一种视觉冲击力很强的方式。对输入的一段文字进行语义分割,得到不同频度的词汇,然后以正比于词频的字体大小无规则的集中显示高频词,简洁直...

    1480
  • 手把手教你完成一个数据科学小项目(9):情感分析与词云

    请先阅读“中国年轻人正带领国家走向危机”,这锅背是不背? 一文,以对“手把手教你完成一个数据科学小项目”系列有个全局性的了解。

    古柳_DesertsX
  • 2020年中央一号文件说了啥?

    2020 年是全面建成小康社会目标实现之年,是全面打赢脱贫攻坚战收官之年。今年的中央一号文件强调了哪些内容呢?本文使用 Python 对 2020 中央一号文件...

    PyStaData
  • 使用pyecharts绘制词云图-淘宝商品评论展示

    词云图是一种用来展现高频关键词的可视化表达,通过文字、色彩、图形的搭配,产生有冲击力地视觉效果,而且能够传达有价值的信息。

    朱卫军
  • [原创]-数据可视化实战项目

    Request Headers 里面是我们用浏览器访问网站的信息,有了信息后就能模拟浏览器访问这也是为了防止网站封禁IP,不过糗事百科一般是不会封IP的,也是公...

    DataScience
  • 干货|Pyecharts如何绘制词云图《三十而已》的微博评论分析

    词云图也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。制作词...

    用户6888863
  • Python数据可视化 词云图 绘制词云的方法总结

    pyecharts是基于echarts的python库,能够绘制多种交互式图表,和其他可视化库不一样,pyecharts支持链式调用。

    叶庭云
  • 美食之旅

    本文中使用的数据是一份美食APP的数据,用来进行数据分析、处理和可视化图形的制作,主要包含内容:

    皮大大
  • 玩转itchat,实现好友信息可视化、聊天机器人及性别模型构建

    前些日子,女朋友拿我手机玩,说我微信好友女生多,当时我就不服了(跪着认错了),然后两人一个个统计性别,我微信好友不算多,但也有300来个,人工统计实在费事,之后...

    罗罗攀
  • 用python爬取4332条粽子数据进行分析

    爬取淘宝数据,本次采用的方法是:Selenium控制Chrome浏览器自动化操作[1]。其实我们还可以利用Ajax接口来构造链接,但是非常繁琐(包含加密秘钥等)...

    朱小五
  • Python有趣|数据可视化那些事(二)

    上文我们使用了Excel可视化,绘制了一个伪《经济学人》图表,这种方法在一定程度上解决了pandas的缺陷:不美观,功能不强大。但其操作起来复杂,手残党表示最不...

    罗罗攀
  • 基于pandas、matplotlib、pyecharts的人工智能相关职位招聘市场数据分析

    容大教育人工智能班数据分析阶段实战项目:人工智能相关职位数据分析 小组成员:雷坤、韦民童、李波、陶宇 项目周期5天,数据分析为第2天的需求。

    潇洒坤
  • 用python爬取4332条粽子数据进行分析,看哪个最受大家欢迎

    爬取淘宝数据,本次采用的方法是:Selenium控制Chrome浏览器自动化操作[1]。其实我们还可以利用Ajax接口来构造链接,但是非常繁琐(包含加密秘钥等)...

    朱小五
  • 用python爬取4332条粽子数据进行分析,揭秘甜咸肉粽的江湖!

    端午节快要到了,甜咸粽子之争也快要拉开帷幕。 小五准备用Python爬取淘宝上的粽子数据并进行分析,看看有什么发现。 爬虫 爬取淘宝数据,本次采用的方法是:S...

    腾讯大讲堂
  • 用 Python 爬取 4332 条数据,揭秘甜咸肉粽的江湖!

    爬取淘宝数据,本次采用的方法是:Selenium控制Chrome浏览器自动化操作[1]。其实我们还可以利用Ajax接口来构造链接,但是非常繁琐(包含加密秘钥等)...

    杰哥的IT之旅

扫码关注云+社区

领取腾讯云代金券