数据告诉你:四十年来政府都在为何事“烧脑”?

3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕。国务院总理李克强作政府工作报告。澎湃新闻整理了中国政府网上1978年至2017年共计40份《政府工作报告》中的常青词汇。结果显示,“发展”、“建设”、“经济”、“改革”等词语在过去40年中一直高频出现。

还有部分词语愈发频繁地出现在《政府工作报告》中。“创新”,1997年后开始被频频提起,因其增长趋势,澎湃新闻将此类词语称为“喇叭形词语”,类似的词语还有“就业”、“创业”、“民生”等。

对比部分关键词在这40年间的趋势变化,“农业”与“工业”相比,在近四十年里被提及状况相对稳定,这与长期以来三农问题备受重视的现象相关。2000年以来,“制造业”与“服务业”几乎同时开始被提及,但是“服务业”的被提及率几乎都高于“制造业”。

有些词虽然在《政府工作报告》里出现得少,但是他们首次出现的时间点都反映了当年中国人关注的热点问题。

分析方法:

  • 1、本文所有原始文本材料来自中国政府网1978年至2017年政府工作报告。
  • 2、本文使用jieba分词(https://github.com/fxsjy/jieba/),其自称”做最好的 Python 中文分词组件“。采用精确分词模式,避免重复分词和歧义。分词结果均去掉数字、单字、标点符号。
  • 3、为增加分词正确率,在jieba分词的基础上加入自定义词典,自定义词典主要包含了往年人民网和新华网统计的两会热词。
  • 4、在分词基础上,采用TF-IDF加权技术。词语的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文使用的语料库即1978年至2017年政府工作报告文本。
  • 5、涉及合并的词语:反腐包括了反腐倡廉、反腐败、腐败、反腐;城镇包括了城市、城镇;雾霾包括了PM2.5、雾霾。

来源:澎湃新闻

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2017-03-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

统计学发展方向的选择

24970
来自专栏量子位

谷歌剧变:李飞飞李佳离职后,现在轮到云CEO出局

李飞飞离职了,李佳离职了,现在连她们的“老板”——谷歌云创始CEO黛安·格林(Diane Greene)也走了。

8510
来自专栏飞总聊IT

妈呀,亚马逊一女嫁二夫了!

去年秋天,亚马逊决定在西雅图以外开设第二中心的消息自亚马逊宣布以来,全北美都沸沸扬扬的。2017年10月,包括加拿大,墨西哥和美国的238个城市向亚马逊提交了成...

11240
来自专栏点滴科技资讯

区块链让我们反思资本主义

本文节选自作者新书《区块链选择:反思宏观经济政策和经济理论》 我们大多数人都生活在资本主义思潮占据政治和经济主导的国家中,所以我们每个人都会认为资本主义是一直...

41390
来自专栏AI科技评论

如何看待AI学者大规模从校园“出走”到工业界?

最近几年时间里, 多伦多大学 Geoffrey Hinton 加入谷歌,纽约大学的 Yann LeCun 到了 Facebook,斯坦福大学的吴恩达加入百度,卡...

30940
来自专栏大数据文摘

文本分析40年政府工作报告 发现了这些关键词

16020
来自专栏机器人网

3D打印为你的时尚生活带来哪些改变?

随着3D打印技术的不断发展,生产商已经可以随心所欲的打印出新颜色、新材质的作品了。意大利公司Gruppo Meccaniche Luciani近日便利用Stra...

31450
来自专栏PPV课数据科学社区

【聚焦】大数据帮你洗脑:你是如何混淆因果关系的

这是一个人人都谈大数据的时代,不过数据真的是有益的吗?其实不一定,数据经常也会忽悠人。 请一句话评价下列事件(假设数据是真实的): 研究发现,越是成功人士,睡眠...

32160
来自专栏AI科技大本营的专栏

一周AI看点 | 北京约谈比特币交易平台 今日头条引入AI技术大牛

本期一周AI看点包括行业新闻、技术应用、技术前沿、大咖观点以及投融资等方面。 行业 监管接踵而至,北京约谈比特币交易平台 证券时报消息,北京市监管机构于今日对辖...

32140
来自专栏新智元

AI 只会让你工资上涨:谷歌施密特主席话丰年

【新智元导读】在巴黎举行的 Viva 技术大会上,施密特作为首席讲者发言。他指出:机器学习和人工智能将为广泛的行业(包括农业、能源、时尚和医疗)提供机会,即使它...

37490

扫码关注云+社区

领取腾讯云代金券