首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

小伙Python爬虫并自制新闻网站,太好玩了

大家好,我又来了,我是银牌厨师豆腐!

我们总是在爬啊爬,爬到了数据难道只是为了做一个词云吗?

当然不!这次我就利用flask为大家呈现一道小菜。

Flask是python中一个轻量级web框架,相对于其他web框架来说简单,适合小白练手。使用Flask+爬虫,教大家如何实时展示自己爬下来的数据到网页上。

先给大家展示一下这个丑丑的网页

(给个面子,别笑)

演示三个功能

整个流程就是简单的三步:

爬取数据

利用实时爬取数据生成词云

利用热点推荐新闻

爬虫部分:

这次爬虫主要利用多线程方式爬取新浪新闻+网易新闻所有栏目新闻信息。

一共14个栏目,两个网站的页面信息都是通过ajax加载完成的,请求对应的栏目链接后,返回的字符串是这样的,仔细观察会发现我们要看的新闻内容被包含在里面

图2

是一个列表样式,

这时候我们就可以用函数将这个字符串处理成一个列表格式

然后下面就可以循环提取出新闻内容了,最后一步就是存储到我们的mysql数据库中

当我们建立好14个栏目的爬虫后,再来编写一个主文件main,利用简单的多线程方法启动14个文件并行爬取14个栏目的新闻

对了,爬虫之后我们还是做了词云的,哈哈哈

点击,静待片刻

今日热点词汇

flask部分:

辅材处理完成,现在我们开始做主菜部分。

, 用于渲染我们的h5页面

,这个是flask的必写项,必须先定义模块名,用于设置路由路径(转接4)

跨域请求,一般用于ajax请求,定义app路由中所有路径都适用于跨域请求

,当你想使用mytest功能时候,设置了/test作用该函数的访问路径。例:http://49.233.23.230:5000/test

,最后就是指定监听地址端口为 5000,是调试环境,用于生产环境时可更改为Flase。

这样一个个小小的Flask页面接口就完成了

接口写好了,下面我们来搞个h5页面,我们首先来建立一个简单hmtl文件(举例新闻推荐页面)

我们将从数据库中获取到的数据传入到h5文件

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210322A04HWS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券