首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Power BI抓取豆瓣热门电影数据

Power BI抓取豆瓣热门电影数据

作者头像
wujunmin
发布2021-09-07 16:39:41
发布2021-09-07 16:39:41
1.8K0
举报
文章被收录于专栏:wujunminwujunmin

豆瓣电影首页有最近的热门推荐,如何将这些信息批量加载到Power BI当中?

点击首页右侧的“更多”,可以看到完整的热门电影列表,网址为

https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

在Power BI Desktop 点击主页-获取数据-Web,输入以上网址,即可看到下图中的信息:

可以看到已经非常智能,Power BI帮我们自动提取了电影的名称及豆瓣评分,并生成表格。但是,该信息过于简单,如何图文并茂抓取?上图左下角的“使用示例添加表”可以帮我们零代码轻松抓取电影海报,电影链接等内容。

点击“使用示例添加表”,在第一列输入两部电影,Power BI即自动识别其中规律,提取了该页20部电影的名字。类似的,评分也同样手动输入几个(一两个不行就输入三四个,使得Power BI更好的识别你需要什么)。

接下来提取每部影片的网址,以便后续阅读详细信息。打开任一一部电影,发现豆瓣为每部电影进行了唯一编号,比如《绅士们》的编号是“30211998”。

返回Power BI,将该编号粘贴到新列,软件自动提示你可能需要什么,单击该链接

第二部电影同样处理,这时Power BI已经知道你要干什么了,所有链接提取完毕。

接下来是海报图片,Chrome浏览器鼠标右键可以获取海报的网址,例如《绅士们》的海报地址是:

https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2592522995.jpg

其中"p2592522995"显然是唯一编号,和影片地址一样处理,得到20部电影海报地址。数据加载到Power BI后,将电影页面地址的数据类别标记为"Web URL",将海报的地址标记为"图像URL"。

可视化方面可以自行发挥,比如可以做个带超链接的表格(使用条件格式),链接到豆瓣详情页。

也可以做些卡片:

此处只提取了第一页内容,如需同时提取多页,则需使用Power Query的自定义函数功能。可以翻看我前期的文章,或者参考《Power BI商业数据分析项目实战》这本书第2-5章内容。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 wujunmin 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档