前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >获取网页中超链接PY源码

获取网页中超链接PY源码

作者头像
impdx-忧郁的派大星
发布2020-11-03 16:25:07
4540
发布2020-11-03 16:25:07
举报
文章被收录于专栏:impdx-blog

关于源码的使用

  • 使用了request,bs4的库
  • 可以用来抓取网页中的超链接(可以设置规则)。并写入到url.txt中。
  • 我是用来抓创意工坊的mod超链接的。只是做个笔记。方便寻找。 各路大佬也可以来指点指点。
代码语言:javascript
复制
from urllib.request import urlopen
from bs4 import BeautifulSoup
import ssl

ssl._create_default_https_context = ssl._create_unverified_context
url = urlopen('https://steamcommunity.com/app/563560/workshop/')  # 获取网页


bs = BeautifulSoup(url, 'html.parser')  # 解析网页
hyperlink = bs.find_all('a')  # 获取所有超链接
file = open('./url.txt', 'w')

for h in hyperlink:
    hh = h.get('href')
    if hh and '/sharedfiles/filedetails/' in hh and '#comments' not in hh:  # 筛选链接
        print(hh)
        file.write(hh)  # 写入到“urltxt”文件中
        file.write('\n')

file.close()
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 关于源码的使用
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档