Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【爬虫】(三)lo4d.com

【爬虫】(三)lo4d.com

作者头像
sidiot
发布于 2023-08-26 11:36:10
发布于 2023-08-26 11:36:10
31400
代码可运行
举报
文章被收录于专栏:技术大杂烩技术大杂烩
运行总次数:0
代码可运行

前言

因为毕设是基于机器学习的,所以需要大量的样本来训练模型和检验成果,因此,通过爬虫,在合法合规的情况下,爬取自己所需要的资源,在此进行记录;

本次爬取的网站是 https://www.lo4d.com/

总的代码都会在 运行 中贴出...

再次申明:本博文仅供学习使用,请勿他用!!!  

成果

观察

页面还是比较简洁的,可以直接按目录分类来进行之后的操作;

接下来就以 Audio & Video 目录为例进行操作;

进入单个软件的详情页;

同时观察下载区域,以及相关的 URL;

发现这个网站对于软件的详细信息展示的很到位,良心!

分析

大致浏览之后,接下来就是进行分析以及分步操作了;

1、先请求一下网页,看看是否能请求成功;

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import requests
url = "https://en.lo4d.com/windows/audio-video-software"
print(requests.get(url, headers=headers, proxies=proxies).status_code)

# 200

2、接下来随机点开一个文件的镜像网站看看能不能成功下载;

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import requests
from lxml import etree

url = "https://videopad-free.en.lo4d.com/download/mirror-ex1"
resp = requests.get(url, headers=headers, proxies=proxies)
print(resp.status_code)
html = etree.HTML(resp.text)
href = html.xpath("/html/body/div[3]/div[2]/div/div[1]/div/ul/li[1]/a/@href")[0]
with open('test.exe', "wb") as f:
    f.write(requests.get(href, headers=headers, proxies=proxies).content)
    
# 下载成功

既然是具备可行性的,那么接下来就可以开始进入正式的分析过程了;

3、页数的话,随意看了几个目录,好像都不是很多,就到时候手动输入即可;

4、获取某页中的所有软件下载地址;

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def get_detail_url(url):
    html = etree.HTML(requests.get(url, headers=headers, proxies=proxies).text)
    lis = html.xpath("/html/body/div[2]/div/main/ul/li")
    urls = []
    for li in lis:
        urls.append(li.xpath("./article/h3/a/@href")[0].replace("/windows", "/download"))
    return urls

5、锁定镜像区域,选择镜像地址,获取需要的信息;

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def get_info(url):
    html = etree.HTML(requests.get(url, headers=headers, proxies=proxies).text)
    new_url = html.xpath("/html/body/div[2]/div/div[1]/main/div/section[1]/ul[1]/li[1]/a/@href")[0]
    new_html = etree.HTML(requests.get(new_url, headers=headers, proxies=proxies).text)
    down_url = new_html.xpath("/html/body/div[3]/div[2]/div/div[1]/div/ul/li[1]/a/@href")[0]
    name = new_html.xpath("/html/body/div[3]/div[3]/dl/dd[1]/text()")[0]
    info = {"name":name, "url":down_url}
    return info

# {'name': 'vpsetup.exe', 'url': 'https://www.lo4d.com/get-file/videopad-free/507d856d49f52f00265b1037d4df1629/'}

6、最后一步,实现下载;

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def download(url):
    info = get_info(url)
    with open(info['name'], "wb") as f:
        f.write(requests.get(info['url'], headers=headers, proxies=proxies).content)

7、自己加上多线程,异常捕获等;

运行

这板块现在有版权风险,不能贴全部的代码,点这里;  

后记

仅仅用来记录毕设期间所爬过的网站;

再次申明:本博文仅供学习使用,请勿他用!!!

📝 上篇精讲:【爬虫】(二)windows10download.com

💖 我是 𝓼𝓲𝓭𝓲𝓸𝓽,期待你的关注;

👍 创作不易,请多多支持;

🔥 系列专栏: 爬虫专栏

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-10-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
21天打造分布式爬虫-数据解析实战(三)
3.1.豆瓣电影 使用lxml import requests from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36', 'Referer':'https://movie.douban.com/' } url = 'ht
zhang_derek
2018/08/01
3770
Python的Xpath介绍和语法详解
XPath是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历
Lansonli
2021/10/09
4.3K0
大数据分析考科目三到底哪里容易被挂
就在上周五, 也就是5月24号, 也就是本狗的阳历生日的这天, 本狗考了科目三, 结果是:“唉”, 没想到过了。用一句小时候经常听的话来讲这次的成绩就是——“一根油条, 俩个鸡蛋”。厉害吧!!!
Python知识大全
2020/02/13
4850
大数据分析考科目三到底哪里容易被挂
Python数据分析之猫眼电影TOP100
如果大家经常阅读Python爬虫相关的公众号,都会是以爬虫+数据分析的形式展现的,这样很有趣,图表也很不错,今天了,我就来分享上一次在培训中的一个作品:猫眼电影爬虫及分析。 通过猫眼电影TOP100榜的爬虫,然后进行可视化,让学员体会到,小数据爬虫也能玩出这样的花样来。
罗罗攀
2018/12/26
1.2K0
如何让你在众多二手车中挑中满意的?python帮你实现(附源码)
老司机带你去看车,网上的几千条的二手车数据,只需几十行代码,就可以统统获取,保存数据到我们本地电脑上
松鼠爱吃饼干
2020/09/15
4240
如何让你在众多二手车中挑中满意的?python帮你实现(附源码)
Python爬虫之xpath语法及案例使用
我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数据解析的方法,也就是本章要介绍的Xpath表达式。
钢铁知识库
2022/08/20
1.2K0
Python爬虫之xpath语法及案例使用
requests+lxml+xpath爬取电影天堂
我们要爬取的是最新电影,在该界面中,我们发现,具体的信息存储在每个名字的链接中,因此我们要获取所有电影的链接才能得到电影的信息。同时我们观察url,发现
西西嘛呦
2020/08/26
8000
Python爬虫 爬取豆瓣电影Top250信息
文章目录 一、分析网页 翻页查看url变化规律: 第一页:https://movie.douban.com/top250?start=0&filter= 第二页:https://movie.dou
叶庭云
2020/09/17
3K0
Python爬虫   爬取豆瓣电影Top250信息
Python素材下载爬虫,ui素材下载爬取采集源码
Uimaker是为UI设计师提供学UI设计的专业UI平台,拥有UI教程、UI素材、ICON、图标设计UI、手机UI、ui设计师招聘、软件界面设计、后台界面、后台模版等相关内容,快来uimaker学UI设计。
二爷
2020/07/22
2.5K0
Python素材下载爬虫,ui素材下载爬取采集源码
爬取豆瓣电影TOP200(改进)
版权声明:Copyright © https://blog.csdn.net/zzw19951261/article/details/81042237
zhengzongwei
2019/07/31
4310
XPath语法和lxml模块
xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。
用户2200417
2022/02/18
1.3K0
【爬虫】爬取女神套图
目标URL:http://www.win4000.com/meinvtag4_1.html
天道Vax的时间宝藏
2021/08/11
9610
爬虫学习
安装Anaconda(集成环境), 安装成功后能够提供一种基于浏览器的可视化工具 ---Jupyter.
py3study
2020/01/17
2.1K0
Python素材下载爬虫,多线程rar下载爬虫
一个多线程素材下载爬虫,实现多线程素材下载,包含素材包rar,素材图及素材描述,应用了经典的生产者与消费者模式,不过数据没有下载全,容易出现卡死的问题,期待后期能够解决相关问题,可以算是一个半成品,供大家参考和学习,有更好的多线程解决方案也可以交流!
二爷
2020/07/22
7950
Python素材下载爬虫,多线程rar下载爬虫
Python爬虫设置代理
在写爬虫爬取github数据的时候,国内的ip不是非常稳定,在测试的时候容易down掉,因此需要设置代理。本片就如何在Python爬虫中设置代理展开介绍。
花猪
2022/02/22
1.2K0
Python爬虫设置代理
初学者的20个爬虫经典案例视频_李昌钰水门事件20集大经典案例
链接:aHR0cHM6Ly9iai5mYW5nLmxpYW5qaWEuY29tL2xvdXBhbi8=
全栈程序员站长
2022/11/07
1.2K0
初学者的20个爬虫经典案例视频_李昌钰水门事件20集大经典案例
热血动漫番太好看了!用Python爬取了1T的动漫,内存都爆了。
最近被室友安利热血动漫番《终末的女武神》和《拳愿阿修罗》,太上头了周末休息熬夜看完了。不过资源不太好找,辣条一怒爬取了资源,这下可以看个够了。室友崇拜连连,想起了我的班花,快点开学啊,阿西吧...
润森
2022/08/18
1.7K0
热血动漫番太好看了!用Python爬取了1T的动漫,内存都爆了。
Python多线程爬虫,主播信息资料爬取采集
头榜,一个集合主播信息及资讯的网站,内容比较齐全,现今直播火热,想要找寻各种播主信息,这类网站可以搜集到相关热门主播信息。
二爷
2020/07/22
8780
Python多线程爬虫,主播信息资料爬取采集
【爬虫】简书七天文章一览
from lxml import etree import requests import pymongo import re import json from multiprocessing import Pool client = pymongo.MongoClient('localhost', 27017) mydb = client['mydb'] sevenday = mydb['sevenday'] header = { 'User-Agent':'Mozilla/5.0 (Wind
天道Vax的时间宝藏
2021/08/11
4650
Python爬虫:单线程、多线程和协程的爬虫性能对比
今天我要给大家分享的是如何爬取豆瓣上深圳近期即将上映的电影影讯,并分别用普通的单线程、多线程和协程来爬取,从而对比单线程、多线程和协程在网络爬虫中的性能。
快学Python
2021/08/09
4930
相关推荐
21天打造分布式爬虫-数据解析实战(三)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验