首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

【python爬虫 2】BeautifulSoup快速抓取网站图片

前言 学习,最重要的是要了解它,并且使用它,正所谓,学以致用、本文,我们将来介绍,BeautifulSoup模块的使用方法,以及注意点,帮助大家快速了解学习BeautifulSoup模块。...第一步:了解需求 开始写之前,我们需要知道我们要做什么?做爬虫。 抓取什么?抓取网站图片。 什么地方抓取?...根据分析之后,所有页面似乎都是相同的,那我们选择一个摄影图来为大家做演示。 1、获取列表标题,以及链接 进一步研究页面数据,每一个页面,下方都有一个列表,然后通过列表标题,进入到下一级。...")[0:-5]#类比列表图片详情链接 text=Soup.find_all("div",{"class":"pages"})[0].find_all("a")[1].get("href...1、掌握BeautifulSoup 区分find,find_all的用法:find,查找第一个返回字符串,find_all 查找所有,返回列表 区分get,get_text的用法:get获取标签的属性

1.2K20

爬取58同城二手手机

开始编写代码前需要将Python3.7安装并配置于环境变量(windows一般安装python环境后会自动添加进环境变量),以及使用pip命令安装上面提到的3个python库,这些都准备好以后开始使用...使用shift+ctrl+c选取页面标题元素,获取选中的url链接,查找页面规律 点击标题后右边会跳转到对应的代码位置,通过点击多个列表得出结论,所有我们需要的url列表都在class为t的td标签下...示例如下 urls = soup.select('td.t > a') 然后使用get()方法获取href属性,获取链接的时候由于url有2种,并且页面布局完全不同,所以需要使用字符串分片的方式判断url...获取图片地址,描述信息下方有商品的图片,使用开发者工具选取一张图片获得图片地址,寻找图片规律,所有图片在li标签下面的span标签 另一种页面的内容获取方式与上面的方法一致,只需要修改select方法选择对应元素...> a') for url in urls: # 获取a标签href属性 url = url.get('href

57341

爬虫之数据解析

数据解析有三种方式,一是通过正则表达式,python中就是利用re模块;二是xpath;三是利用BeautifulSoup。   .../表示获取某个标签下的文本内容所有子标签下的文本内容 //div[@class="song"]/p[1]/text() //div[@class="tang"]//text() 取属性...: //div[@class="tang"]//li[2]/a/@href 我们使用xpath时,想要把字符串转化为etree对象: tree=etree.parse(文件名)#这种是把一个本地文件转化成...= BeautifulSoup('字符串类型或者字节类型', 'lxml')#这是把HTML字符串转换成BeautifulSoup对象 基础巩固: (1)根据标签名查找 -...div > p > a > .lala 只能是下面一级 【注意】select选择器返回永远是列表,需要通过下标提取指定的对象   2,实例一,爬取抽屉网的新闻标题连接

1K20

数据提取-Beautiful Soup

'>Welcome to SXT Good Good Study <a href=...BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,它支持 遍历文档树 搜索文档树 描述的大部分的方法....的name,节点的属性,字符串或他们的混合 # 5.1.1 字符串 最简单的过滤器是字符串.搜索方法传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的...(soup.find_all(re.compile("^div"))) # 5.1.3 列表 如果传入列表参数,Beautiful Soup会将与列表任一元素匹配的内容返回 #返回所有匹配到的span...相邻的所有div元素 a[title] 选取所有有title属性的a元素 a[class=”title”] 选取所有class属性为title值的a a[href*=”sxt”] 选取所有href属性包含

1.2K10

爬虫系列(7)数据提取--Beautiful Soup。

>Welcome to Baidu Good Good Study <a href...BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,它支持 遍历文档树 搜索文档树 描述的大部分的方法....的name,节点的属性,字符串或他们的混合 5.1.1 字符串 最简单的过滤器是字符串.搜索方法传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的...(soup.find_all(re.compile("^div"))) 5.1.3 列表 如果传入列表参数,Beautiful Soup会将与列表任一元素匹配的内容返回 #返回所有匹配到的span...相邻的所有div元素 a[title] 选取所有有title属性的a元素 a[class=”title”] 选取所有class属性为title值的a a[href*=”sxt”] 选取所有href属性包含

1.2K30

Python爬取365好书中小说代码实例

NovelId=3026 获取小说的每个章节的名称章节链接 打开浏览器的开发者工具,查找一个章节:如下图,找到第一章的名称href(也就是第一章节内容页面的链接),开始写代码 ?...div = req_bf.find_all('div',class_='user-catalog-ul-li') # 分析页面,所需要的章节名章节链接是div标签,属性class为user-catalog-ul-li...hrefs=[] # 存储章节链接 for i in s: names.append(i.find('span').string) hrefs.append(url + i.get('href...')) # 将所有的章节章节链接存入的列表 观察href后的链接打开章节内容页面的链接是不完全的相同的, 所以要拼接使得浏览器能直接打开章节内容 获取到链接章节名后打开一个章节获取文本内容; 获取章节名方法一致...# req后面跟texthtml都行 div = div_bf.find_all('div', class_='user-catalog-ul-li') # 查找内容,标签为div,属性为class

49840

python3 爬虫学习:爬取豆瓣读书Top250(二)

> #查找所有属性为class = 'pl2' 的 div 标签 items = bs.find_all('div' , class_ = 'pl2') 因为python语言中,class被用来定义类...,所以我们查找html标签里用到的class 需要加一个下划线:class_ Tag对象Tag属性 BeautifulSoup把html的标签封装为Tag对象,BeautifulSoup对象一样...我们需要的内容标签里面,那我们可以这样来写: #查找所有属性为class = 'pl2' 的 div 标签 items = bs.find_all('div' , class_ = 'pl2')...for i in items: # 查找 class_='pl2' 的 div 标签的 a 标签 print(i.find('a')) 但是我们其实只想要书名链接而已,其他我们都不需要...输出结果 接下来,咱们用同样的方法获取一句话介绍: #查找所有属性为class = 'pl' 的 p 标签 abstract = bs.find_all('span' , class_ = 'inq')

1.4K30

python3 爬虫学习:爬取豆瓣读书Top250(三)

CSS选择器 点击查看更多CSS选择器的详细介绍 html的CSS选择器,用‘#’代表‘id’,用‘.’代表‘class’。...我们使用BeautifulSoup对象的select()方法,将CSS选择器作为参数传入到select()里面,可以把下面的例子改写一下: #查找所有属性为class = 'pl2' 的 div 标签...items = bs.find_all('div' , class_ = 'pl2') for i in items: #查找 class_='pl2' 的 div 标签的 a 标签 tag...属性的值 link = tag['href'] #字符串格式化,使用\n换行 print('书名:{}\n链接:{}' .format(name , link)) 改写后例子: #查找所有属性为...('div.pl2 a') # 提取所有class = 'pl'的p标签 authors = bs.select('p.pl') # 提取所有class = 'inq'的span标签 abstract

1.4K10

Python网络数据采集

BeautifulSoup对象:前面代码示例的bsObj • 标签Tag对象:BeautifulSoup对象通过findfindAll,或者直接调用子标签获取的一列对象或单个对象,就像:bsObj.div.h1...处理子标签其他后代标签 BeautifulSoup库里,孩子(child)后代(descendant)有显著的不同:人类的家谱一样,子标签就是一个父标签的下一级,而后代标签是指一个父标签下面所有级别的标签...因此,选择标签行然后调用next_siblings,可以选择表格除了标题行以外的所有行。...父标签处理 偶尔特殊情况下你也会用到BeautifulSoup 的父标签查找函数, parent parents。...把所有可能的序列符号放在括号(不是小括号)里表示“括号的符号里任何一个”。

4.4K40

爬虫篇 | Python现学现用xpath爬取豆瓣音乐

etree s=etree.HTML(源码) #将源码转化为能被XPath匹配的格式 s.xpath(xpath表达式) #返回为一列表, 基础语法: // 双斜杠 定位根节点,会对全文进行扫描,文档中选取所有符合条件的内容...即在当前路径下选取所有符合条件的p标签div标签。...我们这次需要爬取豆瓣音乐前250条 打开豆瓣音乐:https://music.douban.com/top250 获取单条数据 1.获取音乐标题 打开网址,按下F12,然后查找标题,右键弹出菜单栏 Copy.../a/text()')#因为要获取标题,所以我需要这个当前路径下的文本,所以使用/text() 又因为这个s.xpath返回的是一个集合,且集合只有一个元素所以我再追加一个[0] 新的表达式: title.../td[1]/a/img/@src')[0] print href,title,score,number,img 得到的结果之前是一样的。

68441
领券