学习
实践
活动
专区
工具
TVP
写文章

面向新手解析python Beautiful Soup基本用法

节点的文本:\n',soup.p.string) 结果: 输出结果为title节点加里面的文字内容: <title The Dormouse's story</title 输出它的类型: <class 'bs4 标签的name属性值: dromouse 获取p标签的class属性值: ['title'] 获取第一个p节点的文本: The Dormouse's story 在上面的例子中,我们知道每一个返回结果都是bs4 BeautifulSoup(html, 'lxml') print('查询所有ul节点,返回结果是列表类型,长度为2:\n',soup.find_all(name='ul')) print('每个元素依然都是bs4 list list-small" id="list-2" <li class="element" Foo</li <li class="element" Bar</li </ul ] 每个元素依然都是bs4 .element.Tag类型: <class 'bs4.element.Tag' 输出每个u1: [<li class="element" Foo</li , <li class="element"

23640
  • 广告
    关闭

    热门业务场景教学

    个人网站、项目部署、开发环境、游戏服务器、图床、渲染训练等免费搭建教程,多款云服务器20元起。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    python爬虫:爬取猫眼电影数据并存入数据库

    开始的时候陷入了一个误区,因为打印出的dd内容是标签元素,然后就想着能不能再把它传进beautifulsoup, 生成一个新的beautifulsoup对象,实际证明不行,因为dd的类型已经是<class 'bs4 contents[1].string 看一下上述代码打印的内容 打印dd,会把当前爬取页数的电影html中的所有

    标签全部获取到 dd的类型 其实通过beautiful获取的html标签数据,都是bs4 在爬取电影分数时,先判断下是否存在包含分数的

    标签,如果包含,则抓取数据,如果不包含,则直接给出“暂无分数” if isinstance(dd.find('p', class_='score'), bs4 BeautifulSoup(html, 'html.parser') dd = soup.find_all('dd') for t in dd: if isinstance(t, bs4 release_time= t.find('p', class_='releasetime').string if isinstance(t.find('p', class_='score'), bs4

    37730

    python爬虫学习笔记之Beautifulsoup模块用法详解

    .get_text() 补充1:上面的筛选方式可以使用嵌套: print(soup.p.a)#p标签下的a标签 补充2:以上的name,text,string,attrs等方法都可以使用在当结果是一个bs4 class'])#以列表形式返回标签的值 print(soup.p.get('class')) ############# t=soup.title print(type(t))#<class 'bs4 soup.previous_sibling【获取前一兄弟结点】 soup.previous_siblings【获取前面所有的兄弟结点】【返回值是一个可迭代对象】 补充3:与补充2一样,上面的函数都可以使用在当结果是一个bs4 作为筛选条件,只会返回text,所以一般与其他条件配合使用】 recursive:指定筛选是否递归,当为False时,不会在子结点的后代结点中查找,只会查找子结点 获取到结点后的结果是一个bs4 嵌套select: soup.select(“#xxx .xxxx”),如(“#id2 .news”)就是id=”id2”标签下class=”news的标签,返回值是一个列表 获取到结点后的结果是一个bs4

    2.6K40

    Python3网络爬虫实战-29、解析库

    soup.title.string) print(soup.head) print(soup.p) 运行结果: <title>The Dormouse's story</title> <class 'bs4 接下来输出了它的类型,是 bs4.element.Tag 类型,这是 BeautifulSoup 中的一个重要的数据结构,经过选择器选择之后,选择结果都是这种 Tag 类型,它具有一些属性比如 string 嵌套选择 在上面的例子中我们知道每一个返回结果都是 bs4.element.Tag 类型,它同样可以继续调用节点进行下一步的选择,比如我们获取了 head 节点元素,我们可以继续调用 head 来选取其内部的 (list(soup.a.parents)[0]) print(list(soup.a.parents)[0].attrs['class']) 运行结果: Next Sibling: <class 'bs4 零基础,进阶,都欢迎 在这里我们调用了 find_all() 方法,传入了一个 name 参数,参数值为 ul,也就是说我们想要查询所有 ul 节点,返回结果是列表类型,长度为 2,每个元素依然都是 bs4

    28530

    Python3中BeautifulSoup的使用方法

    soup.title.string) print(soup.head) print(soup.p) 运行结果: <title>The Dormouse's story</title> <class 'bs4 接下来输出了它的类型,是bs4.element.Tag类型,这是BeautifulSoup中的一个重要的数据结构,经过选择器选择之后,选择结果都是这种Tag类型,它具有一些属性比如string属性,调用 嵌套选择 在上面的例子中我们知道每一个返回结果都是bs4.element.Tag类型,它同样可以继续调用标签进行下一步的选择,比如我们获取了head节点元素,我们可以继续调用head来选取其内部的head element.Tag'> The Dormouse's story 第一行结果是我们调用了head之后再次调用了title来选择的title节点元素,然后我们紧接着打印输出了它的类型,可以看到它仍然是bs4 .element.Tag'> 在这里我们调用了find_all()方法,传入了一个name参数,参数值为ul,也就是说我们想要查询所有ul标签,返回结果是list类型,长度为2,每个元素依然都是bs4.

    79030

    Python3中BeautifulSoup的使用方法

    soup.title.string) print(soup.head) print(soup.p) 运行结果: <title>The Dormouse's story</title> <class 'bs4 接下来输出了它的类型,是bs4.element.Tag类型,这是BeautifulSoup中的一个重要的数据结构,经过选择器选择之后,选择结果都是这种Tag类型,它具有一些属性比如string属性,调用 嵌套选择 在上面的例子中我们知道每一个返回结果都是bs4.element.Tag类型,它同样可以继续调用标签进行下一步的选择,比如我们获取了head节点元素,我们可以继续调用head来选取其内部的head element.Tag'> The Dormouse's story 第一行结果是我们调用了head之后再次调用了title来选择的title节点元素,然后我们紧接着打印输出了它的类型,可以看到它仍然是bs4 .element.Tag'> 在这里我们调用了find_all()方法,传入了一个name参数,参数值为ul,也就是说我们想要查询所有ul标签,返回结果是list类型,长度为2,每个元素依然都是bs4.

    31050

    扫码关注腾讯云开发者

    领取腾讯云代金券