腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >找不到我知道在文档中的标记- find_all()返回[]

问找不到我知道在文档中的标记- find_all()返回[]
EN

Stack Overflow用户

提问于 2019-02-15 17:53:26

回答 1查看 55关注 0票数 2

我正在使用bs4抓取khanacademy上的https://www.khanacademy.org/profile/DFletcher1990/ one用户资料。

我正在尝试获取用户统计数据(加入日期，获得的能量点，完成的视频)。

我有check https://www.crummy.com/software/BeautifulSoup/bs4/doc/

这似乎是：“最常见的意外行为是找不到您知道在文档中的标记。您看到它进入，但find_all()返回[]或find()返回None。这是Python内置解析器的另一个常见问题，它有时会跳过它不理解的标记。同样，解决方案是安装lxml或html5lib。”

我尝试了不同的解析器方法，但我得到了相同的问题。

from bs4 import BeautifulSoup
import requests

url = 'https://www.khanacademy.org/profile/DFletcher1990/'

res = requests.get(url)

soup = BeautifulSoup(res.content, "lxml")

print(soup.find_all('div', class_='profile-widget-section'))

我的代码返回[]。

html-parsing

python-3.x

web-scraping

beautifulsoup

游戏社交场景解决方案

整合腾讯在社交娱乐及游戏体验方面的技术能力，满足玩家对游戏内即时通信和语音互动的社交刚性需求，提升游戏黏性

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-02-15 20:04:29

使用javascript加载页面内容。检查内容是否是动态的最简单的方法是右键单击并查看页面源代码，然后检查内容是否存在。您也可以在浏览器中关闭javascript，然后转到url。

您可以使用selenium获取内容

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get("https://www.khanacademy.org/profile/DFletcher1990/")
element=WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.XPATH ,'//*[@id="widget-list"]/div[1]/div[1]/div[2]/div/div[2]/table')))
source=driver.page_source
soup=BeautifulSoup(source,'html.parser')
user_info_table=soup.find('table', class_='user-statistics-table')
for tr in user_info_table.find_all('tr'):
    tds=tr.find_all('td')
    print(tds[0].text,":",tds[1].text)

输出：

Date joined : 4 years ago
Energy points earned : 932,915
Videos completed : 372

另一个可用的选择(因为您已经熟悉了请求)是使用requests-html

from bs4 import BeautifulSoup
from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://www.khanacademy.org/profile/DFletcher1990/')
r.html.render(sleep=10)
soup=BeautifulSoup(r.html.html,'html.parser')
user_info_table=soup.find('table', class_='user-statistics-table')
for tr in user_info_table.find_all('tr'):
    tds=tr.find_all('td')
    print(tds[0].text,":",tds[1].text)

输出

Date joined : 4 years ago
Energy points earned : 932,915
Videos completed : 372

另一种选择是找出正在发出的ajax请求，并模拟该请求并解析响应。此响应不必总是json。但在这种情况下，内容不会通过ajax响应发送到浏览器。它已经存在于页面源代码中。

该页面简单地使用javascript来组织这些信息。您可以尝试从脚本标记中获取数据，这可能涉及到一些正则表达式，然后从字符串中生成一个json。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54714668

复制

客户决策 | 我的代码没有else

编程算法

「策略模式」比较简单，大家平常工作中应该经常使用到，所以本文作为复习，帮助大家温故知新。我们先来看下定义：

用户1093396

2020/10/28

9200

MySQL练习六：订单最多的客户

云数据库 SQL Server

在表 orders 中找到订单数最多客户对应的 customer_number 。

兔云小新LM

2021/09/25

7930

代码组件 | 我的代码没有else

前端大行组件化的当今，我们在写后端接口代码的时候还是按照业务思路一头写到尾吗？我们是否可以思索，「后端接口业务代码如何可以简单快速组件化？」，答案是肯定的，这就是「组合模式」的作用。

用户1093396

2020/10/29

1.2K0

代码模板 | 我的代码没有else

编程算法 node.js 面向对象编程 go spring boot

抽象类里定义好算法的执行步骤和具体算法，以及可能发生变化的算法定义为抽象方法。不同的子类继承该抽象类，并实现父类的抽象方法。

用户1093396

2020/10/29

1K0

为什么我的HibernateDaoSupport没有注入SessionFactory

spring 网络安全 java

1.按理来说Spring应该会通过setSessionFactory方法将SessionFactory注入进来，可是并没有。

用户2032165

2019/04/09

3.1K0

为什么我的HibernateDaoSupport没有注入SessionFactory

为什么 MyBatis 源码中，没有我那种 if···else

mybatis 对象接口框架源码

在MyBatis的两万多行的框架源码中，使用了大量的设计模式对工程架构中的复杂场景进行解耦，这些设计模式的巧妙使用是整个框架的精华。

搜云库技术团队

2023/10/21

1940

为什么 MyBatis 源码中，没有我那种 if···else

mybatis 对象接口框架源码

在MyBatis的两万多行的框架源码中，使用了大量的设计模式对工程架构中的复杂场景进行解耦，这些设计模式的巧妙使用是整个框架的精华。

一行Java

2023/09/19

2240

链式调用 | 我的代码没有else

android

但是有一点直到被处理为止，代表最终只会被一个实际的业务对象执行了实际的业务逻辑，明显适用的场景并不多。但是除此之外，上面的那两点优势还是让人很心动，所以，为了适用于目前所接触的绝大多数业务场景，把概念进行了简单的调整，如下：

用户1093396

2020/10/29

1.7K0

状态变换 | 我的代码没有else

短信编程算法

「状态模式」比较简单，就是算法的选取取决于自己的内部状态。相较「策略模式」算法的选取由用户决策变成为内部状态决策，「策略模式」是用户(客户端)选择具体的算法，「状态模式」只是通过内部不同的状态选择具体的算法。

用户1093396

2020/10/28

8740

订阅通知 | 我的代码没有else

微信费用中心

虽然本文的题目叫做“订阅通知”，但是呢，本文却主要介绍「观察者模式」如何在真实业务场景中使用。是不是有些不理解？解释下：

用户1093396

2020/10/29

1.8K0

PHP+MYSQL购物车实战(1)sql的数据

数据库 sql

意思是:mt_rand函数的意思是随机数1~4包括1和4. 然后是插入数据到数据库shop_goods表中，然后把浏览器中的数据放进数据库表中啊

贵哥的编程之路

2020/10/28

6590

我的PHP常用代码段

其他

/** *用户文件上传 */ public function userFile($file='', $exts=[]){ $config = array( 'maxSize' =>'3145728',// 设置附件上传大小 'savePath' => './Users/',//设置保存路径 'exts' =>$exts,// 设置附件上传类型 'autoSub'=>

仇诺伊

2018/09/12

9260

2021年电商基础面试总结「建议收藏」

php 数据库数据处理 sql

①技术更新较快：根据市场的需求，不断迭代更新. ②技术涉及面广：除了 PHP，还会用到 Python,GO 等其他的一些语言；数据库中 MySQL,nosql 是最频繁使用的（当然也有的公司会用 oracle，但是 PHP 一般都是以 MySQL 为主），服务器端使用 Linux（少部分公司会用到 Unix），还经常涉及到服务器安全、系统安全等安全方面的技术. ③分布式：从前的单一的机器上运行，现在是分散到不同机器上，最后将数据集中汇总。集中式向分布式进行发展是由需求来推动. ④高并发、集群（高可用集群）、负载均衡：由并发问题采用集群进行处理，其中，集群会涉及服务器的主从以及分布问题，使用负载均衡。(权重高低)高可用是对用户而言，用户的服务不中断(系统升级，服务不中断，公司电商系统的部分更新等)。 ⑤海量数据：每年商家的各类活动（双 11，双 12 等等）订单量、浏览数、商品量、活动相关数据都将会超级大超级多（一般随同高并发出现）. ⑥业务复杂：电商业务并不简单：并不是商品展示出来后，简单的加入购物车后购买就完成了。除此以外后台业务逻辑是相当复杂，比如优惠(包邮、满减)，秒杀，抢购等. ⑦系统安全：系统上线必须通过系统安全部门审核通过，安全性问题正逐步的被放到台面上，而且很多企业对这块相当重视.

全栈程序员站长

2022/07/19

2.8K0

PHP+MYSQL购物车逻辑推理

php mysql

<?php error_reporting('E_ALL&~E_NOTICE'); header('content-type:text/html;charset=utf-8'); session_s

贵哥的编程之路

2020/10/28

1.1K0

php接受不到ajax的post数据

json html

今天我在开发中遇到了一种情况：我从html头信息里可以看到post传过去的数据，甚至打印ajax返回的json也是可以，但唯独加上键以后就变成了undefined。也就是说js并没有识别该json 解决方法：eval()函数转换：eval() 函数会将传入的字符串当做 JavaScript 代码进行执行。

九霄道长

2021/03/02

1.7K0

LeetCode MySQL 1045. 买下所有产品的客户

编程算法

写一条 SQL 查询语句，从 Customer 表中查询购买了 Product 表中所有产品的客户的 id。

Michael阿明

2021/02/19

4230

我不曾忘记的初心-愿天堂没有代码

游戏

已经过去4年了，q群里已经有1年没人在里面聊天了，他还在，大家总会想起他，看过第一篇“我不曾忘记的初心的-10年”文章的朋友，应该记得2011年我进入了通行行业的公司，在那里认识了一位鹏飞兄弟，当时

IT架构圈

2018/05/31

8710

Leetcode 586. 订单最多的客户

leetcode

select customer_number from orders group by 1 order by count(*) desc limit 0,1

glm233

2021/04/15

2940

PHP+MYSQL购物车：通俗易懂理解等你来哦+我的博客里面有核心解释

数据

create table if not exists shop_goods( id int unsigned auto_increment key, gname varchar(50) not null unique, price decimal(10,2) not null default 0, number int unsigned not null default 0, pic varchar(50) NOT NULL DEFAULT 'jd.jpg' ); //购物需要的数据篇 <!DOC

贵哥的编程之路

2020/10/28

4250

点击加载更多

相似问题

在javascript with循环中处理json数组

在循环中处理字符串数组

在PHP中的foreach循环中组合三个数组

处理每个循环中有一个元素的数组

在另一个用于批处理的循环中迭代数组

活动推荐

国内短信福利大放送，不要错过！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问找不到我知道在文档中的标记- find_all()返回[]
EN

游戏社交场景解决方案

回答 1

Stack Overflow用户

在javascript with循环中处理json数组

在循环中处理字符串数组

在PHP中的foreach循环中组合三个数组

处理每个循环中有一个元素的数组

在另一个用于批处理的循环中迭代数组

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问找不到我知道在文档中的标记- find_all()返回[]EN

游戏社交场景解决方案

回答 1

Stack Overflow用户

在javascript with循环中处理json数组

在循环中处理字符串数组

在PHP中的foreach循环中组合三个数组

处理每个循环中有一个元素的数组

在另一个用于批处理的循环中迭代数组

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问找不到我知道在文档中的标记- find_all()返回[]
EN