使用BeautifulSoup抓取Javascript注入的文本

文章/答案/技术大牛

发布

3回答

、、

我想要从网页中抓取日期，而日期的文本(脚本标记之后)是由JavaScript注入的:我想只使用Beautifulsoup来抓取它，而不是使用selenium <div class="row">" type="text/javascript">formatDate('2020,5,23,09,00,00'

浏览 50提问于2020-06-29得票数 2

回答已采纳

1回答

在脚本标记后使用漂亮的汤抓取隐藏的正确日期

、、、、

我想从网页中抓取日期，日期的文本(在脚本标记之后)是由JavaScript注入的： <span class="LName"><a target="_blank" href="http://google.com">[me too]</a></span> <

浏览 0提问于2020-06-29得票数 0

1回答

当元素确实存在时，BeautifulSoup返回'None‘

、

首先，如果我错过了一些非常简单的东西，我道歉，我已经看了很多问题，但终生都找不到答案。基本上，我试图收集文本的网站是这样的： url = 'https://www.otcmarkets.com/stock/MNGG/overview'soup = BeautifulSo

浏览 34提问于2021-02-27得票数 0

2回答

抓取使用javascript注入html的网站

、

我试图用Node.JS抓取一个网站，但当抓取html文件时，出现的东西是注入JavaScript的脚本标签，在查看有问题的JavaScript文件时，我似乎是正确的，因为我发现了我试图抓取的文本。在这个脚本被注入到html之后，我如何抓取文档？有什么办法吗？谢谢

浏览 22提问于2020-11-04得票数 0

回答已采纳

2回答

从twitter上抓取推文

、、

我正在尝试使用tweet id抓取tweet文本，我的代码是：from selenium import webdriver如何以人类可

浏览 0提问于2018-02-18得票数 0

4回答

屏幕抓取窗体结果

、、

我最近被一个客户要求为他们的保险业务建立一个网站。作为这项工作的一部分，他们想要对他们的一个供应商的报价站点进行一些屏幕抓取。他们询问他们的API是否可以做到这一点，并被告知没有，但如果他们可以从他们的引擎中获得数据，他们可以随心所欲地使用它。我的问题是:是否可以对表单提交到另一个站点的响应执行屏幕抓取？如果是这样，我应该注意的陷阱是什么？抛开明显的法律

浏览 1提问于2009-08-03得票数 3

回答已采纳

3回答

美汤不会返回网页上的所有文本

、、

尝试通过when抓取站点，但Beautifulsoup不能返回仅查看网页时可见的所有文本。/en/resorts-and-destinations" soup = BeautifulSoup(response.text, 'html5lib')f.close() 例如，以下文本在网页上可见，但不会由Beautifulsoup<

浏览 51提问于2020-09-18得票数 1

2回答

抓取be365.com时未获取全部信息

、、、、

我在尝试使用urllib.request和BeautifulSoup抓取https://www.bet365.com/时遇到问题。问题是，下面的代码没有获得页面上的所有信息，例如球员的名字没有出现。我的代码是： from bs4 import BeautifulSoupurl = "https://www.bet365.com/"

浏览 38提问于2021-02-07得票数 0

回答已采纳

2回答

从网站上抓取由javascript编写的文本

、、、

我正在使用BeautifulSoup从一个网站上抓取字符信息。当尝试获取角色的胜率时，BeautifulSoup找不到它。这是我目前使用的代码。#champion win rate champ_wr = page.soup.findAll("div", {&q

浏览 11提问于2018-09-06得票数 0

2回答

无法从DuckDuckGo搜索结果中抓取链接

、、、

中使用了find_all()，没有使用class_参数。它打印网页的HTML，而不是那些包含div的结果。我不知道为什么BeautifulSoup不抓取包含div的结果。请看屏幕截图，突出显示的HTML语法是我想要抓取的：我找到了一个答案，DuckDuckGo使用javascript搜索结果，beautifulSoup不能抓取ja

浏览 6提问于2021-04-02得票数 0

1回答

BS4返回到Cloudflare网站，而不是实际的网站

、、、

这是我的代码。这是有效的，但当代码打印时，它会打印DDOS攻击网站，而不是加载之后的网站。我甚至尝试做一个time.sleep(5)来帮助计时。我怎么才能克服这一点。import requestsimport time url = 'https://www.psacard.com/cert/49628062User-Agent': 'Mozilla/5.0 (X11; Ubun

浏览 26提问于2021-01-15得票数 0

1回答

使用BeautifulSoup抓取JavaScript* (ReactTable)*

、、、、

我想从疾控中心网站(https://www.cdc.gov/coronavirus/2019-ncov/index.html)上抓取与新冠肺炎相关的国家级信息表。在使用BeautifulSoup时，当我开始尝试从表中提取任何信息时遇到错误。任何帮助都将不胜感激！import pandas as pdfrom bs4 import BeautifulSoup url = &#x

浏览 13提问于2020-03-19得票数 1

回答已采纳

2回答

使用python请求和beautifulsoup4的响应中缺少html

、、、

当我在浏览器中查看页面源代码时，我想要的html就会出现在那里。但是，当我使用python请求进行请求时，html不会出现。</div> 我想要获取按钮的'

浏览 0提问于2016-05-04得票数 3

4回答

检索广告URL

我正在寻找一种方法来检索这个网站的广告网址。有什么建议吗？

浏览 2提问于2012-11-05得票数 0

3回答

解析表列和剥离换行符的漂亮方法

、、

我使用下面的代码遍历html表的每一行和每一列。keyword"> </span> <a href="javascriptn\n \n是\n\n \n在\n\n \n房子里\n\n \n油漆’，'5756'，'979'，'2'

浏览 7提问于2021-10-07得票数 1

1回答

利用硒和美汤实现Python抓取JavaScript

、、、

我正在尝试使用BS和Selenium抓取JavaScript enables页面。到目前为止，我有以下代码。它仍然不能以某种方式检测到JavaScript (并返回一个空值)。在这种情况下，我试图抓取底部的Facebook评论。(Inspect元素将类显示为postText)from selenium.webdriver.common.k

浏览 2提问于2013-01-26得票数 11

1回答

好吧，我认为我疯了，因为我在这个问题上反复失败，但我想，也许html发生了一些我不理解的事情。我一直在尝试从cnn.com上抓取“文章”。我怀疑html中的注入就是我遇到问题的原因。我从网络安全阅读中了解到，除了“html注入攻击”之外，我对注入一无所知。我想要这些文章，但我假设我将需要使用类似于上面的其他堆栈溢出问题链接的策略。链接到帮助文件或具体cnn抓取将不胜感激。或者如果有人知道我如何才能获得html

浏览 23提问于2021-01-11得票数 0

回答已采纳

2回答

有没有办法使用BeautifulSoup/requests抓取搜索框，然后进行搜索和刷新？

、、、

我正在努力使一个程序，可以在大多数网站上，如YouTube，ESPN，我的大学课程表等搜索请求… 我已经在网上寻找了各种解决方案，但其中许多都是简单地在你得到的url的末尾添加你的搜索查询，但这似乎并不适用于所有的网站，其中一些网站在你手动搜索时不会更新它们的URL，而许多其他网站可能会给每个URL一个唯一的'id‘。可以从任何网站上抓取搜索栏，然后指定搜索查询并输入它吗？有没有这样的函数呢？

浏览 25提问于2019-05-10得票数 0

回答已采纳

2回答

使用BS4抓取站点时遇到问题

、、、、

通常我可以编写一个用于抓取的脚本，但是我在这个网站上抓取我正在做的这个研究项目的表格时遇到了一些困难。我计划在输入目标州的URL之前验证该脚本在一个州上是否有效。("http://programs.dsireusa.org/system/program/detail/284")soup = bs.BeautifulSoupjust to ensur

浏览 14提问于2017-07-07得票数 0

回答已采纳

1回答

如何将html动态数据发送到外部python变量？

、

我知道这也许是一个基本的问题，但我花了一些时间找不到合适的答案。我希望根据用户在页面中的单击情况，提取动态变化的p元素的文本，并将该文本分配给app.py文件中的python变量，以便将其发送到数据库。我用酒瓶和SQLAlchemy。我试着用Beautifullsoup来提取数据，但是它只发送基本文本，没有动态内容。我也尝试过request.get、request.args等的所有变量，但都没有正常工作。你能帮忙吗？

浏览 1提问于2018-09-15得票数 0

回答已采纳

点击加载更多