从抓取结果python中删除html元素_从Web抓取中删除HTML_JS函数的python html抓取结果 - 腾讯云开发者社区

、、

我正在做从here上抓取印尼新闻网站的工作。当我从每个新闻链接中抓取新闻文章时，上面有一些HTML元素。输出如下所示： ? 我想删除元素，这样输出就只是文章了。detik = requests.get('https://www.detik.com/terpopuler') beautify = BeautifulSoup(detik.content, 'htm

浏览 19提问于2020-11-10得票数 0

1回答

flask html* jinja在追加到列表时不显示none*

、、、、

我有一个python脚本，它可以抓取一些不同影院的电影页面，并使用flask在html页面中显示结果。我从我的python脚本中传递了一个列表，该列表至少包含一个元素(影院的名称)，然后遍历列表的其余部分(todays )并打印出来。在html中，我想检查这个列表的长度。这是我的html代码 <div class="theater">

浏览 20提问于2020-03-15得票数 1

2回答

尝试使用Python从页面中抓取这些信息并将其放入csv，只获得列表中最后一个元素的结果

、、、、

我试图使用Python从多个Ballotpedia页面中抓取这些信息，并将这些信息放入csv中，但我只获得列表中最后一个元素的结果。Alaska_Supreme_Court', frame = pd.read_htmlframe.drop("Ap

浏览 5提问于2021-03-16得票数 1

回答已采纳

1回答

WebBrowser对象中的HtmlElement去掉了HTML语言中的双引号

、

我从浏览器对象中抓取一个HTMLElement，然后使用getElementById抓取我想要的元素。当元素被抓取到HtmlElement对象中时，像<input type="checkbox" name="test1" />这样的属性两边的双引号就变成了<input type=checkbox name它删除了HtmlElement中可用的超文本标

浏览 2提问于2010-03-02得票数 0

回答已采纳

2回答

在使用python的selenium中使用xpath获取innerHTML

、、、、

我正在尝试学习web抓取，尽管我检查了文档中的示例和堆栈中的一些问题，但我无法使我的代码工作。使用Firefox： /html/body/div[1]/div/main/div[3]/div/div&

浏览 7提问于2020-05-19得票数 0

1回答

如何刮取使用JQuery加载的特定HTML元素

、、、

我正在编写一个python应用程序，它可以从我制作的web应用程序中抓取传感器数据。我想使用lxml从HTML中收集某些span元素，这些元素通过JQuery脚本定期更新。似乎lxml没有获取使用JQuery更新的文本，因为我只检索加载原始HTML的空字符串。JQuery的值是在查看网页时反映出来的，而不是在web抓取工具上。HTML <!this).

浏览 8提问于2016-07-06得票数 0

回答已采纳

1回答

ValueError:无效\转义:在Scrapy中重新读入json作为响应

、、

在解析过程中，我会得到带有json的文本对象响应。他们看起来都很像。他们中的一些人工作没有任何错误。但其他人则会抛出错误，如下所示。，但没有结果。另外，当我在刮擦的shell中尝试这个url时，它会空打开并抛出另一个错误--没有找到json文档。不知道这是否重要。\lib\site-packages\scrapy\utils\defer.py", line 102, in it yield

浏览 0提问于2017-03-25得票数 4

回答已采纳

3回答

无法删除刮过的文本之间的空格

、、、

我用python编写了一个脚本，从一些html元素中抓取一些文本。脚本现在可以解析它了。然而，问题是结果看上去很奇怪，它们之间有很多空格。我怎么才能修好它？任何帮助都将不胜感激。这是应该从文本中抓取的html元素：<div class="postal-address"> <p&g

浏览 6提问于2017-10-18得票数 1

回答已采纳

2回答

使用scrapy和xpath抓取::before和::after之间的HTML元素

、、

我正在尝试用scrapy和xpath从python的网页中抓取一些链接，但是我想抓取的元素是介于：：they和::after之间的，所以xpath看不到它们，因为它们不存在于HTML中，而是用javascript有没有办法去掉这些元素呢？<div class="well-white">...</div> <div class="well-whit

浏览 2提问于2018-09-12得票数 2

1回答

如何将多个表解析为一个数据帧？

、、

<td class="label" valign="top"> 所以有很多以div class="var_building_result“开头的小表，我能把所有这些表放到一个数据框中，

浏览 12提问于2019-11-26得票数 1

回答已采纳

1回答

如何使用beautifulSoup对堆栈溢出问题进行web抓取标记？

、

= link.get('href') for i in link: title = link.string print(title) 输出: python浮点舍入python非谷歌合作python flask python漂亮汤python nonetype python ubuntu等。在从堆栈溢出站点提取数据时，我们在抓取问题的标签时遇到了问题。我们可以抓取标签，但它们不会

浏览 0提问于2018-03-17得票数 0

2回答

HTML解析最佳Python模块

、、

我有一个网站更新程序(人们可以更新内容(文本)，而不是网站的外观)，它有HTML，javascript作为前端语言，python作为后端/服务器端。我发现从前端更新HTML非常困难，因为当我从ele.innerHTML或$(Ele)获取更新的HTML时，.html()会根据浏览器(该死的IE)进行修改。因此，我决定从后端更新，即用Python更新。您认为解析HTML和抓取信息的最好的python<

浏览 8提问于2011-10-04得票数 5

回答已采纳

1回答

如何从结果中删除元素标记，用Python进行Web抓取文章

、、、、

我在看到视频中类似的内容后，第一个决定做的是一个抓取网站文章的网络刮刀，比如“纽约时报”。我想在这篇文章的前言中说，我知道有些网站在这方面可能会有不同的TOS，我想表明，我这么做只是为了学习代码的各个方面，没有任何其他动机-我在NYT也有一个帐户，也没有在我没有账户的网站上这样做)然而，当涉及到文章的正文时，元素的设置方式让我麻烦地抓取了所有的文本

浏览 3提问于2022-01-11得票数 0

回答已采纳

1回答

从特定块中获取文本，但不包括某些嵌套标记

、、、、

我一直在尝试制作一个Python脚本，它实际上从特定的元素块中提取文本，但必须排除嵌套的兄弟元素中的一些文本。这是我正在尝试抓取的HTML部分： <div class="article_body"> Stack Overflow_blank">Ad2</a> </

浏览 23提问于2019-02-20得票数 0

回答已采纳

1回答

抓取url不变的分页表

、、、

我正在尝试从下面的网页中抓取表格中的：有没有人能带我到正确

浏览 26提问于2021-05-25得票数 1

2回答

在Windows下每5分钟运行一次python脚本

我有一个简单的python脚本，从html页面抓取一些数据，并将结果写出到一个csv文件。如何在Windows下自动执行抓取，即每五分钟启动一次。谢谢彼得

浏览 0提问于2015-01-29得票数 3

回答已采纳

7回答

Php中的HTML抓取

、、

我已经使用正则表达式在PHP中做了一些HTML抓取。这是可行的，但结果是挑剔和脆弱的。有没有人用过提供更健壮解决方案的包？配置驱动的解决方案将是理想的，但我并不挑剔。

浏览 0提问于2008-08-29得票数 39

回答已采纳

1回答

漂亮汤删除标签错误

、、、

因此，我正在抓取一些内容，并试图用python中的漂亮汤删除html标记，但保留内容。问题是，很明显，我正在抓取的一些页面中有html错误。例如：当发生这种情况时，get_text()将删除我想要的大部分文本。我试着用regex来做这件事，结果还是遇到了同样的问题：

浏览 3提问于2015-03-12得票数 0

回答已采纳

2回答

Python web抓取，使用html请求查找特定元素并提取文本

、、、

我正在使用python进行网络抓取(这是新的)，并试图从网站上抓取品牌名称。它在网站上不可见，但我已经找到了它的元素：我想提取HTML中的"Revlon“文本我目前正在使用html请求，并尝试获取选择器(CSS)和文本： brandname = r.<

浏览 0提问于2021-04-15得票数 0

1回答

R编程Web抓取

、

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是library("xml2") tbls_ls <- url %>%

浏览 13提问于2017-12-22得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云