Python web抓取span id使用Beautiful soup_使用Beautiful Soup在python中进行Web抓取_使用Beautiful Soup Onclick标签进行Web抓取 - 腾讯云开发者社区

python、screen-scraping、web-scraping、beautifulsoup、urllib

目标:传递一个搜索字符串到google上搜索，然后抓取url，title和小的描述，与url标题一起发布。我有以下代码，目前我的代码只给出前10个结果，这是谷歌对一个页面的默认限制。我不确定在网络抓取过程中如何真正处理分页。此外，当我查看实际的页面结果和打印出来的内容时，也会出现差异。我也不确定解析span元素的最佳方法是什么。到目前为止，我的跨度如下所示，我想删除<em>元素并连接其余的stings。最好的方法是什么？ <span class="st">The <em>Beautiful Soup</em> Theater

浏览 1提问于2012-07-17得票数 6

1回答

未在美汤中找到<span>标记内的元素

python、html、parsing、beautifulsoup

我曾经尝试过在Python中使用Beautiful Soup从网站抓取数据。当我检查网站本身时，我看到了以下内容： "<span id="test"> 567 </span>" 但是当我用美汤的时候，我看到的是： "<span id="test"></span>" 就好像出于安全和保护的目的，号码被隐藏了，但是我如何从解析中获得这个信息呢？我认为它是一个动态的JS元素，但我不确定该如何访问它。

浏览 1提问于2015-11-07得票数 2

2回答

有没有办法使用Selenium of Beautiful Soup得到2015-2020年间每年1月份的“这个家”的Z值？

python、selenium、selenium-webdriver、web-scraping、beautifulsoup

从下面的链接中，我希望能够抓取数据。然而，当我使用Beautiful Soup时，我在html中找不到它，并且Beautiful soup不起作用。此外，我想也许我可以使用selenium来抓取这些数据，但我也找不到这些内容。你知道我会如何使用selenium或Beautiful Soup来获得2015-2020年间每年1月的“这个家”的Z估计值吗？提前感谢您的帮助。我正在使用Python。

浏览 0提问于2020-08-17得票数 1

2回答

如何从Beautiful Soup获取URL？

javascript、python、html、beautifulsoup、html-parsing

我是Python的新手，正在尝试编写一个爬行程序；我想使用Beautiful Soup从BBC新闻中抓取一些数据。但是当我用Firebug检查元素时，我发现这个页面中的HTML没有URL链接。 <li class=""> <a class="navigation-wide-list__link navigation-arrow--open" data-panel-id="js-navigation-panel-World" href="/news/world"> <span>World

浏览 2提问于2016-05-03得票数 3

2回答

美丽的汤找不到线

python、html-parsing、beautifulsoup

在解析http://en.wikipedia.org/wiki/Israel时，我遇到一个包含文本的H2标记，但Beautiful Soup为它返回了一个None类型： $ python Python 2.7.3 (default, Apr 10 2013, 05:13:16) [GCC 4.7.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import bs4 >>>

浏览 0提问于2013-08-30得票数 2

1回答

如何让django项目点击url的特定标签

python、python-3.x

我正在开发一个使用python和Django的网页抓取代码。我已经提供了所需的url，并且已经获取了数据。但是在url上有一个标签，上面写着“显示更多结果”。如何让我Django项目点击url上的“显示更多结果”选项卡并立即获取新的结果。我已经使用Beautiful Soup库来进行web抓取/

浏览 16提问于2021-04-15得票数 0

4回答

Ruby的美丽汤最接近的等价物是什么？

python、ruby、beautifulsoup

我喜欢Python中的Beautiful Soup抓取库。它就是这样的。在Ruby中有类似的东西吗？

浏览 9提问于2009-03-12得票数 15

回答已采纳

1回答

Python 3.6美丽的汤-在Web抓取过程中获取嵌入式视频URL的麻烦

python、web-scraping、beautifulsoup、python-requests、embedded-video

我正在尝试抓取一个网页，并使用Python3.6中的Beautiful Soup和requests模块检索网页上嵌入的视频的URL。当我在Chrome中查看网页上的超文本标记语言时，我可以看到视频的.mp4链接。但是当我使用requests和Beautiful Soup获取页面时，我找不到"video“节点。我知道视频窗口是一个嵌套的HTML文档。特别是，我想要抓取这个网页- http://videolectures.net/icml2015_liang_language_understanding/，并使用Beautiful Soup和requests模块获得视频链接- http:

浏览 25提问于2020-08-26得票数 4

1回答

使用Python库解析Span标记中的信息

python、html、web-scraping、beautifulsoup

我正在写一个Python刮刀，它能抓住某个股票的价格。在我的程序结束时，有几个打印语句可以正确地解析html数据，这样我就可以在特定的HTML标记中获取股票的价格信息。我的问题是:我该怎么做？我已经得到了正确的HTML span标记。我认为你可以简单地做一个字符串拼接，但是股票的价格是不断变化的，我认为这个解决方案对这个问题是不利的。我最近开始使用BeautifulSoup，所以我会非常感谢您的一些建议。 import bs4 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup #

浏览 0提问于2018-07-09得票数 3

回答已采纳

3回答

漂亮的汤-从HTML文件中提取类

python、html、beautifulsoup

我有一个HTML文件，我想从这个块中抓取文本，如下所示： <strong class="fullname js-action-profile-name">User Name</strong> <span>&rlm;</span> <span class="username js-action-profile-name"><s>@</s><b>UserName</b></span> 我希望它显示为： User Name

浏览 2提问于2012-03-12得票数 3

2回答

如果要用python抓取图像，如何在Python中选择<div data- image =‘.“”>

python、html、css、beautifulsoup

我正在使用Python从一个网站上抓取一些图片。来自该网站的所有图像都使用<div data-image="https://......">进行存储。如何使用Python(Beautiful Soup 4)下载图片？非常感谢!

浏览 36提问于2020-08-12得票数 0

1回答

使用Python进行Web抓取，而无需加载整个页面

python、python-3.x、web-scraping、web-scraping-language

我刚用Python开始了几个web抓取项目。我目前使用lxml，Beautiful Soup和requests模块来抓取网页。我需要知道是否有任何方法可以只从网站获得我们需要的数据，而不是加载整个页面。requests模块执行GET请求并接收整个，bs4，lxml只过滤数据。我尝试过Selenium，但这也打开了浏览器，这不太适合工业项目。我对scrapy和splash一无所知。我也不是在寻找API key方法，它并不适用于所有地方。

浏览 28提问于2021-11-13得票数 0

回答已采纳

1回答

基于动态内容和隐藏数据表的Selenium Web抓取

python、selenium、dynamic、web-scraping、beautifulsoup

真的需要这个社区的帮助！我正在使用Selenium和Beautiful Soup在Python中对动态内容进行web抓取。问题是，即使使用以下代码，也无法将定价数据表解析为Python： html=browser.execute_script('return document.body.innerHTML') sel_soup=BeautifulSoup(html, 'html.parser') 然而，我后来发现，如果我在使用上面的代码之前单击WebPage上的“查看所有价格”按钮，我可以将该数据表解析为python。我的问题是，我如何解析和访问我的py

浏览 15提问于2018-02-14得票数 2

4回答

使用PHP或Python的PHP抓取技术

php、python、screen-scraping

我需要刮大约100个网站，在他们提供的内容非常相似。我的第一个疑问。应该可以写一个通用的脚本来抓取所有的100个网站或在抓取技术中只可能为特定的网站编写脚本。(愚蠢的问题。)我想我应该问一下哪种可能性更容易。为每个网站编写100个不同的脚本是很难的。第二项质询。我的主要语言是PHP，但在Stackoverflow上搜索此处后，我发现Python中的"Beautiful Soup“是最高级的爬行器之一。应该可以在PHP中调用Python中的"Beautiful Soup“吗？或者用Python编写所有的脚本会更好？给我一些关于我该怎么做的线索。对不起，我的英语不好。诚挚

浏览 2提问于2011-01-03得票数 3

1回答

使用Beautiful从特定的HTML标记中提取文本时，有多个类似的标记

html、python-3.x、web-scraping、beautifulsoup

嗨，我想单独从网页Date and Time的部分提取，它看起来如下所示： <div class = "small-text"> <span id = "ct100900> <span> <span id = "ct100100"></span> </span> </span> <small> Feb 13, 2017 05:10 PM </small>

浏览 2提问于2017-04-22得票数 0

回答已采纳

1回答

使用Python从具有有序跨度ID的HTML页面中抓取数据

python、web-scraping、beautifulsoup

我正在处理某些HTML页面，我需要从中抓取数据。问题是span ids是有编号的。例如： ContentPlaceHolder_0, ContentPlaceHolder_1, ContentPlaceHolder_2 ..... ContentPlaceHolder_n 我需要在每个页面上从所有这些span标记中获取数据。使用Beautiful Soup获取此数据的最佳方法是什么？

浏览 10提问于2018-08-05得票数 0

1回答

为什么我的BeautifulSoup代码只抓取了一些Airbnb？

python、html、web-scraping、beautifulsoup

我一直在尝试使用Beautiful Soup从airbnb.com上抓取Airbnb数据。然而，使用下面的代码，即使inspect HTML代码具有正确的类名，也不是所有的URL都被抓取。 ab_lists[:4] output of ab_list: ['www.airbnb.com/rooms/34594075?adults=2&previous_page_section_name=1000', 'www.airbnb.com/rooms/34056273?adults=2&previous_page_section_name=100

浏览 27提问于2021-05-12得票数 0

回答已采纳

3回答

从网页中提取特定链接的计数。

python、web-scraping、beautifulsoup

我正在使用BeautifulSoup编写一个python脚本。我需要刮一个网站和计数独特的链接，忽略与'#‘开始的链接。如果网页上存在以下链接，则示例：在本例中，唯一的两个唯一链接是(删除主域名后的链接信息)： https://stackoverflow.com/ Count 2 https://cnn.com/ Count 1 注意:这是我第一次使用python和web抓取工具。我很感谢你提前提供的帮助。这就是我迄今尝试过的： from bs4 import BeautifulSoup import requests url = &#

浏览 0提问于2018-03-06得票数 1

回答已采纳

1回答

如何刮-跨度咏叹调-隐藏=“真”-文本

python、web-scraping、beautifulsoup、hidden-field

我正在尝试使用selenium和漂亮的soupe进行网络抓取，但是我无法获得selenium来找到我需要的元素并返回文本。以下是html： <span class="t-14 t-normal"> <span aria-hidden="true">Crédit Agricole CIB · Full-time</span><span class="visually-hidden">Crédit A

浏览 9提问于2022-10-25得票数 0

回答已采纳

1回答

使用python 3的web抓取教程？

python、web-scraping、python-3.2

我正在尝试学习python 3.x，这样我就可以抓取网站了。人们推荐我使用Beautiful Soup4或lxml.html。有人能告诉我Python3.x的BeautifulSoup教程或示例的正确方向吗？谢谢你的帮助。

浏览 0提问于2013-05-28得票数 5

回答已采纳

2回答

如何使用Python查找(并抓取)给定域上的所有网页？

python、http、dns

我如何抓取一个域名来找到所有的网页和内容？例如: www.example.com、www.example.com/index.html、www.example.com/about/index.html等。我想用Python做这件事，如果可能的话，最好用Beautiful Soup。

浏览 0提问于2013-06-20得票数 4

回答已采纳

6回答

使用Beautiful Soup按类名获取内容

python、beautifulsoup

使用Beautiful Soup模块，如何获取类名为feeditemcontent cxfeeditemcontent的div标记的数据？是不是： soup.class['feeditemcontent cxfeeditemcontent'] 或者： soup.find_all('class') 这是HTML源代码： <div class="feeditemcontent cxfeeditemcontent"> <div class="feeditembodyandfooter">

浏览 5提问于2012-07-04得票数 16

回答已采纳

2回答

抓取动态超文本标记语言(YouTube注释)

python、web-scraping、beautifulsoup、python-requests、dynamic-html

有了Beautiful Soup和Request Library，我可以抓取超文本标记语言的内容，但不能抓取JavaScript或AJAX调用的内容。我该如何通过我的Python脚本来模仿它呢？因为当我们滚动页面时会加载YouTube注释。我发现了两个方法；一个使用Selenium，另一个使用lxml请求，我不太理解这两个方法。示例()： import requests from bs4 import BeautifulSoup as soup url = 'https://www.youtube.com/watch?v=iFPMz36std4' response = r

浏览 1提问于2017-11-01得票数 3

2回答

美丽的汤Youtube订阅者

python、web-scraping、beautifulsoup

我使用Python with Requests和Beautiful Soup来尝试使用以下代码返回某些Youtube频道的订阅者数量： import requests from bs4 import BeautifulSoup request = requests.get("https://www.youtube.com/channel/UCFIjVWFZ__KhtTXHDJ7vgng") content = request.content soup = BeautifulSoup(content, "html.parser") element = soup

浏览 0提问于2018-03-14得票数 2

2回答

Beautiful Soup的extract()出错

python、beautifulsoup

我正在开发一些屏幕抓取软件，遇到了美汤的问题。我使用的是python 2.4.3和Beautiful Soup 3.0.7a。我需要删除一个<hr>标记，但它可以有许多不同的属性，所以简单的replace()调用不会删除它。给定以下html： <h1>foo</h1> <h2><hr/>bar</h2> 和以下代码： soup = BeautifulSoup(string) bad_tags = soup.findAll('hr'); [tag.extract() for tag in bad_tag

浏览 0提问于2009-05-12得票数 0

回答已采纳

1回答

用Python中的Selenium，美观汤刮光盒覆盖

python、selenium、beautifulsoup

我有一点困难，让我的代码，以解决问题。我正在尝试使用selenium、漂亮的汤和python来抓取覆盖层或灯箱的内容。我不太清楚覆盖是如何创建的，但我认为它的ajax 当我运行下面的python2.7代码时，火狐浏览器打开，导航到页面，点击正确的链接并显示覆盖到用户，我可以检查它的标签和标记使用火狐，但我不知道如何让python访问覆盖。这位新手若能提供任何帮助，将不胜感激。 #Import the beautiful soup library from bs4 import BeautifulSoup # import urllib2 library to actually go get

浏览 1提问于2015-11-24得票数 3

回答已采纳

0回答

用Python抓取特定页面

python、json、xml、web-scraping、beautifulsoup

最近，我一直在学习使用Python和Beautiful Soup进行web抓取。然而，当我尝试抓取下面的页面时，我遇到了一个小问题：我想从页面上获得的数据是这本书的标签，但我找不到任何方法来获取数据，尽管我花了很多时间在互联网上搜索。我试着在网上看了一些指南，但似乎都不起作用。我尝试将页面转换为XML和JSON，但仍然找不到数据。我现在很困惑，如果有任何帮助，我将不胜感激。谢谢。

浏览 10提问于2017-11-24得票数 1

回答已采纳

2回答

如何将抓取的多行内容转换为列表？

regex、python-2.7、web-scraping、beautifulsoup

我试图将抓取的内容转换为用于数据操作的列表，但得到以下错误: TypeError：'NoneType‘对象不可调用 #! /usr/bin/python from urllib import urlopen from BeautifulSoup import BeautifulSoup import os import re # Copy all of the content from the provided web page webpage = urlopen("http://www.optionstrategist.com/calculators/free-volat

浏览 2提问于2013-01-20得票数 1

1回答

我能用selenium webdriver读取浏览器的url吗？

python、selenium、beautifulsoup、selenium-webdriver

我在beautiful Soup4 and Selenium webdriver中使用python2.7。现在，在我的webautomation脚本中，我将打开链接或URL并进入主页。现在我需要单击一些anchor Labels来浏览其他页面。我到目前为止都是这样做的。现在，当我要转到一个新页面时，我需要从浏览器获取新的URL，因为我需要传递用于网页抓取的Beautiful Soup4。所以现在我关心的是如何以动态的方式获得这样的URL？如果有建议，请多多指教！

浏览 0提问于2013-01-05得票数 8

回答已采纳

1回答

使用Beautiful Soup提取HTML中的部分文本

python、html、beautifulsoup

我的HTML是： <span id="lbldiv" class="lbl" style="color:Blue;"> Division : First; Grand Total: 3861; Grand Max Total: 4600 </span> 我可以通过在span元素上使用get_text来提取文本：Division : First; Grand Total: 3861; Grand Max Total: 4600。有没有可能只从文本中提取数字- 3861和4600，或者使用Python中的Beauti

浏览 3提问于2017-07-01得票数 1

回答已采纳

1回答

当循环突然停止开采期间美丽的汤，但过程继续没完没了？

python、loops、web-scraping、while-loop、python-requests

我正在创建一个使用Selenium和Beautiful的web抓取新闻模板。我创建了一个DataFrame，其中有一个列，其中包含了我想要从我选择测试的网站上抓取的所有链接。我实现了分离post id, date, author, title, subtitle and text。现在，我试图遍历我的url列，并用每一行的每个值填充其他空列(post id, date, author, title, subtitle and text)。我完成了对100 rows的测试，它运行得很好。但是，如果我尝试使用所有行(41327)、朱庇特笔记本，只需停止挖掘(正如我可以与TQDM检查的那样)，

浏览 6提问于2021-06-14得票数 0

2回答

为什么我的html解析器不能下载整个html文档？

python、python-3.x、web-scraping、beautifulsoup

我正在使用Beautiful Soup来抓取以下页面：我想要的是股票价值下面的名称+缩写。但是，当我运行脚本时，soup.find()似乎无法工作，因为没有下载整个html文件。 main_url = "https://www.nyse.com/quote/XNYS:AAN" import requests result = requests.get(main_url) from bs4 import BeautifulSoup soup = BeautifulSoup(result.text, 'html.parser') print(soup.fin

浏览 0提问于2019-06-13得票数 3

1回答

BeautifulSoup HTMLParseError.这有什么问题吗？

python、beautifulsoup

这是我的代码： from bs4 import BeautifulSoup as BS import urllib2 url = "http://services.runescape.com/m=news/recruit-a-friend-for-free-membership-and-xp" res = urllib2.urlopen(url) soup = BS(res.read()) other_content = soup.find_all('div',{'class':'Content'})[0] print other

浏览 3提问于2012-12-20得票数 4

回答已采纳

1回答

Node.js Facebook messenger机器人，使用Python Beautiful Soup进行网络抓取

javascript、python、node.js、web-scraping、facebook-messenger

我正在构建一个facebook messenger机器人，它抓取一个短语出现的网页，并通知用户，如果有任何出现。我使用JavaScript，NodeJS和Heroku构建了一个基本的facebook messenger机器人，它将收到的消息回传给发送者。我想用Beautiful Soup来做网页抓取部分。是否可以将Node用于机器人，然后使用Python仅用于抓取部分？如果是这样，我该如何加入这两者呢？

浏览 1提问于2016-11-09得票数 0

2回答

蟒蛇，美汤，WebScraping，熊猫，数据帧

python、html、pandas、beautifulsoup

我逐渐熟悉了Beautiful Soup和Pandas的Dataframe，但我似乎无法将两者结合起来。 import urllib.request from bs4 import BeautifulSoup import pandas as pd connection = urllib.request.urlopen('http://www.carfolio.com/specifications/models/?man=557') soup = BeautifulSoup(connection, "html.parser", from_encoding=

浏览 0提问于2015-09-02得票数 2

2回答

如何从udemy网站找到价格与网络抓取？

python、web-scraping、beautifulsoup

我正在使用python的精美汤包来找到课程的价格。用漂亮的汤，我得到的价格是美元，当我把它换算成卢比时，它是不同的。 price in udemy website : 700 price by beautiful soup : 13.99$ 我试图通过计算不同的课程比率来寻找逻辑，但它不起作用。下面是我的代码： from bs4 import BeautifulSoup import requests page = requests.get('https://www.udemy.com/course/python-data-science-machine-learning-bootca

浏览 0提问于2020-05-20得票数 1

1回答

我如何只刮数字而不是数字后面的文字？

python、html、web-scraping、beautifulsoup

下面是从HTML代码中提取出来的，我想要从网页上抓取。给予： <tbody> <tr> <th>SAT Math</th> <td>"541 average"</td> </tr> </tbody> 我正在使用Python和Beautiful进行网络搜索和提取541，但我的问题是：一旦我提取了"541平均值“，如何处理掉所有多余的物质--例如GPA --我如何去除”平均值“？非常感谢你，我将非常感谢任何人可以帮助我！ (对不起，我是

浏览 3提问于2017-10-26得票数 0

回答已采纳

1回答

美丽的汤-在文档的两个部分之间进行搜索

beautifulsoup

是否可以只对页面上两个字符串之间包含的内容运行Beautiful Soup？在反复遇到使用Yahoo Pipes进行截屏的限制后，我开始使用Beautiful Soup，部分原因是Scraperwiki上提供了托管版本。 Yahoo Pipes中的HTML Import块的一个方便之处在于，它允许您标识开始字符串和结束字符串，因此可以将抓取限制在页面的特定区域。我在Beautiful soup中找到了一种从/from/中抓取特定字符串的方法： def scrapeFrom(soup,txt,el,attr=''): `start=soup.find(text=txt)`

浏览 0提问于2010-11-04得票数 1

2回答

如何从facebook mbasic版本中抓取story_id？

facebook、web-scraping、beautifulsoup、python-requests

mbasic facebook lxml文件如下所示： <div class="feed" id="structured_composer_async_container"><section class="_7k7 storyStream _5nxi"> <article class="_55wo _56bf _5rgl" data-ft=" {"**mf_story_id:4364550910283823**","top_level_

浏览 11提问于2020-09-26得票数 0

1回答

Python Web抓取:通过加载页面抓取页面

python、python-3.x、web-scraping

我正在建立一个网络抓取项目使用python与美丽的汤和请求模块，问题是我想要抓取的网站有一个加载页面(完全不同于主页)，然后它将我重定向到主页。我怎么能等到页面加载完成，然后从主页上抓取数据呢？我知道Selenium可以处理这些类型的网站，但网站必须使用web驱动程序启动，这是我不希望在我的项目中使用的原因，这就是为什么我使用Beautiful Soup和requests模块。到目前为止，我的代码如下。 from bs4 import BeautifulSoup import requests import time source = requests.get(url).text prin

浏览 15提问于2020-10-25得票数 0

1回答

XBMC中包含哪个美汤版本？

python、beautifulsoup、xbmc

我正在尝试用Python结合XBMC来做一些网站抓取。当我查看Beautiful Soup的网站时，它的最新版本是版本4。当我查看XBMC时，它显示为版本3.2.0 ()。现在有没有人知道XBMC中使用的是哪个版本？

浏览 0提问于2013-09-25得票数 0

2回答

为什么我的网络抓取代码没有提取任何内容？

python、python-3.x、beautifulsoup

我正在写一个点燃的评论，并试图让我们，Python，web，抓取摘要等信息，关于其他研究在一个网站。例如，我想从这个网页中提取“Transcript”的内容，并编写了一个Python代码，但它似乎根本不起作用，也没有提取任何内容： from bs4 import BeautifulSoup import requests url = "https://cdm20045.contentdm.oclc.org/digital/collection/p20045coll17/id/1417/rec/4" html = requests.get(url,verify=False)

浏览 15提问于2022-09-15得票数 2

1回答

如何在jsp/servlet中调用python脚本？

python、html、jsp、beautifulsoup

我正在尝试从我的jsp servlet调用一段python代码来进行屏幕抓取(使用Beautiful Soup)。或者，如果可以直接从HTML调用它，它也可以工作。查看了几个线程，但无法获得任何解决方案。我想要的是给python程序一些参数，让它做一些屏幕碎片处理，并以某种方式将结果返回给jsp。

浏览 2提问于2013-05-17得票数 0

1回答

如何忽略BeautifulSoup属性异常时出现错误/继续

python、beautifulsoup

我已经用Python和Beautiful Soup构建了一个网络爬行器有时某些元素存在，有时不存在。我有一大堆这样的元素。对我来说，为每个"find“和/或"find_all”设置一个自定义异常并没有多大意义我只想忽略这些错误，这样我的刮刀就不会因为异常而停止。以下是我的终端的错误输出： Traceback (most recent call last): File "listing-scraper.py", line 80, in <module> 'engine_size':soup.find("span&

浏览 0提问于2012-05-31得票数 0

4回答

Python BeautifulSoup：“list_iterator”对象不可订阅

python、beautifulsoup

我试图从下面的html结构中提取内部的文本： <div class="account-age"> <label></label> <div> <div> <span>Text to extract</span> </div> </div> </div> 我有下面的Beautiful Soup代码来做这件事： from bs4 import BeautifulSoup as bs

浏览 25提问于2018-06-05得票数 2

回答已采纳

3回答

美丽的汤在使用get_text ()后不能使用

python、beautifulsoup

我正在做网络抓取，我只想从任何网站的文本，所以我使用的Beautiful Soup。最初，我发现get_text()方法也返回了JavaScript代码，因此为了避免遇到应该使用extract()方法的问题，现在我遇到了一个奇怪的问题，在提取script和style标记之后，Beautiful Soup甚至在新的` `html中都无法识别它的主体。我先说清楚我在做这件事 soup = BeautifulSoup(HTMLRawData, 'html.parser') print(soup.body) 在这里，print语句打印了所有的html数据，但当我这样做时 soup =

浏览 20提问于2015-07-05得票数 3

回答已采纳

2回答

在Python中将抓取的数据存储到文本文件中

python、web-scraping

我可以使用Beautifulsoup抓取数据，现在我希望生成一个文件，其中包含我使用Beautiful Soup抓取的所有数据。 file = open("copy.txt", "w") data = soup.get_text() data file.write(soup.get_text()) file.close() 我在文本文件中看不到所有的标签和全部内容。有关于如何实现它的想法吗？

浏览 0提问于2019-12-28得票数 1

3回答

无法使用BeautifulSoup从网站抓取表数据

python、html、web-scraping、html-table、beautifulsoup

我正在关注一个在线教程(https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/)，用于网页抓取html表格。当我学习本教程时，我能够抓取表格数据，但当我尝试从这个(https://www.masslottery.com/games/lottery/search/results-history.html?game_id=15&mode=2&selected_date=2019-03-04&x=12&y=11)网站抓取数据时，我无

浏览 9提问于2019-04-12得票数 1

回答已采纳

1回答

美丽的汤: FileNotFoundError：[Errno2]没有这样的文件或目录：

python、html、beautifulsoup

我正在努力学习美汤。我使用下面的网址来学习。当我尝试运行代码时，我得到下面的错误。 FileNotFoundError: [Errno 2] No such file or directory: 'what_is_beautiful_soup_in_python-Google_Search.html' Python模块和HTML文件都保存在同一个文件夹中。文件名= what_is_beautiful_soup_in_python-Google_Search谁能帮我解决这个问题？ from bs4 import BeautifulSoup soup = BeautifulSo

浏览 24提问于2020-03-11得票数 1

1回答

找不到此HTML的Beautifulsoup find()命令

python、html、web-scraping、beautifulsoup、find

我试图从python和Beautiful soup的页面中抓取一些信息，但我似乎无法将正确的路径写到我需要的地方，html是： <div class="operator active" data-operator_name="Etisalat" data- operator_id="5"><div class="operator_name_etisalat"></div></div> 我正在尝试获得名为"Etisalat“的运算符，我得到了以下结果： def list_co

浏览 23提问于2018-07-27得票数 0