使用BS4抓取数据-文本条()不起作用_无法使用bs4抓取数据_在Python中使用BS4抓取数据，嵌套表 - 腾讯云开发者社区

html、python-3.x、beautifulsoup

HTML5文件可能包含。我想用bs4查找和删除所有这些数据-*属性。根据bs4文档，可以使用attrs属性搜索这些属性。例如： import re from bs4 import BeautifulSoup data_soup = BeautifulSoup('<div data-foo="value">foo!</div>') data_soup.find_all(attrs={"data-foo": "value"}) 但是，以下一行不起作用： data_soup.find_all(attrs={

浏览 1提问于2018-08-12得票数 3

回答已采纳

2回答

Python -初学者刮刮美汤4- onmouseover

python、beautifulsoup

我是python (3)的初学者，目前我正在为我的梦幻足球赛季收集一些体育统计数据。在此之前，我是绕着路走的(在HT-track中下载，转换为excel，然后使用VBA合并我的数据)。但现在我正在尝试学习python来提高我的编码能力。我想抓取，但是在只选择我想要的行/表时遇到了一些困难。下面是我的代码目前的状态。它仍然有一些代码，我一直在尝试使用它。 from urllib.request import urlopen # import the library from bs4 import BeautifulSoup # Import BS from bs4 import Soup

浏览 25提问于2017-02-21得票数 1

回答已采纳

1回答

用BeautifulSoup进行基本的Python抓取

python、web-scraping、beautifulsoup

我对编码非常陌生，最近我开始研究网络抓取。我一直在跟踪并阅读BS4文档，但我只是不明白为什么我的代码不能工作。我正在尝试用webscraper提取，但它似乎找不到任何与"('div'，class_=‘header’)‘“匹配的标记。我的代码： import requests from bs4 import BeautifulSoup SOURCE = requests.get('http://coreyms.com/').text SOUP = BeautifulSoup('SOURCE', 'lxml') HEA

浏览 2提问于2018-09-10得票数 0

回答已采纳

2回答

如何用空类值从div中刮取文本

python、python-3.x、web-scraping、beautifulsoup

嗨，如何在不上课的情况下从div中抓取文本？首先，我尝试使用类“作业”页从div中抓取所有数据，然后没有类值，但它不起作用。 from bs4 import BeautifulSoup import requests a = {} def antal_pl(name=''): try: page_response = requests.get('https://antal.pl/oferty-pracy?s=&sid=&did=Accountancy', timeout=40).text pag

浏览 1提问于2018-04-28得票数 0

回答已采纳

1回答

一个国家的天气，地点bs4

python、web-scraping、beautifulsoup

我试图使用这个网站，使用BeautifulSoup4通过打开一个URL来抓取天气数据： quote_page=r"https://www.timeanddate.com/weather/%s/%s/ext" %(country, place) 我对网络抓取方法和BS4还不熟悉，我可以在页面的来源中找到我需要的信息(例如，我们把国家作为印度，在搜索中把城市作为孟买)链接为：如果您看到页面的源代码，就不难使用CTRL+F并找到诸如“湿度”、“露点”和当前天气状况(如果天气晴朗、多雨等)等信息的属性，唯一阻碍我获取这些数据的是我对BS4的了解。您能检查页面源并编写BS4方法来获取

浏览 2提问于2019-03-09得票数 1

回答已采纳

1回答

无法使用BS4找到css选择器

css、web-scraping、beautifulsoup、css-selectors

我正试着从上抓取一些数据，但是无法使用bs4的css selector。由于我尝试获取的标记有许多类，因此我使用soup.select()函数。我可以使用其他函数很容易做到这一点，但我很好奇为什么使用这个特别不起作用。 from bs4 import BeautifulSoup import requests url = 'https://www.bose.com/en_us/locations/?page=1&storesPerPage=10' soup = BeautifulSoup(requests.get(url).content) soup.s

浏览 7提问于2019-08-18得票数 0

2回答

通过抓取推特获取推特账号粉丝数

python、web-scraping、twitter

我试图通过抓取twitter来获取给定Twitter账号的追随者数量。我试过用BeautifulSoup和XPath抓取。但是所有的代码都不起作用。这是我的一些示例测试代码， from bs4 import BeautifulSoup url = "https://twitter.com/BarackObama" resposnse = re.get(url) soup = BeautifulSoup(resposnse.content) div_tag = soup.find_all('main',{"class":"css-1

浏览 7提问于2020-09-15得票数 0

3回答

抓取每条推文回复的想法

python、twitter

嗨，我刚开始从推特上抓取数据，我一直在做一个收集推文和回复的项目。我使用twitter API抓取了tweet，但我无法抓取他们的回复。有什么建议吗？

浏览 3提问于2021-01-14得票数 0

2回答

如何在不对整数值进行舍入的情况下抓取网站表？

python、pandas、beautifulsoup、rounding

我正在从一个德国网站上抓取表格。德国人用逗号(，)表示小数(.)逗号为十进制。当我抓取表时，它会自动四舍五入或转换数据。例如，如果值是“2000”，则在德语中写为2.000。BS4将其转换为二(2) 有没有什么解决方案可以让我在不改变值的情况下抓取？这是我的代码。 import requests import pandas as pd url = "https://buchholz-stadtwerke.de/wasseranalyse.html" df = pd.read_html(requests.get(url).text, flavor="bs4"

浏览 16提问于2020-09-28得票数 0

回答已采纳

2回答

facebook页面抓取需要登录

python

我正在抓取facebook页面数据，但要访问所有数据，我需要登录到我正在使用的帐户。 import wget from bs4 import BeautifulSoup url = "https://www.facebook.com/hellomeets/events" down = wget.download(url) f = open(down, 'r') htmlText = "\n".join(f.readlines()) f.close() print htmlText 如何登录账号，抓取页面的所有数据？

浏览 4提问于2015-06-17得票数 2

1回答

Python语言中BS4 find_all()语句中的过滤函数问题

python、function、beautifulsoup、tags、filtering

我正在抓取一个HTML网页。我在Mac机上使用Python库(4.6.0)和BeautifulSoup (3.7)。在其他东西中，我看到了一堆'div‘标签，它们有class属性。一些'div‘标签带有多个class属性值。现在我想根据标记名和class属性值进行过滤，例如，我想找到class='a‘但没有class='b’的' div‘标记(是的，有些div标记带有class='a b')。为了获得这些标记，我尝试使用BS4文档()中提到的过滤函数。我的印象是，find_all()将bs4标记元素传递给函数，在该函数中，您可以对BS

浏览 103提问于2018-07-09得票数 -1

3回答

BeautifulSoup:如何获取div选项卡的子选项卡

python、python-requests、beautifulsoup

这是我的密码。 import requests from bs4 import BeautifulSoup res = requests.get('http://www.snapdeal.com/products/computers-laptops?sort=plrty&') soup = BeautifulSoup(res.text) price = soup.find_all('div', class_="product-price").children 我想从这个网站抓取数据，但是那个div没有类，这就是为什么我不知道怎么

浏览 8提问于2014-09-18得票数 1

回答已采纳

1回答

除非按下搜索按钮，否则url无法获取数据

python

我正在尝试用python进行网络抓取。除非按下搜索按钮，否则链接"https://www.etnet.com.hk/www/eng/stocks/realtime/quote.php?code=00883“不会获得任何数据。那么，如何为python webscraping解决这个问题呢？我正在尝试通过这个链接"https://www.etnet.com.hk/www/eng/stocks/realtime/quote.php?code=883“来网络抓取股票数据，但由于url不起作用而失败。除非我手动按下搜索按钮，否则不会显示详细数据。你知道怎么修复它吗？ import

浏览 33提问于2019-10-01得票数 0

1回答

使用Python中的美观汤从元素中获取文本值

python、beautifulsoup

我正在制作python脚本，它从在线站点获取文本数据。这是一个简单的web抓取脚本，语言只是python。我不使用硒，只使用漂亮的汤。而且我可以从<p>或<div>，甚至<h>和<a>中抓取文本，但是当我试图从<td>获取文本时，代码不起作用。下面我分享了我的代码。 from threading import Thread from bs4 import BeautifulSoup from lxml import etree detailPage = requests

浏览 5提问于2021-07-16得票数 1

回答已采纳

1回答

用beautifulsoup4从天才网站抓取评论

python、html、web-scraping、beautifulsoup、expand

我想问一下，在您看来，是否有可能用beautifulsoup4刮掉genius.com的评论。我问这个问题是因为当我用bs4抓取页面时，我找不到注释的部分，因为它们在一个可扩展的容器后面。如果我从浏览器中查看页面的html，即使我没有点击“展开”按钮，也可以看到注释，但是当我用bs4抓取时，我在html源代码中找不到它们。我怎样才能解决这个问题？有一种方法可以用bs4刮掉评论吗？还是我应该用硒？(我想避免使用selenium，因为我必须刮掉很多数据，而且使用selenium，这可能太慢了)。

浏览 2提问于2021-12-15得票数 -1

1回答

Python数据抓取:使用href和prettify系列来抓取标题不起作用

python、web-scraping

我是Python的新手，我的第一次尝试是从一个随机的网站上抓取一些网页。这是我的代码，我搞不懂到底是怎么回事。我正在抓取标题和剧集的大小，但它有2个href和美容不起作用。代码如下： from bs4 import BeautifulSoup import requests source = requests.get('https://1337x.to/popular-tv').text soup = BeautifulSoup(source, 'lxml') tvhead = soup.find('tbody') filename =

浏览 5提问于2018-09-12得票数 1

1回答

如何从字符串中删除&shy；？

python、string、web-scraping、beautifulsoup

我正在使用BeautifulSoup来抓取。在一个网站上，他们在标题中使用了。原始html元素：<h1 itemprop="name">Penne met salami en broccoli</h1> 当我抓取它时，它返回这个："Pen�ne met sa�la�mi en broc�co�li“ 字符串中的每个�都是一个 我尝试过string.replace('\u00AD'，'

浏览 20提问于2020-02-21得票数 0

回答已采纳

1回答

如何抓取一个使用Python (BeautifulSoap，Requests)登录的BankID网站？

python

如何抓取一个使用Python (BeautifulSoap，Requests)登录的BankID网站？我想用BankID登录，然后用python创建一个网站。如何登录到使用BankID登录的网站？常规方法不起作用： from bs4 import BeautifulSoup import requests source = requests.get('https://example.com').text soup = BeautifulSoup(source, 'lxml') print(soup)

浏览 20提问于2020-10-04得票数 0

回答已采纳

1回答

使用随机选择器抓取表

python、selenium、web-scraping、beautifulsoup

我正在尝试从中抓取数据。我需要有结果按照他们的日期排序。但是当我仔细观察时，我发现它们没有通用的选择器，用来选择日期相同的行。我试过在Selenium中使用bs4和xpath，但是什么都搞不懂。是否有任何方法可以使用selenium或bs4来做到这一点。

浏览 0提问于2019-07-02得票数 0

2回答

使用python抓取动态javascript内容网页

python、html、selenium、web-scraping、rendering

我正在尝试使用Python抓取这个网站：'‘。首先，我注意到我感兴趣的表实际上位于这个url：但是，requests + BS4只给了我HTML格式的页面源代码。我假设这是因为内容是动态的。因此，我尝试了Selenium + BS4来抓取网站，但我仍然只能抓取页面源代码。 from selenium.webdriver import Firefox from bs4 import BeautifulSoup import lxml driver = Firefox() url = 'https://ec.europa.eu/assets/eac/msca/jobs/im

浏览 4提问于2020-02-02得票数 0

1回答

如何在Python中对带有图片的表格进行and抓取并导出到Excel中？

python、web-scraping、beautifulsoup

我正试着从URL上盗取一张桌子我可以使用Scrapestorm工具抓取表格数据。我是python的新手，不能从这个URL获取数据。 from bs4 import BeautifulSoup page = requests.get('https://pantheon.world/explore/rankings?show=people&years=-3501,2020') soup = BeautifulSoup(page.text) Excel中所需的输出： enter image description here 从网页上抓取表格数据和图片是可能的吗？

浏览 61提问于2020-12-23得票数 1

回答已采纳

4回答

如何在BS4中有效抓取多个URL

python、python-3.x、web-scraping、beautifulsoup

我正在尝试找到一种在BS4中抓取多个页面的有效方法。我能够轻松地抓取第一页，并获得我需要的所有数据，但不幸的是，并不是所有的数据都在上面。还有另外两个页面需要抓取，而不是硬编码并更改第二个和第三个页面的URL，我想知道是否有更好的方法使用BS4在Python中实现这一点。唯一需要更改的部分是page=1到相应的页码(1、2、3)。 import csv import requests from bs4 import BeautifulSoup url = "https://www.congress.gov/members?q={%22congress%22:%22115%22}&

浏览 0提问于2018-04-04得票数 0

1回答

使用python中的BeautifulSoup提取id以特定字符串开头的元素

python、beautifulsoup

我试着用BS4做一些网络抓取。到目前为止，我已经使用 urls = [item for item in soup.select('h4 a')] 但是，我只想要ID开始的urls。 <a href="http://www.sampleurl.com/static/welcome" id="entry_1">Lamborghini </a> 我试过item.id，但它不起作用。我遗漏了什么？

浏览 0提问于2019-07-03得票数 3

回答已采纳

1回答

如何在点击更多按钮后抓取网站数据

python、selenium、web-scraping、beautifulsoup

我正在尝试使用BS4 + selenium学习web抓取。网站链接为评论文本具有更大的跨度，单击该跨度时，使用AJAX将更多的文本加载到同一div中。但是我的代码在selenium单击More按钮之前输出了评论文本。如何使用selenium等待抓取更多按钮 from selenium import webdriver from bs4 import BeautifulSoup def openUrl(link): driver = webdriver.Firefox() driver.get(link) elem1 = driver.find_ele

浏览 4提问于2017-06-20得票数 0

3回答

每当我试图导入时，没有名为bs4的模块

python、web-scraping、beautifulsoup、pip、web-scraping-language

我试图创建一个web抓取程序，但是每当我编写：从bs4导入漂亮汤时，我总是会得到错误：no模块名为bs4。我安装了bs4 by：pip安装beautifulsoup4和pip安装bs4，但是没有工作。谢谢!

浏览 4提问于2021-10-03得票数 1

回答已采纳

1回答

访问HTML注释中的标记

python、html、web-scraping、beautifulsoup

我已经通过BS4熟悉了使用Python进行web抓取的过程。我还没有找到嵌入在注释中的DOM标记的解决方案。例如，当试图从.html页面()获取数据时，检查页面上的表显示： <div class='table_outer_container"> ... </div> 我通常可以用BeautifulSoup抓取。但是，当我查看实际的页面源时，上述表被包含在注释标记中：  我一直无法找到通过BS

浏览 0提问于2018-12-11得票数 0

回答已采纳

1回答

Python不能得到所有的PhantomJS

python、selenium、web-scraping、beautifulsoup、phantomjs

据我所知，我们可以通过多种方式进行网络抓取： 1-使用简单请求和bs4 在网页来源有脚本的情况下： 2-使用硒和bs4 3-使用PhantomJS 在这里我试着刮我知道第一种方法行不通，但PhantomJS也不起作用。在这个链接中，我需要<table>标记。但我根本搞不懂。有人能帮忙吗？我的代码： from selenium import webdriver from bs4 import BeautifulSoup url = 'https://zenitbet.com/en/line/football' driver = webdriver.Phantom

浏览 0提问于2020-09-03得票数 1

回答已采纳

1回答

使用selenium、bs4或请求从交互式图表中抓取数据

python、selenium、web-scraping、beautifulsoup

我想从这个页面上的图表中抓取数据：http://188.166.44.172/match/live-stats/100941310 我尝试了requests和bs4，但没有获得任何数据，我也尝试了selenium，但也没有数据。下面是使用请求的代码： import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:76.0) Gecko/20100101 Firefox/76.0'} ses

浏览 29提问于2021-04-06得票数 3

回答已采纳

1回答

美汤回溯第一次尝试

python、beautifulsoup、urllib、traceback、urlopen

你好，我是蟒蛇和美丽汤的新手。我已经下载了BS4与pip安装，并试图做一些网页替罪羊。我已经阅读了很多帮助指南，并且无法让我的BeautifulSoup()通过cmd编译器工作。这是我的代码： import urllib.request, urllib.parse, urllib.error from bs4 import BeautifulSoup import ssl # Ignore SSL certificate errors ctx = ssl.create_default_context() ctx.check_hostname = False ctx.verify_mode =

浏览 12提问于2022-09-30得票数 0

1回答

用刮取的数据填充django模型

django、django-models、beautifulsoup、scrapy、celery

我让使用bs4从中抓取数据以获得乡村统计数据。但是，我想使用这些数据来填充我的django模型，使用与相同的字段，我不知道如何刮取数据。我也很难用其他库抓取表格数据，比如scrapy (芹菜)，.this是我试图废弃的表的xpath，“//*@id=”main_table_countries_today“。如果有人能帮助我，那么如何使用这个刮掉的数据来存储在django中，那就太棒了。PS不使用外部CSV或Json文件。

浏览 0提问于2020-04-10得票数 0

1回答

无法从网站中抓取数据: Python BS4

python、web-scraping、beautifulsoup

我正在尝试使用带有python的从BS4中抓取数据。我尝试过许多方法，但无法检索到任何信息。看起来这是API什么的直接响应。有人能帮我朝正确的方向走吗？待收集的数据：谢谢,

浏览 0提问于2018-10-29得票数 0

回答已采纳

1回答

无法从网页检索链接

python、beautifulsoup

我正在使用bs4运行在一堆网站和抓取一个特定的链接从每个网页，但我有一个问题，抓取该链接。我试过让所有的链接使用。 soup = BeautifulSoup(browser.page_source,"lxml") print(soup.find_all('a')) 我尝试过许多其他方法，包括告诉它一个网站的确切地址。但每一次除了我想要的链接，一切似乎都还回来了。关于上下文，我的代码会转到这个站点的页面上。这是我正在搜索的链接中的两页。在“县联系人”下，这些页面中大多数都有一个链接，这是我想要获取的链接，但我只是找不到让它返回的方法，只返回那个

浏览 3提问于2022-07-06得票数 2

回答已采纳

2回答

BeautifulSoup-Python :如何抓取尚未加载的数据？

python、beautifulsoup

我尝试使用BeautifulSoup进行抓取，但它返回[]。然后，当我尝试查看源代码时，出现了div class="loading32"。如何抓取这类元素？ from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my_url = productUrl # bs4 part uClient = uReq(my_url) # bs4 part page_html = uClient.read() # bs4 part uClient.close() # bs4 p

浏览 71提问于2018-06-09得票数 1

回答已采纳

1回答

美丽的汤刮

python-3.x、python-2.7、web-scraping、beautifulsoup

我遇到了旧的工作代码无法正常工作的问题。我的python代码是用漂亮的汤抓取一个网站，并提取事件数据(日期、事件、链接)。我的代码是拉取位于tbody中的所有事件。每个事件都存储在一个<tr class="Box">中。问题是我的抓取器似乎在这个<tr style ="box-shadow: none;>之后停止了，在它到达这个部分(这是一个包含3个我不想抓取的事件的站点广告的部分)之后，代码停止从<tr class="Box">中拉取事件数据。有没有一种方法可以跳过这种tr风格/忽略未来的案例？ ? i

浏览 12提问于2020-09-30得票数 2

回答已采纳

1回答

如何在Python中抓取ASP网页？

python、asp.net、python-3.x、web-scraping、beautifulsoup

我很难描述我正在尝试做什么，因为我看到了一个有数千页的页面，显然还有表格，但pd.read_html不起作用！在我想到这一点之前，这一页有一张表格要先填写... 转到此链接将允许您选择一个学期，在这样做的过程中，将显示成千上万的表。在选择了一个学期希望阅读HTML之后，我尝试使用URL，但没有这样的运气。我仍然不知道我在看什么(比如，这是一个网页，还是ASP？ASP到底是什么？)如果你点击视频链接，你会看到如果你选择了春季学期，复制链接，并把它放到搜索栏中，它就会给出一个丑陋的错误。一些SQL错误。这就是我的困境。我在试着获取这些数据...所有这些表格。我写的上一篇文章，我做了一次暴力尝试，

浏览 0提问于2017-09-20得票数 0

2回答

抓取时查找特定值，未找到时忽略

python、html、python-3.x、beautifulsoup、find

所以，我正在创建一个web抓取工具，我想实现一个IF语句来检查文本'Comarca de‘是否在HTML中的段落中，但它不起作用，下面是我尝试过的： import urllib.request import bs4 from bs4 import BeautifulSoup pagina_scrap = str('http://www8.tjmg.jus.br/juridico/diario/index.jsp?dia=0903&completa=interior|0720') pagina_open = urllib.request.urlopen(pag

浏览 20提问于2020-03-29得票数 0

1回答

如何使用python/大熊猫从这个网页中读取表格？

python、pandas、web-scraping

网页链接- 我试过使用熊猫、read_html和bs4这样的网络抓取库，但是没有运气，因为网页上的数据没有包装在一个表标签中。请帮帮我!

浏览 3提问于2021-02-17得票数 0

回答已采纳

3回答

HTML表格特定行抓取

python、python-3.x、selenium、selenium-webdriver、lxml

我想从的特定行中抓取数据。我只想要橙色/金色的行。在此之前，我使用SIM提供的代码来抓取整个表信息，然后对其进行操作： from selenium.webdriver import Chrome from contextlib import closing from selenium.webdriver.chrome.options import Options from bs4 import BeautifulSoup URL = "https://www.n2yo.com/passes/?s=39090&a=1" chrome_options = Options

浏览 2提问于2018-03-17得票数 1

2回答

使用漂亮的汤从网页中的url中抓取数据。Python

python、web-scraping、beautifulsoup

我正在尝试从网页内的url中抓取数据(insta id和关注者计数)：，https://starngage.com/app/global/influencer/ranking/india url的元素id是：@priyankachopra 类似地，我想从同一个表中的所有链接中抓取数据有人能告诉我怎么做吗？ import requests from bs4 import BeautifulSoup as bs r = requests.get("https://starngage.com/app/global/influencer/ranking/india")

浏览 20提问于2021-07-17得票数 0

回答已采纳

1回答

将爬网的Tweet放入数据库

java、php、mysql、phpmyadmin、xampp

谁能告诉我怎么才能把抓取的推文放到数据库里。我用java抓取了推文。我把它存储在一个文档里。我正在尝试使用xampp创建一个数据库，并存储tweet。我对此还是个新手，我正在努力学习如何构建自己的web应用程序。我被困在这里了。任何帮助都将不胜感激。谢谢。

浏览 2提问于2011-08-01得票数 0

1回答

如何从承载HTML之外的表数据的网站中刮表？

python、html、pandas、beautifulsoup、python-requests

我正在尝试从这个表URL：中抓取表数据在之前的测试中，我使用了以下Python包:从bs4导入BeautifulSoup导入请求导入mysql.connector作为pd从sqlalchemy导入create_engine 但是这个url的HTML不包含表数据，而是从外部数据库中提取数据。有人能告诉我用这种HTML设置使用python脚本来抓取表数据的正确方向吗？我试着用我以前刮过的方法做一次盲刮。 from bs4 import BeautifulSoup import requests import mysql.connector import pandas as pd

浏览 3提问于2022-04-02得票数 -1

回答已采纳

1回答

如何在键盘上启用中文？

keyboard-layout、input-language、chinese

我安装了Ubuntu 13.10英文版。我可以在系统上查看汉字，但我也想输入汉字。我想知道有什么语言套餐实际上是要在系统中输入中文吗？非常感谢您的信息和帮助。

浏览 0提问于2014-04-24得票数 0

回答已采纳

1回答

Python -抓取单击后加载的数据

python、web-scraping、beautifulsoup

我对Python有点陌生，对于我的一个研究项目，我需要一个网络刮刀来抓取网络内容来创建一个数据集。由于大多数帖子都建议使用漂亮的汤包，所以我试着基于Python构建了一个web抓取器。我需要抓取的数据是在单击网页上的按钮后加载的。下面是一个例子：当点击"12条评论“时，弹出窗口加载并显示评论。我需要删掉这些评论。我尝试了许多方法，但到目前为止似乎都不起作用。如果有什么需要做的，有人能检查一下我的代码吗?或者给我提供另一种方法？ import bs4 import requests session = requests.Session() url = "ht

浏览 1提问于2015-09-27得票数 0

1回答

BeautifulSoup，将刮伤结果保存在文本文件中

python、beautifulsoup

我试图使用BeautifulSoup从表中抓取数据，并将其保存到文件中。我写了这个： import urllib2 from bs4 import BeautifulSoup url = "http://dofollow.netsons.org/table1.htm" page = urllib2.urlopen(url).read() soup = BeautifulSoup(page) for tr in soup.find_all('tr')[2:]: tds = tr.find_all('td') print

浏览 0提问于2013-09-23得票数 2

回答已采纳

3回答

在使用美汤抓取表数据时遇到麻烦

python、python-3.x、web-scraping、beautifulsoup

我想从这个site中抓取表格数据。我尝试了下面的代码，但无论出于什么原因，BS4似乎无法获取表数据： import bs4 as bs import urllib.request sauce = urllib.request.urlopen('https://drafty.cs.brown.edu/csprofessors').read() soup = bs.BeautifulSoup(sauce, 'lxml') table = soup.find('table', attrs={"id": "table"

浏览 30提问于2020-10-24得票数 1

回答已采纳

1回答

如何从此网页上的Google表中刮取数据？

python、web、beautifulsoup、screen-scraping

我正在尝试使用Python从这个网页上的表中抓取数据。我尝试使用请求和bs4。我得到了原始的HTML，但是看起来数据是隐藏的。我该怎么做？

浏览 1提问于2016-12-19得票数 0

回答已采纳

1回答

用Python Selenium抓取动态网站

python、selenium、web-scraping、beautifulsoup

我试图通过BS4 python来抓取动态网站：我试过： from urllib.request import urlopen from bs4 import BeautifulSoup page = urlopen(wiki) soup = BeautifulSoup("https://www.nadlan.gov.il/?search=תל אביב יפו") 我有两个问题：网站是动态的，当我查看页面源时，我没有看到只有JavaScript脚本：的页面内容当我打开站点时，加载数据需要几秒钟时间：：如何用硒来解决这些问题呢？

浏览 1提问于2020-09-22得票数 0

回答已采纳

1回答

使用BeautifulSoup4和Python抓取有序列表

python、html、web-scraping、beautifulsoup

我对Python/BS4和数据抓取比较陌生，所以我觉得这是一个简单的问题，但我在网上找不到任何资源。我的目标是使用BS4使用生成随机地址并抓取它们。我当前的代码如下： site = 'https://www.randomlists.com/random-addresses?qty=10' res = requests.get(site) soup = bs4.BeautifulSoup(res.text, 'html.parser') bigdata = soup.find('ol',{'class':'rand_

浏览 0提问于2018-10-11得票数 0

1回答

美汤在股票跟踪器上的应用

python、beautifulsoup

我试图从Robintrack中抓取数据，但是，我无法从增加/减少部分获得数据。我只能抓取主页数据。这是我的汤 import bs4 import requests from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup robin_track_url= 'https://robintrack.net/popularity_changes?changeType=increases' #r = requests.get('https://robintrack.net

浏览 18提问于2020-07-25得票数 0

回答已采纳

1回答

下载HTML时未出现URL如何刮除？Javascript在这里可能是个问题

python-3.x、web-scraping、xpath、python-requests、lxml

我试图刮这个主页()的一些网址。我可以得到标题和其他网址。但是它们中的一些不在HTML上，无法使用请求和lxml进行抓取。我不想使用selenium/bs4 4/美观so，因为代码将在Heroku服务器上运行，因此会使一切变得更加困难。我想要抓取的URL是在div之后使用以下两个类:容器和false。这是强制性的。在div上没有类"false“的其他URL可以很容易地抓取。尽管存在这个问题，有谁知道如何刮掉URL吗？或者有人推荐其他库来完成这个任务(不是bs4或selenium)？ import requests import lxml.html url = 'https

浏览 4提问于2022-03-11得票数 1

回答已采纳