如何用BS抓取这段HTML

如标题所示，我需要从网站下载某些.csv文件，而且我在做这件事时遇到了麻烦。我在编程方面非常新，尤其是在这个主题(网络抓取)方面。from bs4 import BeautifulSoup as BSURL = 'https://datos.gob.ardataset/cultura-mapa-cultural-espacios-cultural

浏览 1提问于2021-12-25得票数 0

回答已采纳

1回答

如何访问谷歌搜索结果的第一个结果(突出一个视频链接)？

、、、

编辑:我的输入将是我在谷歌搜索框中查询的字符串。就像这个“黑色安息日铁人”

浏览 1提问于2014-12-11得票数 0

回答已采纳

1回答

如何用Python抓取JavaScript页面

、、、、

我正在尝试抓取patentsview.org，但我遇到了一个问题。当我尝试抓取这个页面时，它不能很好地工作。使用JavaScript从其数据库中获取数据的站点。我试着用requests-html包获取数据，但我不太明白。这是我尝试过的： # Importfrom bs4 import BeautifulSoupsession() soup = Bea

浏览 18提问于2021-04-17得票数 0

2回答

Python web抓取返回错误

、、

我目前正在学习Python，并尝试学习web抓取。我一直在使用我从一些教程中获得的示例代码，但我在查看的一个网站上遇到了问题。DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-文档类型与我无法从文档中抓取有什么关系吗？

浏览 1提问于2013-10-18得票数 0

1回答

美汤移除标签

、、

我运行这段代码是为了使用BS4从网站上抓取邮政编码。from urllib.request import urlopen as uReqpage_html = uClient.read()page

浏览 3提问于2018-02-17得票数 0

2回答

BeautifulSoup findAll()没有显示每个标记

、、、

我试着在9gag.com/hot上用网络抓取每一张图片，用于教育目的，我正在学习python和网络抓取。以下是我的非常基本格式的代码：os.makedirs('9gag'True) res = requests.get(ur

浏览 10提问于2019-07-11得票数 0

回答已采纳

2回答

为什么来自Python Pandas的Read_HTML不能工作？

、、、

我想使用Python Pandas Read_HTML()函数从雅虎金融表中抓取信息，如截图所示，以红色边框显示。 ? pip install bs4!pip install pytest-astropy!pip install plotly from bs4 import BeautifulSoup import requests

浏览 54提问于2021-07-05得票数 1

回答已采纳

3回答

BeautifulSoup4表

、、、、

我已经找到了几篇关于如何做到这一点的文章，但我对bs4中的任何一篇文章都不太满意。有人能帮我弄清楚如何用filename.doc从这个桌子上拿出bs4吗？在我正在抓取的html中，还有一些具有<table class="layout"> 的表<table class="layout"> <tr>.from bs4 import BeautifulSoup

浏览 5提问于2016-03-29得票数 0

回答已采纳

2回答

我对python或任何comp语言都很陌生，但是我试着用这段代码从一个站点上抓取一个标题，但是它一直打印"None“，就好像标题或者任何标记(如果我替换它)都不存在一样。import bs4from bs4 import BeautifulSoup as soup my_url=1&Keyword=the%20item&SortAggregation=5&LegendExpanded=true&am

浏览 2提问于2017-06-21得票数 0

回答已采纳

2回答

用python -selenium进行网络抓取

、、、

我想从类"news“中抓取所有的href内容(代码中提到了Url)，我尝试了这段代码，但是它不起作用.代码：from selenium import webdriver driver.set_window_position(-10000,-1000

浏览 0提问于2018-02-10得票数 2

回答已采纳

1回答

Python3.x:从页面导航部分找到最大的数字？

、、、

import bs4from bs4 import BeautifulSoup as soup section.Every element before 'Next→' is consist of the upper limit bs= soup(html, "html.parser") ma

浏览 2提问于2017-07-19得票数 0

回答已采纳

2回答

我如何才能刮除这个特定网站(cineatlas)的内容？

、、

我正在努力浏览这个特定网站的内容：我使用了这个基本的漂亮汤代码type(soup)这是我得到的，而不是元素列表 <ul class

浏览 0提问于2019-08-04得票数 0

回答已采纳

1回答

用Python Selenium抓取动态网站

、、、

我试图通过BS4 python来抓取动态网站： from urllib.request import urlopenpage =search=תל אביב יפו")网站是动态的，当我查看页面源时，我没有看到只有JavaScript脚本：的页面内容如何用硒来解决这些问题呢

浏览 1提问于2020-09-22得票数 0

回答已采纳

2回答

使用检测元件刮擦

、、、、

我正试图通过抓取Instagram来获取一些信息。我在twitter上尝试过这段代码，它运行得很好，但在Instagram上没有显示结果，这两种代码都在这里可用。Twitter代码：from urllib2 import urlopenthepage = urlopen(theurl) soup = BeautifulSoup(thepage,&

浏览 3提问于2016-06-16得票数 4

2回答

当web在Python中搜索表时，返回一个空表。

我需要通过使用Python中的BeautifulSoup库进行web抓取，从网站抓取一个表。来自URL https://www.nytimes.com/interactive/2021/world/covid-vaccinations-tracker.htmlimport requests# vaacineProgressResponse =

浏览 0提问于2021-04-18得票数 3

回答已采纳

1回答

Python请求无法拉取网页

、

我有一个UPC代码的列表，我正在尝试写一个脚本来拉出关于它们的信息表单 https://www.barcodelookup.com 但是请求只返回html标记，而不返回我想要的信息。下面是我的代码示例： import requestspage = requests.get('https://www.barcodelookup.com/075610166101') soup = BeautifulSoup(page.text, &

浏览 43提问于2020-07-27得票数 0

回答已采纳

3回答

无法下载网页的完整源代码

我正在尝试使用python请求库来抓取网页。但我无法下载完整的html源代码。当我使用我的web浏览器检查元素时，它给出了完整的html，我相信它可以用于抓取，但当我使用python请求库访问这个url时，那些包含数据的html标记就消失了，我无法从这些标记中抓取数据。下面是我的示例代码：from bs4 import BeautifulSoup as BSimport http.clie

浏览 5提问于2019-07-30得票数 1

1回答