我试着用漂亮的汤抓取一个表格，结果只有一行表格显示为输出 - 腾讯云开发者社区

python、web-scraping、beautifulsoup、formatting

我试着用漂亮的汤刮两张桌子，结果撞到了砖墙上。网站：我试图从表中抓取标题行，但由于某种原因无法将其解析为列表，因此我无法对其进行操作。然后，我想从每一列中获取数据，并将其全部输出到JSON文件。示例： for row in soup.find_all("tr"): #Append to list(?) 删除不需要的条目？我希望能够将其输出到JSON文件，并像这样显示它。 ASN编号:国家：“美国”，“名称”：XXX，"Routes V4"，"XXXX"，"Routes V6"，"XXX“

浏览 0提问于2019-01-12得票数 0

1回答

访问/查看网页上的表格

web-scraping、google-chrome-devtools、web-inspector

我对网络抓取非常陌生，我正在尝试抓取：浏览器: Chrome 我正试着把桌子刮掉，然后用它来做一道美味的汤。当我点击表格时，我不能突出显示表格的html，因此不能继续。我做得对吗？或者我看错了桌子的位置？

浏览 32提问于2021-03-04得票数 0

回答已采纳

1回答

漂亮汤删除标签错误

python、html、regex、beautifulsoup

因此，我正在抓取一些内容，并试图用python中的漂亮汤删除html标记，但保留内容。例如，考虑到： <p>Hello, how <b>are</b> you</p> 我想要输出： Hello, how are you 通常，我会使用get_text方法。问题是，很明显，我正在抓取的一些页面中有html错误。例如： <p>Hello, how </b><b>are</b> you</p> 当发生这种情况时，get_text()将删除我想要的大部分文本。我试着用regex来做这件事，结果还

浏览 3提问于2015-03-12得票数 0

回答已采纳

1回答

抓取url不变的分页表

web-scraping、beautifulsoup、python-requests、pagination

我正在尝试从下面的网页中抓取表格中的：它显示了前25个结果，但对于其余的结果，您需要单击next按钮来查看它们。我有一个python脚本，其中我使用请求和漂亮的汤来抓取表格，但只能从HTML中直接抓取前25个结果。我对此完全是新手，经过一些谷歌搜索，我仍然不能想出如何从所有页面中检索所有数据。问题是，当选择新的结果页面时，URL不会更改。有没有人能带我到正确的方向？致以亲切的问候，埃沃德

浏览 26提问于2021-05-25得票数 1

1回答

如何用美汤抓取多页搜索结果

python、web-scraping、beautifulsoup

使用以下url：我正在尝试抓取这里显示的表格的结果。问题是，不管怎样，搜索结果被限制在25个/页面，正如你所看到的--在多个页面上有数千个结果。我已尝试更改开始日期和结束日期，但无济于事。当我用漂亮的汤刮的时候，我只能刮掉第一页的结果，然后刮就停止了。我在抓取(在本例中)全部85页的结果时遗漏了什么？(并且-我的代码是成功的，但只返回结果的第1页的抓取结果)。下面是我的代码： blah = [] html = 'https://www.prosportstransactions.com/basketball/Search/SearchResults.php?Player=&

浏览 8提问于2020-02-26得票数 0

回答已采纳

1回答

使用python从维基百科中刮表？

python、pandas、web-scraping、beautifulsoup

我试着从维基百科的页面上抓取表格数据：，我试过使用pd.read_html语法，但它不适用于我试图刮的表(尼泊尔按地区分列的新冠肺炎确诊病例)。我试着用“美丽汤”和“熊猫”来收集数据，但是它不起作用 url = 'https://en.wikipedia.org/wiki/2020_coronavirus_pandemic_in_Nepal' r = requests.get(url) soup = BeautifulSoup(r.text,'html.parser') table = soup.find('table', {'clas

浏览 0提问于2020-04-06得票数 1

回答已采纳

1回答

如何使用Beautiful soup从没有类名或id的嵌套<li>访问<i>标记

python、web-scraping

我正在尝试抓取这个webpage1。我想使用漂亮的汤从链接访问‘R’列我的代码： rupees= job.ul.find('li').find('i',class_='material-icons rupee') 结果:无预期:卢比1.10 - 3.20拉克斯年利率 1

浏览 20提问于2021-07-13得票数 0

回答已采纳

2回答

如何从视图行获取节点ID？

php、drupal、views

我使用的是Drupal。我有一个将表单加载到节点上的模块。在我的模块中我使用了 if ( arg(0) == 'node' && is_numeric(arg(1)) ) {$node = arg(1);} 得到了每个表格所在的nid。现在，我已经创建了一个显示完整节点的视图，但是我的节点没有显示nid。我试着用像这样的东西 $node = node_load($rows->nid); 但它没有返回任何内容。基本上，我有一个显示大约10个节点的视图页面，我正在尝试查找视图中每个节点的nid。

浏览 3提问于2011-11-21得票数 3

回答已采纳

1回答

用python ==$0内容进行的网络抓取与漂亮的汤是不可用的

python、html、web-scraping、beautifulsoup

我正试着用美丽的汤从当地的上擦拭湖水的温度。生成的源代码(通过在Chorme浏览器中显示源代码)或通过使用漂亮汤进行抓取的内容是空的。 url = 'https://www.goitzsche-tourismus.de/goitzsche-bitterfeld/specials/172-wassertemperatur/' page = requests.get(url) soup = BeautifulSoup(page.content, 'html.parser') txt = soup.find("div", {"id"

浏览 4提问于2019-12-30得票数 1

1回答

Web抓取href链接后的每个字符串

web-scraping、beautifulsoup、href

我正试着用漂亮的汤在一篇烂番茄的文章里刮掉电影的片名。但是，电影标题位于每个电影页面的href链接之后。这是我想要得到的： <a href="https://www.rottentomatoes.com/m/the_shape_of_water_2017/">The Shape of Water</a>我只想得到文本‘水的形状’我可以得到这个文本，但这只是一部电影的文本。我想对同一页上的所有电影执行此操作，并且每个电影的链接的最后部分都会发生变化。有人能告诉我如何才能做到这一点吗?我是一个网络抓取的初学者。

浏览 12提问于2021-03-05得票数 0

1回答

为什么通过漂亮汤导入的html与实际的html不同？

html、beautifulsoup

嗨，我正在制作一个程序，它在堆栈溢出中为搜索词抓取结果。我编写了代码以获得某些结果的最大页面。我需要知道抓取的最大页面，但是通过开发工具查看的html结构和通过漂亮汤获得的html信息是不同的。网址：下面是关于div标记的信息，它的类名是s-paginatino，通过开发工具。 from bs4 import BeautifulSoup import requests url = "https://stackoverflow.com/jobs?q=vue" result = requests.get(url) soup = BeautifulSoup(result

浏览 1提问于2020-08-30得票数 1

2回答

从初始加载时不可见的页面体中抓取数据

python、selenium、web-scraping、beautifulsoup

我试着用美丽的汤从网站刮数据。如果向下滚动到个人Play部分，单击"share and more > get table as csv“，就会出现表格数据的CSV表单。如果我检查这个CSV文本，我会发现它在<pre>标记中，并且有一个id "csv_all_plays“ 我正在尝试使用python包--漂亮汤--来抓取这些数据。我现在做的是 nfl_url = #the url I have linked above driver = webdriver.Chrome(executable_path=r'C:/path/to/chrome/driver

浏览 1提问于2019-06-19得票数 1

回答已采纳

3回答

美丽的汤使用正则表达式来查找标签？

python、regex、web-scraping

我真的希望能够让Beautiful Soup匹配任何标签列表，就像这样。我知道attr接受正则表达式，但是在漂亮的汤中有什么东西允许你这样做吗？ soup.findAll("(a|div)") 输出： <a> ASDFS <div> asdfasdf <a> asdfsdf 我的目标是创建一个可以从网站抓取表格的抓取器。有时标签的命名不一致，我希望能够输入一个标签列表来命名表格的“数据”部分。

浏览 0提问于2014-07-15得票数 27

回答已采纳

1回答

页面源HTML与漂亮的soup检索到的HTML不一致

python、html、firefox、beautifulsoup

我正在尝试从IMDB抓取电影信息。在大多数情况下，它是有效的，但对于一些电影，标题是不同的HTML检索美丽的汤，然后是火狐显示的源代码。例如，当在IMDB中搜索witch时，我会得到这个页面：所以我搜索电影，然后用下面这行代码得到电影的URL： page = urlopen(url) soup = BeautifulSoup(page, 'html.parser') movieLink = soup.find('a', text = movieTitle)['href'] imdbLink = 'http://www.imdb.com

浏览 1提问于2017-06-13得票数 2

1回答

如何使用asp.net读取BeautifulSoup页面？

python、asp.net、web、web-scraping、beautifulsoup

我正试着用漂亮的汤从网页上抓取一些数据。当我试图将HTML文档转换为一个漂亮的汤对象时，我遇到了一些问题。当我运行代码时 soup = BeautifulSoup(html_doc) 我得到的错误消息是： SyntaxError: Non-ASCII character '\xa9' in file C:/Users/mlee/PycharmProjects/BsTest/htmlparse.py on line 683, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for

浏览 4提问于2015-06-10得票数 1

回答已采纳

1回答

如何在点击按钮后抓取数据

python-3.x、web-scraping、beautifulsoup

我试着用漂亮的汤从网站上抓取数据，但要抓取所有内容，我必须点击按钮 <button class="show-more">view all 102 items</button> 加载每一项。我听说可以用selenium来完成，但这意味着我必须用脚本打开浏览器，然后抓取数据。有没有其他方法来解决这个问题。

浏览 16提问于2019-06-10得票数 0

3回答

如何在python中并行抓取多个html页面？

python、django、multithreading、beautifulsoup、python-multithreading

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： for url in websites: r = requests.get(url) soup = BeautifulSoup(r.content) links = soup.find_all("a", {"class":"dev-link"}) 实际上，网页的抓取是按顺序进行的，我想以并行的方式运行它。我对Python中的线程化不是很了解。谁能告诉我，我怎样才能并行抓取？任何帮助都将不胜感激。

浏览 0提问于2017-05-29得票数 2

1回答

有没有可能用漂亮的汤刮出一个“动态网页”？

python、html、selenium、beautifulsoup

我现在开始用漂亮的汤来抓取网站，我想我已经掌握了基本的知识，虽然我缺乏网页的理论知识，但我会尽我最大的努力来表达我的问题。我所说的动态网页是这样的:一个网站，它的HTML会根据用户的动作而改变，在我的例子中，它是可折叠的表格。我想获得一些"div“标签中的数据，但是当你加载页面时，数据在html代码中似乎是不可用的，当你点击表格时，它会展开，这个"div”的"class“从类似于"something blabla collapsible”变成了"something blabla collapsible active“，这是我可以用我的知识抓取的。我

浏览 1提问于2016-11-22得票数 4

1回答

从标记中提取惟一的类名

html、python-3.x、web-scraping、beautifulsoup

我正在把(对我来说)相当大的数据刮成一个漂亮的汤对象。典型的抓取结果是600页或更多的html标记，有许多嵌套的表。我试图更好地理解结构，以便有效地将数据从表中提取出来。这些汤对象中有多达500个表，其中有许多“重复”表类。以下是两个例子。 <table class="TableClass1"> <table class="TableClass2"> 在我的500张表格的文档中，可能每种类型都有250种，所以在浏览600页html时，很难看出只有两种独特的类型。如何从对象中提取表标记的唯一类名列表？结果将显示如下列表： <tab

浏览 0提问于2020-01-10得票数 0

回答已采纳

3回答

如何从标签“<th>Australia</th>”中抓取“Australia”

python

我正试着从这个标签中获取澳大利亚 <tr> <td>City</td> <th>Sydney</th> </tr> <tr> <td>Country</td> <th>Australia</th> </tr> import re from re import findall a = '<tr>\n<td>Country</td>\n<th>Australia</th>\n</

浏览 27提问于2019-05-20得票数 0

回答已采纳

2回答

用硒美汤寻找元素

python、python-3.x、selenium、beautifulsoup

一般来说，我对网络抓取和数据科学是个新手。根据不同的消息来源，美丽的汤比硒更快的抓取网页。我正在写一些在社交媒体评论中爬行的代码。我使用Selenium自动单击检索旧注释的按钮，并使用以下命令从注释中获取文本 driver.find_element_by_xpath() 我知道feature没有允许我直接输入xpath来查找元素的特性。在这种情况下，我是否应该摆脱对xpath的依赖，并尝试更轻松地使用可以由漂亮的汤使用的选择器呢？我的代码现在感觉非常笨重，需要几分钟的时间，尽管我只处理了大约120条评论。如果之前有人问过这个问题，我很抱歉；我在网站上找不到它。谢谢!

浏览 18提问于2019-07-24得票数 0

回答已采纳

1回答

用BeautifulSoup - HTML不同格式从CSS类链接中提取标题

python、beautifulsoup

我刚开始使用BeautifulSoup进行网络抓取，并遇到了以下问题:我试图从论坛上抓取帖子，我想提取帖子的标签。下面是标记类的HTML代码： <a class="tag_css_link" href="XXXX" title="">Advanced Physics</a> 这种格式在整个表单中是一致的。我试着用汤的“标题”给我“。如何提取“高级物理”？

浏览 5提问于2021-06-08得票数 0

回答已采纳

1回答

使用Beautifulsoup来抓取iframe

python、html、iframe、beautifulsoup、screen-scraping

您好，我想刮与美丽的汤，但通常iframe src应该是一个html链接，这一次我遇到一个wordpress的网址，基本上是文件夹结构，导致PHP文件。我想知道有没有什么方法可以抓取这个文件中的表？当我检查Chrome中的元素时，表格DIV标签存在，但是，当我用BeautifulSoup加载链接时，iframe中的内容消失了(表格)。请帮帮忙

浏览 0提问于2020-08-27得票数 0

1回答

为什么美汤不能显示表中的所有<td>数据？

python、web-scraping、beautifulsoup

一周前我试着用抓取维基百科。但我不明白为什么Beautiful Soup只显示表列中的一些字符串，而其他表列显示"none“。注:表列全部包含数据。我的程序将提取所有带有"description“标签的表列。我正在尝试从表格中提取所有的描述。我正在抓取的网站是：这是我的代码： from BeautifulSoup import BeautifulSoup import urllib import sys from urllib import FancyURLopener class MyOpener(FancyURLopener): version = &#

浏览 4提问于2011-05-18得票数 0

回答已采纳

1回答

BeautifulSoup :分析表时出现名称错误

python、html

我对刮刮还不熟悉。我正在试着用表格抓取一个表格。我可以用漂亮的汤刮掉整个父母的标签。但我不确定如何遍历子标记并获取其中的文本。以下是我的代码 soup = BeautifulSoup(htmltext, "html.parser") tables = soup.find('td',attrs={'class':'title_heading'}) for table in tables: print(table) form_name = table.td.center.strong.u.text *--ERROR-

浏览 3提问于2016-12-17得票数 0

1回答

如何在python中抓取弹出窗口

python-3.x、beautifulsoup

刚刚接触python和漂亮的汤，这里我有下面的html，我需要抓取表格中的href链接以及td标记中的所有文本。我能够抓取href： links = browser.find_elements_by_css_selector("#lstDocTable tbody tr td:nth-child(0) a") print([link.get_attribute("href") for link in links]) 在表中的所有data(rows)上仍在苦苦挣扎。有什么想法？单击链接将显示此弹出窗口：

浏览 4提问于2018-06-15得票数 2

2回答

如何获取</h3>和<br/>结尾之间的文本值

python、text、screen-scraping、beautifulsoup

我正试着用python和美容汤来做屏幕抓取。我遇到的一个问题是，我不知道如何在<br/>之前获取文本值这里有一个例子： <h3> Francois Abboud </h3> Professor,  Internal Medicine <br /> <br />

浏览 0提问于2012-09-19得票数 2

1回答

Python抓取td类跨度

python、html、web、beautifulsoup、screen-scraping

新来的Python和Web抓取..。我一直在寻找刮擦突出显示的一段代码，以便我可以检索数字1.16，7.50和14.67，但没有joy在使用td，类，表-matches_pageSoup.find_all_ of .有人知道我在这里错过了什么吗？我用的是漂亮的汤。

浏览 2提问于2018-02-25得票数 0

回答已采纳

1回答

解析一个html文件而不需要漂亮的汤

python、html

我在磁盘上保存了一个.html，我用文本编辑器打开它。然后，我尝试查找html文件中的所有http ....etc。我打开，读取文件，但我怎么能提到for循环，“嘿，给我所有的超链接后，href= ?” 有什么建议吗？我试着解决它没有美丽的汤。

浏览 0提问于2018-02-26得票数 0

1回答

TypeError：'ResultSet‘对象不可调用-带有BeautifulSoup的Python

python、html、beautifulsoup

这里是python的新手，当尝试设置一些代码从网页列表中抓取数据时，会不断地遇到错误。其中一个页面的链接是- 和我试图获取‘会员编号’，‘类别’，‘部门’，‘国家’等信息，并将其全部导出到一个电子表格。代码： from bs4 import BeautifulSoup as soup from urllib.request import urlopen import requests pages = [] for i in range(1, 10): url = 'https://rspo.org/members/' + str(i) pages.app

浏览 0提问于2018-03-02得票数 0

回答已采纳

1回答

用漂亮的汤解析表中的行

python、parsing、beautifulsoup

我试图解析这个html，并获得53.1和41.7的值。我不太确定该怎么做。我一直在试着用美汤如有任何建议或想法，我们将不胜感激。谢谢。

浏览 0提问于2017-07-13得票数 0

1回答

使用Python的Webscrape容器

python、web-scraping、beautifulsoup、containers

我正在尝试从这个网页上的容器中抓取内容：我通常使用漂亮的汤进行网络抓取，但在这种情况下，我发现它并不适用于这个网站。当我运行我的“汤”时，我只得到网站架构的细节，而不是网站上可用的容器中的内容。 page_link = 'check24.de/handytarife/vergleich?activeForm=sim' page_response = requests.get(page_link, timeout=5, verify=False, headers={'User-Agent': 'Mozilla/5.0'}) soup = Be

浏览 1提问于2018-10-31得票数 1

回答已采纳

2回答

Beautifulsoup findAll返回一个空列表

python、web-scraping、beautifulsoup

我试着用漂亮的汤抓取网页，但是findAll()返回一个空列表。这是我的代码： URL = "https://elcinema.com/en/index/work/country/eg?page=1" r = requests.get(URL) bsObj = BeautifulSoup(r.content, 'html5lib') recordList = bsObj.findAll('a', attrs = {'class':"lazy-loaded "}) print(recordList) 我

浏览 41提问于2021-03-30得票数 0

回答已采纳

4回答

将HTML表的每一行读取到python列表中

python、html、web-scraping

我正在尝试使用python网络抓取一个HTML表格。我正在用漂亮的汤来做这个网络刮擦。HTML页面中有许多表格，表格中有许多行。我希望每一行都有一个不同的名称，如果该行中有列，则希望它们是独立的。我的代码如下所示： page = get("https://www.4dpredict.com/mysingaporetoto.p3.html") html = BeautifulSoup(page.content, 'html.parser') result = defaultdict(list) tables = html.find_all('table&

浏览 0提问于2018-09-15得票数 3

1回答

我怎样用漂亮的汤在网上刮桌子？

python-3.x、web-scraping、beautifulsoup

这可能不是最聪明的问题，但我花了大约一个小时试图弄清楚，并做研究，结果一无所获。作为最后的手段，我在这里张贴我的问题。我使用的网站是，我想刮一下历史下列出的表格。当我检查页面时，我发现它在一个带有特定标题的锚标记下。我不介意单独地/手动地抓取每个表，但是无论我如何尝试导航到带有各自锚和标题的表，我的bs(漂亮汤)对象都没有表的任何内容。我猜href属性是用来显示表的，所以我的问题是，如何使用另一个我无法访问的链接来抓取网页的内容？

浏览 1提问于2021-12-27得票数 0

1回答

BeautifulSoup抓取不正确的表

python、web-scraping、beautifulsoup

我用下面的代码抓取了this site： import requests from bs4 import BeautifulSoup url = "https://www.pro-football-reference.com/teams/buf/2021_injuries.htm" r = requests.get(url) stats_page = BeautifulSoup(r.content, features="lxml") table = stats_page.findAll('table')[0] #get FIRST tabl

浏览 15提问于2021-11-12得票数 1

回答已采纳

2回答

美丽的汤没有显示网页上看到的文本

python、web-scraping、beautifulsoup

我正在尝试抓取网站：我试着用漂亮的汤拉起投注线，当我检查页面时，我可以看到我想要的结果。问题是，当我把它拉进来的时候，我看不到实际的结果，只是一个'-‘ betting_page = requests.get(f'https://www.sportsbookreview.com/betting-odds/nba-basketball/merged/?date=20131101') betting_page = BeautifulSoup(betting_page.text, 'html.parser') for item in betting_page

浏览 26提问于2019-11-12得票数 0

4回答

如何将web scraping python项目转换为桌面应用程序？

python、web-scraping、beautifulsoup

我已经在漂亮汤的帮助下用python创建了一个web scraping项目，但我希望我的项目能作为桌面应用程序工作。因此，我可以运行该应用程序，并在特定的url上执行web抓取。有没有可能使用python和美汤，或者我必须用不同的语言制作这个项目？

浏览 0提问于2020-04-05得票数 0

1回答

美丽的汤刮不出所有的东西

python、beautifulsoup

我正在尝试从第一个图像中获取img标记，这样我就可以获取图像链接。当我用漂亮的汤抓取站点时，没有img标签(如图2所示)。我不明白为什么每个网站都有一个img标签，但美丽的汤却没有。

浏览 1提问于2020-03-02得票数 1

1回答

从相同的类名中提取文本(Python web抓取)

python、beautifulsoup

我是Python Webscriping的初学者，使用漂亮的汤。我试着用漂亮的汤抓取一个房地产网站，但每一列都有不同信息的行。然而，每一列的类名都是相同的，所以当我试图抓取每列的信息时，我得到了相同的结果，因为有相同的类名。我试图抓取的网站的。来自HTML的代码 <div class="lst-middle-section resale"> <div class="item-datapoint va-middle"> <div class="lst-sub-title stub text-ellipsis"

浏览 13提问于2019-11-01得票数 2

1回答

如何从漂亮汤输出python中读取链接

python、django

我正试着传递一个从美丽的汤中提取的链接。 import requests r = requests.get('https://data.ed.gov/dataset/college-scorecard-all-data-files-through-6-2020/resources') soup = bs(r.content, 'lxml') links = [item['href'] if item.get('href') is not None else item['src'] for item in soup.

浏览 2提问于2021-07-23得票数 0

1回答

python-漂亮的汤相同的td属性不同的列表

python、web-scraping、beautifulsoup、web-crawler

我对蟒蛇汤很陌生，很长时间以来我一直试图为我的问题找到答案。我试着从一个网站上抓取数据，它有很多表格和td。有两个td具有相同的属性，但我的数据使用方式不同。当我得到所有的td时，它们之间又有什么不同呢？目标是将它们存储在不同的列表中。 HTML如下所示： <td class = "xyz"> <h4 class = "zyw"> " 1" <small class = "unit">" m" </small> </h4> &l

浏览 4提问于2022-01-13得票数 0

回答已采纳

1回答

Access小部件窗口漂亮汤python机械化

python、html、beautifulsoup、mechanize

我试图从这样的网站上删除信息：用巨蟒+漂亮汤+机械化。访问主站点上的任何内容都不是问题。然而，我也需要的信息，在一个覆盖窗口显示，当你点击“评级趋势”按钮旁边的酒吧与明星。还可以通过使用url直接访问此覆盖窗口：与此页面相关联的html是对原始站点的html的修改。然而，不管我在那个覆盖窗口网站上试图找到什么元素(通过findAll )，“美丽汤”的点击量都是零。我怎么才能解决这个问题？我试着在访问网站和阅读网站之间增加一段睡眠时间，但没有结果。谢谢!

浏览 1提问于2017-06-05得票数 1

回答已采纳

2回答

python3.4中的漂亮汤不能在pycharm中使用

python、python-3.x、ubuntu

我使用的是ubuntu14.0LTS和pycharm IDE，如何下载和安装美汤，并将美汤库添加到pycharm中。我试着使用pip install，它不工作。

浏览 0提问于2014-07-18得票数 2

3回答

尽管-td -class=titlecolumn-element存在，漂亮的td-returns returns none-even

web-scraping

enter code here我正在编写代码来抓取https://www.imdb.com/chart/top?ref_=nv_mv_250 我试着使用美汤，请求和re从收视率最高的电影标题的imdb.com中抓取数据。 #Import the library to query a website import requests from bs4 import BeautifulSoup import re #specify the url imdb_link="https://www.imdb.com/chart/top?ref_=nv_mv_250

浏览 24提问于2019-06-10得票数 2

1回答

使用Mechanize将HTML注入页面

javascript、python、html、web-scraping、mechanize

我正在写一个网页抓取程序，以便从网站上获得我的成绩。我使用Mechanize登录页面并导航到我要抓取的区域。不幸的是，页面使用Javascript对页面进行加密(可能是为了阻止我抓取)。我找到了解密脚本并移植到了Python。它起作用了，我用它从页面中提取加密的字符串，当我转换它时，它变成了HTML中的一个表。那么，为了达到我的观点，有没有什么方法可以把HTML重新注入到页面中，并使用mechanize来使用表格上的链接来获得我的成绩？谢谢你的帮助！编辑:我也有很好的汤，如果有帮助的话。

浏览 3提问于2013-01-14得票数 1

回答已采纳

1回答

用美丽汤抓取动态网站的问题

python、web-scraping、beautifulsoup、python-requests

我想从网站上抓取犯罪新闻文章，但汤对象不返回所需的div标签，有人能给我原因吗？ import requests from bs4 import BeautifulSoup page = requests.get("https://www.nst.com.my/news/crime-courts?page=1") soup = BeautifulSoup(page.text, 'html.parser') print(soup)

浏览 1提问于2021-12-29得票数 0

3回答

我在这个网络抓取代码中做错了什么？

python、beautifulsoup

我在尝试做网络抓取时遇到了问题。我不太习惯编程，所以我真的不知道我做错了什么(但我有一些基础知识)。我正试着用蟒蛇和漂亮的汤做网络抓取。以下是代码 import requests from bs4 import BeautifulSoup URL = 'http://www.lotece.com.br/v2/' page = requests.get(URL) soup = BeautifulSoup(page.content, 'html.parser') results = soup.find(class = 'dataResultado')

浏览 2提问于2020-02-25得票数 2

1回答

如何在网站上搜索需要订购的多个值

python、beautifulsoup、scrape

我试着用漂亮的汤来抓取NHL比赛的结果，但是我很难弄清楚比赛进行的日期和结果的顺序。游戏的日期在标签下，结果在课堂上的“字段内容”。目前，我能够找到这两个值，并将它们放在自变量中，但我希望保持它们在原始网站中出现的顺序，并将数据放在一个变量中。 import bs4 as bs import urllib.request sauce = urllib.request.urlopen("https://www.jatkoaika.com/nhl/ottelut").read() soup = bs.BeautifulSoup(sauce, features="html

浏览 1提问于2019-11-04得票数 0

回答已采纳

1回答

抓取元素在页面源中不可见

python、selenium、web-scraping、beautifulsoup

我试图抓取一个网站(https://harleytherapy.com/therapists?page=1)，它看起来像是由Javascript生成的，而我试图抓取的元素(带有id="downshift-7-menu"的lu )并没有出现在“页面源代码”中，而只是在我点击“检查元素”之后才出现。我试着在这里找到一个解决方案，到目前为止，这是我能想出的代码(硒+美汤的组合) import requests from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.c

浏览 21提问于2020-12-27得票数 1

回答已采纳