如何在python中使用bs4和请求更新网页抓取的数据_使用python请求从网页中抓取数据_使用BeautifulSoup抓取网页和Python语言请求时的cookie和cookie同意框 - 腾讯云开发者社区

python、web-scraping、beautifulsoup

我正试着从URL上盗取一张桌子我可以使用Scrapestorm工具抓取表格数据。我是python的新手，不能从这个URL获取数据。 from bs4 import BeautifulSoup page = requests.get('https://pantheon.world/explore/rankings?show=people&years=-3501,2020') soup = BeautifulSoup(page.text) Excel中所需的输出： enter image description here 从网页上抓取表格数据和图片是可能的吗？

浏览 61提问于2020-12-23得票数 1

回答已采纳

1回答

使用Python进行Web抓取，而无需加载整个页面

python、python-3.x、web-scraping、web-scraping-language

我刚用Python开始了几个web抓取项目。我目前使用lxml，Beautiful Soup和requests模块来抓取网页。我需要知道是否有任何方法可以只从网站获得我们需要的数据，而不是加载整个页面。requests模块执行GET请求并接收整个，bs4，lxml只过滤数据。我尝试过Selenium，但这也打开了浏览器，这不太适合工业项目。我对scrapy和splash一无所知。我也不是在寻找API key方法，它并不适用于所有地方。

浏览 28提问于2021-11-13得票数 0

回答已采纳

1回答

如何从此网页上的Google表中刮取数据？

python、web、beautifulsoup、screen-scraping

我正在尝试使用Python从这个网页上的表中抓取数据。我尝试使用请求和bs4。我得到了原始的HTML，但是看起来数据是隐藏的。我该怎么做？

浏览 1提问于2016-12-19得票数 0

回答已采纳

2回答

从网页上的不同链接获取信息，并使用pandas将它们写入.xls文件

python、pandas、web-scraping、beautifulsoup

我是Python编程的初学者。我正在使用python中的bs4模块练习web抓取。我从一个网页中提取了一些字段，但它只提取了13个项目，而该网页有13个以上的项目。我不明白为什么其余的项目没有被提取出来。另一件事是我想提取网页上每个项目的联系电话和电子邮件地址，但它们在项目的相应链接中可用。我是一个初学者，坦率地说，我被困在如何访问和抓取给定网页中每个项目的单个网页的链接。请告诉我哪里做错了，如果可能的话，建议我做什么。 <code>A0</code> 我做了上面的代码，只是提取每个项目的名称和位置，但它只抓取了13条记录，但在网页中有更多的记录。我不能写任何代码来

浏览 23提问于2019-04-02得票数 0

1回答

使用python的Web抓取找不到网站链接

python、web-scraping、beautifulsoup、scrapy

我刚开始使用python进行网络抓取。我已经成功地学会了从一些网站抓取信息，比如和维基百科。但我遇到了一个网站，没有打开一个新的网页链接时，搜索特定的数据。我无法理解如何刮这个网站。任何帮助都是非常感谢的。网址：在搜索字段中，您可以输入“柏林，德国”(Ihr Standort)字段，查看网站地址，但不会更改。此外，我还查看了检查字段，我看不到任何链接来刮取数据。任何帮助都是非常感谢的！以下是我从其他网站提取信息所用的代码： import requests from bs4 import BeautifulSoup, NavigableString, Tag import urllib.

浏览 1提问于2021-03-02得票数 0

回答已采纳

1回答

如何在centOS服务器中安装美汤？

terminal、centos、beautifulsoup

我刚从hostgator那里得到了一个新的主机服务器，它有centOS。现在我有了一个用python编写的从bs4导入BeautifulSoup导入的网页抓取程序如何在centOS服务器中安装美汤？请帮帮忙

浏览 0提问于2014-04-08得票数 2

回答已采纳

1回答

ImportError: mac上没有名为bs4的模块

python、beautifulsoup、importerror

我今晚坐下来，决定如何使用蟒蛇。受到这篇网页抓取文章的启发。cam.ly/danesblog/2011/01/craigslist-arbitrage/ 在阅读完教程之后，我： 1)下载和安装python：前3.3，然后2.7 2)下载的www.crummy.com/software/BeautifulSoup/bs4/download/ :bs4 3)遵循Brian的指示：尝试了easy_install和python setup.py安装方法。我仍然得到"ImportError:没有名为bs4的模块“ Python安装在应用程序文件夹中，bs4包自动安装在库中，这是问

浏览 1提问于2013-02-26得票数 3

3回答

使用BS4从隐藏的html (弹出)获取数据

python、beautifulsoup

我试图在维基百科的弹出式窗口中搜索链接的名称。所以当你在维基百科上悬停一个链接的时候，它会从这个链接的介绍中看到一个小片段。我需要搜集这些信息，但我不确定它在哪里。当我检查元素(当它弹出时)，这是html (在本例中，我在链接“希腊语”上盘旋)。 <a dir="ltr" lang="en" class="mwe-popups-extract" href="/wiki/Ancient_Greek"> <p>The <b>Ancient Greek</b> language incl

浏览 0提问于2018-07-17得票数 10

回答已采纳

1回答

无法从网站中抓取数据: Python BS4

python、web-scraping、beautifulsoup

我正在尝试使用带有python的从BS4中抓取数据。我尝试过许多方法，但无法检索到任何信息。看起来这是API什么的直接响应。有人能帮我朝正确的方向走吗？待收集的数据：谢谢,

浏览 0提问于2018-10-29得票数 0

回答已采纳

1回答

如何在微气候环境中安装Python模块

microclimate

我在本地安装了小气候(在macOS上)，并尝试了一个简单的网页抓取应用程序。小气候构建是成功的，但我得到了一个运行时错误 k (most recent call last): File "app.py", line 4, in <module> from bs4 import BeautifulSoup as mySoup ImportError: No module named 'bs4' 我需要安装一个模块，我该怎么做？另外，使用的是什么版本的Python？

浏览 4提问于2019-05-23得票数 0

1回答

如何从承载HTML之外的表数据的网站中刮表？

python、html、pandas、beautifulsoup、python-requests

我正在尝试从这个表URL：中抓取表数据在之前的测试中，我使用了以下Python包:从bs4导入BeautifulSoup导入请求导入mysql.connector作为pd从sqlalchemy导入create_engine 但是这个url的HTML不包含表数据，而是从外部数据库中提取数据。有人能告诉我用这种HTML设置使用python脚本来抓取表数据的正确方向吗？我试着用我以前刮过的方法做一次盲刮。 from bs4 import BeautifulSoup import requests import mysql.connector import pandas as pd

浏览 3提问于2022-04-02得票数 -1

回答已采纳

1回答

如何使用python/大熊猫从这个网页中读取表格？

python、pandas、web-scraping

网页链接- 我试过使用熊猫、read_html和bs4这样的网络抓取库，但是没有运气，因为网页上的数据没有包装在一个表标签中。请帮帮我!

浏览 3提问于2021-02-17得票数 0

回答已采纳

1回答

使用Python抓取JavaScript内容

javascript、python-3.x、web-scraping

我正在尝试从here获取‘销售历史’的数据。因为数据来自JavaScript，所以我参考了这个link并尝试抓取数据。然而，当我运行下面的代码时，新窗口不能正确显示网页。如果你能建议如何在这种情况下获得数据，我将不胜感激。 # import libraries import urllib.request from bs4 import BeautifulSoup from selenium import webdriver import time import pandas as pd # specify the url urlpage = 'https://nonfungibl

浏览 18提问于2019-03-30得票数 0

回答已采纳

3回答

如何在网页抓取时登录网站

python、beautifulsoup、youtube

我正在制作一个web刮刀，它可以将我的YouTube频道统计数据带回到python中，所以我去了我的YouTube站点，复制了这个链接并用bs4粘贴它打印了汤。我完成了整个测试，并创建了一个html文件，当我查看它时，它是YouTube登录页面。因此，现在我想登录这个(假设我可以在文本文件中提供密码和电子邮件id )，以便刮除yt的统计数据。我不知道这个(我对网络抓取是新的)。

浏览 3提问于2021-01-24得票数 0

回答已采纳

1回答

将变量赋值给urlopen时出错(My_url)

python、beautifulsoup、urlopen

我正在使用BeautifulSoup和urlopen来抓取网页。当我尝试使用urlopen打开url时，会提示一个大错误。我做错了什么？我正在使用Python3.7.2，我安装了Bs4和urlopen。 import bs4 from urllib.request import urlopen from bs4 import BeautifulSoup as soup my_url = 'https://ebgames.com.au/search?q=Skyrim' var = urlopen(my_url) ERROR: Traceback (most recent

浏览 17提问于2019-05-04得票数 0

1回答

如何在应用程序引擎上运行python脚本，从网站上抓取数据并向我的手机发送sms？

python、google-app-engine、sms

我正在编写Python脚本，它应该执行以下操作：每15分钟运行一次谷歌应用程序。登录到网站(使用bs4和机械化) 从“更新”部分抓取数据。然后通过短信把最新的更新发送到我的手机上。(不确定如何实现这一目标)

浏览 8提问于2015-07-29得票数 0

5回答

如何使用Python将数据输入到网页以抓取结果输出？

python、scrape

我熟悉从网页抓取数据的BeautifulSoup和urllib2。但是，如果在返回我想要抓取的结果之前需要在页面中输入一个参数，该怎么办？我正在尝试使用这个网站获取两个地址之间的地理距离：我希望能够转到页面，输入两个地址，单击“显示”，然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值，并将它们保存到字典中。有没有办法用Python把数据输入到网页中？

浏览 2提问于2011-08-13得票数 8

回答已采纳

1回答

分析链接时，BeautifulSoup返回空列表

python、beautifulsoup、html-parsing

我是网络抓取的新手，我正在尝试使用BeautifulSoup从网站中提取链接和表格数据。但是，即使网页中有链接，它也会返回none。我可以通过在浏览器中查看网页来找到链接。下面是我使用的代码 from bs4 import BeautifulSoup as soup from selenium import webdriver driver = webdriver.Chrome() url = "http://www.ms2soft.com/tcds/?loc=Txdot&mod=tcds&local_id=57CC441" driver.get(url)

浏览 23提问于2020-04-04得票数 0

1回答

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

python、web-scraping、beautifulsoup、data-extraction

我尝试使用网址链接从网页中提取评论的文本内容，并使用BeautifulSoup进行抓取。当我单击URL链接时，在页面上可以看到注释的内容，但是BeautifulSoup返回的HTML对象不包含这些标记和文本。我使用带有'html.parser‘的BeautifulSoup来做网页抓取。我成功地提取了给定网页中视频的点赞/浏览量/评论数，但评论部分的信息没有包含在HTML文件中。我使用的浏览器是Chrome，系统是Ubuntu 18.04.1 LTS。这是我使用的代码(在python中)： from urllib.request import urlopen from bs4 im

浏览 19提问于2019-03-25得票数 1

回答已采纳

2回答

BeautifulSoup不返回页面标题

python、python-3.x、web-scraping、python-requests

我试着用Beautifulsoup4 python模块通过web抓取来获取网页的标题，它返回了一个字符串“无法接受！”作为标题，但是当我通过浏览器打开网页时，标题是不同的。我试着循环浏览链接列表和所有网页的标题，但是它返回的字符串是“不能接受的！”所有的链接。这里是python代码 from bs4 import BeautifulSoup import requests URL = 'https://insights.blackcoffer.com/how-is-login-logout-time-tracking-for-employees-in-office-done-by

浏览 18提问于2022-03-01得票数 0

回答已采纳

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

python、web-scraping

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

3回答

无法下载网页的完整源代码

python

我正在尝试使用python请求库来抓取网页。但我无法下载完整的html源代码。当我使用我的web浏览器检查元素时，它给出了完整的html，我相信它可以用于抓取，但当我使用python请求库访问这个url时，那些包含数据的html标记就消失了，我无法从这些标记中抓取数据。下面是我的示例代码： import requests from bs4 import BeautifulSoup as BS import urllib import http.client url = 'https://www.udemy.com/topic/financial-analysis/?lang=en&#

浏览 5提问于2019-07-30得票数 1

1回答

如何在Python中抓取ASP网页？

python、asp.net、python-3.x、web-scraping、beautifulsoup

我很难描述我正在尝试做什么，因为我看到了一个有数千页的页面，显然还有表格，但pd.read_html不起作用！在我想到这一点之前，这一页有一张表格要先填写... 转到此链接将允许您选择一个学期，在这样做的过程中，将显示成千上万的表。在选择了一个学期希望阅读HTML之后，我尝试使用URL，但没有这样的运气。我仍然不知道我在看什么(比如，这是一个网页，还是ASP？ASP到底是什么？)如果你点击视频链接，你会看到如果你选择了春季学期，复制链接，并把它放到搜索栏中，它就会给出一个丑陋的错误。一些SQL错误。这就是我的困境。我在试着获取这些数据...所有这些表格。我写的上一篇文章，我做了一次暴力尝试，

浏览 0提问于2017-09-20得票数 0

1回答

requests.session()无法自动更新cookies

python、python-requests、session-cookies

我使用的是python 3.5.2。我想报废一个需要cookie的网页。但是当我使用requests.session()时，会话中维护的cookie不会更新，因此我的抓取经常失败。以下是我的代码片段。 import requests from bs4 import BeautifulSoup import time import requests.utils session = requests.session() session.headers.update({"User-Agent": "Mozilla/5.0 (Windows NT 6.2; WOW64; rv

浏览 1提问于2016-12-10得票数 0

1回答

Python web抓取带有过滤器的表

python、python-3.x、web-scraping、python-requests

在网页抓取表格时，我遇到了提取文本的困难，我认为页面上的过滤器是罪魁祸首。我尝试隔离所有的"tr“和"th”元素，但似乎无法将底层文本放入Python中。我做错了什么？我的代码： from bs4 import BeautifulSoup import requests page_link ='https://www.ersteliga.hu/stats#/players/1945/regular/points' page = requests.get(page_link) html = page.content soup = BeautifulSoup(

浏览 15提问于2019-10-25得票数 1

回答已采纳

2回答

使用python抓取AJAX电子商务站点

python、ajax、web、beautifulsoup、screen-scraping

我在使用BeautifulSoup抓取电子商务网站时遇到了问题。我做了一些谷歌搜索，但我仍然无法解决问题。请参阅图片： Chrome F12： Result：这里是我试图刮的网站："“ 问题：当我试图打开Google (F12)上的检查元素时，我可以看到产品的名称、价格等。但是当我运行python程序时，我无法在python结果中得到相同的代码和标记。在googling之后，我发现这个网站使用AJAX查询来获取数据。任何人都可以通过抓取AJAX站点来帮助我获得这些产品的数据。我想用在表格中显示数据。我的代码： import requests f

浏览 0提问于2019-01-28得票数 2

回答已采纳

1回答

Python -抓取单击后加载的数据

python、web-scraping、beautifulsoup

我对Python有点陌生，对于我的一个研究项目，我需要一个网络刮刀来抓取网络内容来创建一个数据集。由于大多数帖子都建议使用漂亮的汤包，所以我试着基于Python构建了一个web抓取器。我需要抓取的数据是在单击网页上的按钮后加载的。下面是一个例子：当点击"12条评论“时，弹出窗口加载并显示评论。我需要删掉这些评论。我尝试了许多方法，但到目前为止似乎都不起作用。如果有什么需要做的，有人能检查一下我的代码吗?或者给我提供另一种方法？ import bs4 import requests session = requests.Session() url = "ht

浏览 1提问于2015-09-27得票数 0

1回答

ImportError:无法从“robobrowser”导入名称“robobrowser”

python-3.7、importerror、robobrowser

我是Python的新手，使用过BeautifulSoup来解析和抓取一些网页上的信息。现在我需要填写一张表格。提交它，并在填写表单后抓取一些数据，似乎最简单的方法是使用机器人浏览器。但是，我不能导入robobrowser。我已经通过几种不同的方式安装了robobrowser，robobrowser位于以下位置： C:\Users\(USERNAME)\AppData\Local\Programs\Python\Python37-32\Lib\site-packages 下面是我的脚本： import requests from bs4 import BeautifulSoup impor

浏览 29提问于2019-10-27得票数 1

回答已采纳

2回答

如何在抓取web的同时创建日志文件(Python 3)？

python、python-3.x、logging、web-scraping、web-crawler

我刚接触Python，我发现在python中理解日志的整个概念真的很难。我目前正在使用Python3做这个web抓取项目。我使用了BeautifulSoup4来帮助我:下面是我写的代码： from bs4 import BeautifulSoup import urllib3 import urllib.request web = "https://docs.python.org/3/howto/logging-cookbook.html" page = urllib.request.urlopen(web) soup = BeautifulSoup(page)

浏览 0提问于2017-04-22得票数 1

1回答

Web通过python抓取问题，不能读取html文件吗？

python-3.x、web-scraping、beautifulsoup

web抓取Python已经有一段时间了，最近我遇到了这个问题。BeautifulSoup似乎无法读取html文件。例如，我正试着从这个网站上抓取这是我的密码 from bs4 import BeautifulSoup import requests url_episode = 'https://www.thetvdb.com/series/initial-d/episodes/4889010' print(url_episode) getdetail_episode = requests.get(url_episode) soup = BeautifulSoup(getde

浏览 1提问于2020-04-06得票数 0

2回答

基于日期抓取表数据

python、web-scraping、beautifulsoup、screen-scraping

我正在尝试抓取kurs事务的表从2015-2020年，但问题是默认日期和我选择的日期之间的链接仍然是相同的。那么我如何告诉python从2015-2020(20-11-15-20-11-20)抓取数据呢？我对python和python3的使用非常陌生。 import requests from bs4 import BeautifulSoup import pandas as pd headers={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Ch

浏览 0提问于2020-11-24得票数 0

2回答

为什么我不能访问tbody中的信息？

web-scraping、beautifulsoup

这是websiteI的源代码，我正在用BeautifulSoup做网页抓取，但在tbody中找不到tr；在网站的源代码中，tbody中实际上有tr；但是find_all函数只能返回头部的tr。我正在抓取的链接：下面是我的一些代码： ```from bs4 import BeautifulSoup ```html = urlopen(url) ```type(soup) ```print(tr)

浏览 0提问于2019-06-18得票数 1

1回答

JavaScript不可用。(Python)

python、beautifulsoup、python-requests

我试图使用Python从Twitter网页中抓取数据，但我没有得到数据，而是一直得到"Javascript不可用“。我在浏览器(Chrome)中启用了Javascript，但是没有任何变化。这是错误-> <h1>JavaScript is not available.</h1> <p>We’ve detected that JavaScript is disabled in this browser. Please enable JavaScript or switch to a supported browser to continue u

浏览 38提问于2022-10-31得票数 -2

1回答

Python到PHP异步数据传输

php、python、asynchronous

我有一个建立一个网络刮擦工具的要求。抓取部分将在python中编码，结果将在PHP中显示。结果应该在PHP中异步显示，而python正在抓取页面。客户认为python是快速和更好的web抓取的选择。您认为混合python和php仍然会带来快速的结果吗?还是坚持使用php进行web抓取更快/更好？在这两种语言之间异步交换数据的首选方法是什么？谢谢!

浏览 3提问于2017-05-04得票数 1

回答已采纳

2回答

如何利用Python中的Web抓取构造数据框架

python、pandas、beautifulsoup、python-requests、tabulate

我可以通过Python中的web抓取从网页中获取数据。我的数据被提取到一个列表中。但不知道如何将该列表转换为数据框架。有任何方法我可以网络刮和直接获取数据到一个df？这是我的代码： import pandas as pd import requests from bs4 import BeautifulSoup from tabulate import tabulate from pandas import DataFrame import lxml # GET the response from the web page using requests library res = reque

浏览 7提问于2020-04-03得票数 0

回答已采纳

2回答

如何在24小时内从动态加载的网页中抓取超过5万个数据点？

python、selenium、web-scraping

我正在使用selenium python，我想知道如何在24小时内有效地抓取超过50,000个数据点。例如，当我在网页'insight.com‘上搜索产品时，抓取器大约需要3.5秒来搜索产品并获取其价格，这意味着对于大量数据，抓取器需要几天时间。从使用线程同时查找多个产品的一部分，我还可以如何加速这个过程？我只有一台笔记本电脑，将不得不同时抓取其他六个类似的网站，因此不想要太多的线程，计算机的运行速度将显着减慢。人们如何实现在如此短的时间内抓取大量数据？

浏览 28提问于2020-06-18得票数 2

2回答

请求响应中没有数据

python、beautifulsoup、python-requests

我刚接触python、数据抓取和自动化。我正在尝试抓取URL中给出的网站。当我在浏览器中打开URL链接时，所有的数据都会显示出来，但是requests.get()方法的响应并没有给出这些数据。如果有人能告诉我出了什么问题，那将是非常有帮助的。 import requests import time from bs4 import BeautifulSoup URL = "https://fees.uspto.gov/MaintenanceFees/fees/details?applicationNumber=12814074&patentNumber=7871455"

浏览 1提问于2016-07-04得票数 1

1回答

使用Google Chrome扩展对Python进行Web抓取

javascript、python

嗨，我是一个Python新手，我正在抓取一个网页。我正在使用Google Chrome Developer扩展来识别我想要抓取的对象的类。但是，我的代码返回一个空的结果数组，而屏幕截图清楚地显示这些字符串在HTML代码中。 import requests from bs4 import BeautifulSoup url = 'http://www.momondo.de/flightsearch/?Search=true&TripType=2&SegNo=2&SO0=BOS&SD0=LON&SDP0=07-09-2016&SO

浏览 0提问于2016-08-23得票数 0

1回答

403禁止或拒绝访问某些网站的原因？

python-2.7、beautifulsoup

当使用bs4从网站抓取时，它将响应对象显示为拒绝访问和禁止访问，如何解决此问题？

浏览 0提问于2017-11-03得票数 0

1回答

当下一页的后续链接在当前页面源代码中不可用时，抓取网站的所有页面

python、web-scraping

嗨，我已经成功地通过使用Python和正则表达式抓取了一些购物网站的所有页面。但现在我遇到了麻烦，要抓取某个特定网站的所有页面，该网站的下一页后续链接不存在于当前页面中，就像这里的本网站通过Ajax调用动态加载同一页面中的下一页数据。所以在抓取的时候，我只能抓取第一页的数据。但我需要抓取该网站所有页面中的所有项目。我没有办法获得这些类型的网站的所有网页的源代码，其中下一页的后续链接在当前页面不可用。请帮我解决这个问题。

浏览 0提问于2013-05-28得票数 0

2回答

使用漂亮的汤从网页中的url中抓取数据。Python

python、web-scraping、beautifulsoup

我正在尝试从网页内的url中抓取数据(insta id和关注者计数)：，https://starngage.com/app/global/influencer/ranking/india url的元素id是：@priyankachopra 类似地，我想从同一个表中的所有链接中抓取数据有人能告诉我怎么做吗？ import requests from bs4 import BeautifulSoup as bs r = requests.get("https://starngage.com/app/global/influencer/ranking/india")

浏览 20提问于2021-07-17得票数 0

回答已采纳

1回答

如何抓取多个页面和每个页面的不同项目？

python、beautifulsoup

我是python的初学者，只有几个星期在尝试做我的网络抓取。我需要在tripadvisor上抓取一家餐厅的多个页面，在windows32上使用漂亮的汤。在每个页面中，我需要记录餐厅名称、社会等级和菜肴/菜肴、客户名称、日期评论、滴滴评论和评论。我在python控制台中尝试了以下代码： from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup for i in range(260,1231): my_url = "https://www.tripadvisor.fr/Res

浏览 0提问于2019-08-15得票数 0

3回答

无法使用BeautifulSoup获取youtube视频urls

python、web-scraping、beautifulsoup、youtube

我是python和网络抓取的新手。我正在尝试获取作为搜索结果出现的视频的URL列表。我试过了： import requests from bs4 import BeautifulSoup as bs search_term = "python" page = requests.get("https://www.youtube.com/results?search_query=" + search_term) soup = bs(page.content, 'html.parser') vids = soup.findAll('a&

浏览 60提问于2021-05-09得票数 0

回答已采纳

1回答

使用python pandas的Datareader获取雅虎财经的关键统计网页与默认的雅虎财经的历史价格网页

python、pandas、web-scraping、yahoo-finance

我正在尝试使用python的pandas库从雅虎财经中抓取数据，使用DataReader从熊猫中提取历史价格数据，但我也想从雅虎财经的关键统计网页中提取数据，比如“价格/账面比”。但我不确定如何修改DataReader来拉取历史价格以外的数据。我想使用pandas库来做我所有的网页抓取，pandas中有没有不同的函数可以让我为雅虎财经的不同网页拉取数据，或者修改DataReader函数来拉取其他数据？就像将所有内容都保存在HTML中？

浏览 0提问于2015-08-17得票数 0

4回答

如何在BS4中有效抓取多个URL

python、python-3.x、web-scraping、beautifulsoup

我正在尝试找到一种在BS4中抓取多个页面的有效方法。我能够轻松地抓取第一页，并获得我需要的所有数据，但不幸的是，并不是所有的数据都在上面。还有另外两个页面需要抓取，而不是硬编码并更改第二个和第三个页面的URL，我想知道是否有更好的方法使用BS4在Python中实现这一点。唯一需要更改的部分是page=1到相应的页码(1、2、3)。 import csv import requests from bs4 import BeautifulSoup url = "https://www.congress.gov/members?q={%22congress%22:%22115%22}&

浏览 0提问于2018-04-04得票数 0

1回答

用巨蟒选择下拉，美美的汤和机械化

python、beautifulsoup、mechanize

我正在尝试从一个看起来像是ajax网页的地方抓取数据。数据自动每秒钟刷新一次。我似乎无法确定是选择正确的下拉列表，还是将页面更改为我需要的数据。谢谢 !/usr/bin/env python import mechanize from bs4 import BeautifulSoup import re import urllib2 #import html2text import time # Set credentials venue = "sp" # Manchester (ma), Milton Keynes (mk), Sandown Park (sp), T

浏览 3提问于2016-10-25得票数 1

回答已采纳

1回答

Python网站抓取python和解析数据

python、unicode

我是Python初学者，我在抓取网页和显示页面上的特定文本时遇到了困难。我知道我的问题在于编码，因为我一直在阅读，并且看到其他新手也有同样的问题。例如，假设我想刮www.amazon.com，这是我的代码 import pycurl import cStringIO from bs4 import BeautifulSoup buf = cStringIO.StringIO() curl = pycurl.Curl() curl.setopt(curl.URL, 'http://www.amazon.com') curl.setopt(curl.WRITEFUNCTIO

浏览 4提问于2014-02-13得票数 1

1回答

使用bs4 python抓取时，不会呈现完整的超文本标记语言

python、html、web-scraping、beautifulsoup

我正在尝试从极客那里收集数据，用于我自己的简单的抓取和分析项目。我正在使用bs4和requests - python2 我需要抓取这个url上的所有问题， ques_page = requests.get('https://practice.geeksforgeeks.org/explore/?page=1') ques_soup = BeautifulSoup(ques_page.text, 'lxml') get_ques = ques_soup.find('div', class_="panel problem-block

浏览 13提问于2019-01-02得票数 0

回答已采纳

1回答

webscraping:使用python: airbnb列表从html中的xpath中提取url

python、xpath、web-scraping、beautifulsoup、lxml

我正在尝试使用Python3库从AirBnb的城市页面中提取列表的urls。我熟悉如何使用Beautifulsoup和requests库来抓取更简单的网站。网址：'‘ 如果我检查页面上链接的元素(在Chrome中)，我会得到： xpath: "//*[@id="listing-9770909"]/div[2]/a" selector: "listing-9770909 > div._v72lrv > a" 我的尝试： import requests from bs4 import BeautifulSoup url =

浏览 16提问于2018-08-31得票数 0

1回答

Python代码监控和检测当前/实时网站抓取内容/HTML代码的变化

python、html、web-scraping、beautifulsoup

我开始使用抓取网站内容和HTML代码。我想要一个Python代码，可以存储抓取的内容或HTML代码在当前/实时。然后，在特定的手动分配的时间间隔之后，代码应该再次执行，并抓取相同网站或网页的内容或HTML代码。然后，它应该比较两个抓取的数据，并显示发生的任何更改。我想要这个代码来监控网站上发生的变化，并报告它们。到目前为止，我所做的是： import requests from bs4 import BeautifulSoup url ="https://www.uetmardan.edu.pk/uetm/" # Step1: Get the HTML content

浏览 0提问于2021-11-22得票数 0