使用BeautifulSoup从网站导入表格_使用BeautifulSoup从网站获取表格_使用BeautifulSoup 4.8.2从网站抓取表格 - 腾讯云开发者社区

python、pandas、beautifulsoup

我正在尝试从网站导入一个表，然后将数据转换为pandas数据帧。网址为：https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M 到目前为止，这是我的代码： import numpy as np import pandas as pd import requests from bs4 import BeautifulSoup website_url = requests.get( 'https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M

浏览 16提问于2019-05-27得票数 0

回答已采纳

1回答

BeautifulSoup和Pandas read_html并没有把表中的所有行都拉出来

python、pandas、dataframe、selenium、beautifulsoup

当我从一个网站上抓取一个表格时，它丢失了下面5行数据，而我不知道如何提取它们。我使用的是BeautifulSoup和Selenium的组合。我认为它们没有加载，所以我试着用Selenium滚动到底部，但是仍然没有工作。法典审判： site = 'https://fbref.com//en/comps/15/10733/schedule/2020-2021-League-One' PATH = my_path driver = webdriver.Chrome(PATH) driver.get(site) webpage = bs.BeautifulSoup(driver.pa

浏览 5提问于2022-02-07得票数 1

回答已采纳

1回答

如何使用python提取网站的全部数据？

python、angular、web-scraping、beautifulsoup

我正在尝试从以下网站读取表格数据：，使用以下代码： import requests import urllib.request import time from bs4 import BeautifulSoup url = 'https://cdn.ime.co.ir' response = requests.get(url) soup = BeautifulSoup(response.text, "html.parser") 但是，当我检查soup的内容时，我需要读取的表的数据并不在其中！这是我喜欢阅读的表格之一，它的数据将通过单击它上面的栏来显示。

浏览 6提问于2020-02-24得票数 0

2回答

BeautifulSoup，findAll，findAll之后？

python、beautifulsoup、python-requests

我对Python非常陌生，主要是为了从网站获取信息。在这里，我试图从网站的底部得到简短的标题，但无法完全得到它们。 from bfs4 import BeautifulSoup import requests url = "http://some-website" r = requests.get(url) soup = BeautifulSoup(r.content, "html.parser") nachrichten = soup.findAll('ul', {'class':'list'}) 现在我需要

浏览 5提问于2016-09-13得票数 2

回答已采纳

1回答

从Tableau公共仪表板中抓取数据

python、web-scraping、beautifulsoup、tableau-api

我对从网站上抓取数据的世界非常陌生，不知道如何从使用Tableau Public的网站上抓取数据网址：https://showmestrong.mo.gov/data/public-health/ 我一直在阅读一些关于如何检查元素并找到其中的表的资料，但我不知所措。我试过在Python、requests和BeautifulSoup中使用，但不知道如何工作。 import requests from bs4 import BeautifulSoup import json import re r = requests.get("https://showmestrong.mo.gov

浏览 17提问于2020-09-30得票数 1

回答已采纳

2回答

从网站表中获取某个元素

python、web-scraping、beautifulsoup

我一直试图从网站上的一个表格中得到一个值。我一直在遵循一个教程，但我现在被困住了。我的目标是从表格中提取国家名称和该特定国家的总数，并将其打印在屏幕上。例如：中国: 80,761例我正在使用Python3.7。到目前为止，这是我的代码： import requests from bs4 import BeautifulSoup url='https://www.worldometers.info/coronavirus/' response = requests.get(url) soup = BeautifulSoup(response.content, '

浏览 6提问于2020-03-10得票数 0

回答已采纳

1回答

使用BS4从python中抓取团队统计表

python、html、web-scraping、beautifulsoup

我正在尝试从职业足球参考中抓取一个表格，特别是来自的团队进攻表。每当我尝试下面的代码时，我都会得到一个空列表或一个NoneType。我已经抓取了其他网站，如ESPN，没有任何问题。 import requests from bs4 import BeautifulSoup url = 'https://www.pro-football-reference.com/years/{}/' response = requests.get(url.format(2019)) soup = BeautifulSoup(response.text, 'lxml')

浏览 2提问于2020-08-13得票数 1

2回答

如何使用python从网站中提取表格

python、pandas、web-scraping、beautifulsoup、python-requests

我一直试图从网站上提取表格，但我迷路了。有人能帮我吗？我的目标是提取scope页的表： import requests from bs4 import BeautifulSoup url = "https://training.gov.au/Organisation/Details/31102" response = requests.get(url) page = response.text soup = BeautifulSoup(page, 'lxml') table = soup.find(id ="ScopeQualification"

浏览 0提问于2021-01-08得票数 1

2回答

具有多页的javascript表上的Python BeautifulSoup

javascript、python、screen-scraping、beautifulsoup

我曾经有一个python脚本，可以使用Mechanize和BeautifulSoup正确地从下表中拉出数据。然而，这个网站最近将表格的编码改为javascript，我在使用它时遇到了麻烦，因为表格有多个页面。例如，在上面的链接中，我如何从表的第1页和第2页获取数据？FWIW，URL不会改变。

浏览 3提问于2012-01-18得票数 1

回答已采纳

1回答

在BeautifulSoup和Git Bash上进行网络抓取并传输到CSV

python、python-2.7、beautifulsoup、scrapy

所以我一直在网上抓取一个有表格的网站，理想情况下，我想在网上抓取成excel表格，并将其保存在表格中，我将输入我所拥有的，我已经使用了scrapy和BeautifulSoup，我对这两个都有问题。如果能帮上忙就太好了！ import requests import csv from bs4 import BeautifulSoup url = 'https://pcpartpicker.com/products/video-card/' r = requests.get(url) html = r.text soup = BeautifulSoup(html, 'l

浏览 1提问于2018-11-23得票数 0

3回答

Python抓取--当页面通过JS加载内容时，如何用漂亮的汤获取资源？

python、beautifulsoup、screen-scraping、urllib

因此，我试图使用BeautifulSoup和urllib从特定的网站中抓取一个表。我的目标是从这个表中的所有数据创建一个列表。我试过使用来自其他网站的表格来使用相同的代码，而且它工作得很好。但是，在尝试使用此网站时，该表返回一个NoneType对象。有人能帮我吗？我试过在网上寻找其他答案，但运气不太好。下面是代码： import requests import urllib from bs4 import BeautifulSoup soup = BeautifulSoup(urllib.request.urlopen("http://www.teamrankings.com/nc

浏览 5提问于2015-04-20得票数 6

回答已采纳

1回答

与py2exe和BeautifulSoup一起工作。脚本运行良好，但是在转换成.exe之后，它会显示错误

python、python-2.7、beautifulsoup、py2exe、python-module

我用beautifulSoup创建了一个脚本来废弃一个网站。当我运行脚本时，我得到了我想要的。因此，我决定将其转换为inot .exe文件。转换已经完成，除非它表明-- 但是，它创建了.exe文件，当我尝试运行.exe文件时，它显示了-- 我试图卸载-重新安装软件包，并试图从可用的内容搜索，但这没有帮助。下面是脚本代码(p3_extract.py)： from bs4 import BeautifulSoup import urllib2 import lxml url="http://fuckinghomepage.com/" page= urllib2.urlopen(

浏览 2提问于2016-01-09得票数 1

回答已采纳

2回答

如何从"https://www.nseindia.com/companies-listing/corporate-filings-event-calendar?days=7days“中抓取数据

python、python-3.x、python-2.7

我正在尝试从"“网站上抓取表格，因为python的输出正在抓取表格。 import requests from bs4 import BeautifulSoup url = 'https://www.nseindia.com/companies-listing/corporate-filings-event-calendar?days=7days' headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like

浏览 3提问于2020-10-27得票数 0

1回答

使用BeautifulSoup解析网页上的表格

python、parsing、web-scraping、beautifulsoup

正在尝试从网站获取表格。页面保存到本地驱动器，我使用BeautifulSoup对其进行解析： soup = BeautifulSoup(open(pages), "lxml") soup.prettify() list_0 = soup.find_all('table')[0] print list_0 它返回的不是页面上的第一行： [<tr><td>Zhongmin Baihui</td><td>5SR</td><td class="nowrap">09:44 AM&l

浏览 15提问于2019-10-30得票数 1

回答已采纳

1回答

如何从html中的div标记中获取特定的表标记？

python

我正在尝试从网站 .获取表格信息。 from bs4 import BeautifulSoup from urllib.request import urlopen html = urlopen("http://www.o1vsk.lv/index.php/stundu-izmainas").read() rows=[] soup=BeautifulSoup(html,"html.parser") box = soup.find('div', {'class': 'DRight'}) 这个程序获取页面的所有内容，

浏览 4提问于2022-08-10得票数 0

回答已采纳

1回答

无法在NSE中刮取表格数据

python、web-scraping、data-analysis

我正试图从NSE网站- 上获取进展/下滑。前进/下降是HTML中的表格格式。但我无法检索在网站中显示的实际数值。 from bs4 import BeautifulSoup import pandas as pd import requests url = "https://www1.nseindia.com/live_market/dynaContent/live_market.htm" webpage = requests.get(url); soup = BeautifulSoup(webpage.content, "html.parser"); fo

浏览 4提问于2020-01-10得票数 1

回答已采纳

1回答

从桌子上获取数据的漂亮汤

python、beautifulsoup

我最近要求帮助使用漂亮的汤从一个网站获取外汇价格。数据被隐藏在跨度中。我很幸运地得到了两个人的帮助，他们都很棒，并帮助我度过难关。我已经找到了一个不同的网站，我想要从，这一次没有跨度的文本是在tr和td从表。就是网站..。正如你所看到的，价格的高低可以追溯到30天前，我相信在这张桌子上我想抓取整个表，这样我就可以根据需要使用数据来进行不同的计算。当我试图获取数据时，它仍然只是作为一个空列表返回。我试过很多不同的地方去取它。有人不仅能帮我得到我想要的东西，还能解释我做错了什么，这样我就可以学着为自己使用漂亮的汤了，这样我就不用一直寻求帮助了。上一次我从span抓取它时，它将它保存在一

浏览 1提问于2022-12-04得票数 -1

回答已采纳

3回答

如何使用Python从链接中解析表

python、selenium、beautifulsoup、python-requests

我正在尝试从链接中解析表格，但无法获得它。我试过了： from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.chrome.options import Options import os chrome_options = Options() chrome_options.add_argument("--window-size=1200x1900") chrome_driver = os.getcwd() + "/chromedriver" driv

浏览 6提问于2018-11-05得票数 0

4回答

如何单击另一个元素覆盖的链接？Python3.6和Selenium

python-3.x、selenium、xpath、css-selectors、webdriverwait

找出如何单击此页表格底部的“下一步”按钮时遇到困难：这就是我尝试过的： from bs4 import BeautifulSoup import requests import csv, random, time from pandas.io.html import read_html from selenium import webdriver from selenium.webdriver.support.ui import Select url = 'https://www.zacks.com/stocks/industry-rank/reit-and-equity-tr

浏览 1提问于2019-01-15得票数 2

回答已采纳

2回答

用白僵菌汤刮取蟒蛇体内的Reelgood.com

python、web-scraping、beautifulsoup

我试图为网站构建一个刮板(用Python)。如果我去看一部关于雷克斯的电影，它会给我显示这样的播放按钮：如果我点击那个按钮，它就会将我重定向到，现在我想刮掉这个特定的URL。所以我想我做了一个小的python脚本来抓取所有包含的链接。所以我想出了这个： from bs4 import BeautifulSoup import requests URL = "https://reelgood.com/movie/the-intouchables-2011" page = requests.get(URL) soup = BeautifulSoup(page.content

浏览 0提问于2021-03-22得票数 1

回答已采纳

1回答

(Python、BeautifulSoup)创建或修改不带锚点标记的锚点文本列表

python、list、web-scraping、beautifulsoup、python-requests

我是Python的新手，我正在尝试构建一个从网站提取一些文本并将其粘贴到Google电子表格中的脚本。文本是用标签包装在网站上的标题。我使用BeautifulSoup (也导入了pygspread )来提取标题，如下所示： target_url = 'WEBSITE URL' r = requests.get(target_url) soup = BeautifulSoup(r.text, 'html.parser') seminarTitles = soup.findAll("a",{"class":"eventC

浏览 16提问于2019-12-24得票数 0

回答已采纳

2回答

CSV文件中的writerow问题

python、csv、beautifulsoup、row

我是Python的初学者，我正在尝试从web中提取数据并将其显示在表格中： # import libraries import urllib2 from bs4 import BeautifulSoup import csv from datetime import datetime quote_page = 'http://www.bloomberg.com/quote/SPX:IND' page = urllib2.urlopen(quote_page) soup = BeautifulSoup(page, 'html.parser')

浏览 1提问于2017-02-15得票数 2

2回答

如何使用网络抓取从活表中获取数据？

web-scraping、beautifulsoup

我正试图通过Python直接从网站下载数据，从而建立一个活表。我想我正在跟踪所有的步骤，但我仍然无法从该表中获得数据。我曾参考过许多网页和博客，试图纠正这个问题，但没有成功。我希望堆栈溢出社区在这里提供帮助。以下是表格网站，网页上只有一张表格，我正试图从中获取数据：表上的数据部分是免费的，其余的都是付费的。所以我想这就是问题所在，但我认为我应该能够下载免费的数据。但是由于这是我第一次尝试，并且考虑到我是Python的初学者，所以我可能错了。因此，请所有的帮助是感谢。守则如下： import pandas as pd import html5lib import lxml fro

浏览 0提问于2019-05-15得票数 0

回答已采纳

1回答

BeautifulSoup Python无法从网站抓取数据

python、web-scraping、beautifulsoup

我需要从一个网站将表格数据加载到csv中，我使用Python和BeautifulSoup运行了下面的代码，但无法从其中加载数据。 import requests from bs4 import BeautifulSoup as BS url = 'https://newweb.nepalstock.com/floor-sheet' agent = {"User-Agent":'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (HTML, like Gecko) Chrome/59.0.3071

浏览 0提问于2021-06-06得票数 0

1回答

无法使用漂亮的汤刮除表中的所有行

python-3.x、web-scraping、beautifulsoup

我试着从https://google.com/covid19-map/?hl=en网站上抓取表格行，以获得有关冠状病毒传播的数据。但是它只返回几行，在我的例子中是15行，我无法抓取所有行。表格在网站上不是完全可见的，需要滚动才能看到表格的内容。请帮帮忙。 import requests from bs4 import BeautifulSoup URL = "https://google.com/covid19-map/?hl=en" r = requests.get(URL) soup = BeautifulSoup(r.content, 'html5l

浏览 18提问于2020-03-30得票数 0

回答已采纳

1回答

从网站中提取表格

python、html、parsing、beautifulsoup、urllib2

我已经多次尝试检索这个网站上的表格： (“历史参与”下的那个) import urllib2 from bs4 import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://www.whoscored.com/Players/845/').read()) 这是我用来检索表html的Python代码，但是我得到了一个空字符串。帮帮我！

浏览 1提问于2015-03-31得票数 1

回答已采纳

1回答

美汤找不到档次

python、python-3.x、web-scraping、beautifulsoup

我试着用bs4从一个NBA的统计网站上获取表格。该网站似乎没有使用JavaScript。 soup.prettify打印结果看起来很正常，但是我无法使用soup.find_all获得我想要的表。下面是我使用的代码： import requests from bs4 import BeautifulSoup url = 'http://stats.nba.com/team/#!/1610612738/stats/' page = requests.get(url) html = page.content soup = BeautifulSoup(html, 'html

浏览 5提问于2016-09-13得票数 3

回答已采纳

2回答

美丽的汤只返回javaScript代码？

javascript、python、web-scraping、beautifulsoup、screen-scraping

我想从下面的网站抓取数据。我试图从网络选项卡中获取数据，但是它没有返回任何数据。然后，我尝试BeautifulSoup获取一些数据，但它只返回带有空tbody标记的Javascript。但是在in元素中，它在表中显示数据。 import requests from bs4 import BeautifulSoup url = 'https://dell.secure.force.com/FAP' headers = { 'Connection': 'keep-alive' } data = { 'pt': "f

浏览 5提问于2022-02-03得票数 1

2回答

当web在Python中搜索表时，返回一个空表。

python

我需要通过使用Python中的BeautifulSoup库进行web抓取，从网站抓取一个表。来自URL https://www.nytimes.com/interactive/2021/world/covid-vaccinations-tracker.html 当我运行这段代码时，我得到了一个空表： import requests from bs4 import BeautifulSoup # vaacineProgressResponse = requests.get("https://www.nytimes.com/interactive/2021/world/covid-vacc

浏览 0提问于2021-04-18得票数 3

回答已采纳

4回答

用Python实现表Web抓取问题

python、html、web-scraping、beautifulsoup

我有问题从这个网站抓取数据：我感兴趣的是从不同的桌子上获取球员的名字和分数。我对python相对陌生，对web抓取完全陌生。以下是我到目前为止所拥有的： from urllib.request import urlopen from bs4 import BeautifulSoup url = 'https://fantasy.premierleague.com/player-list' html = urlopen(url) soup = BeautifulSoup(html, "lxml") rows = soup.find_all('

浏览 1提问于2020-06-22得票数 1

回答已采纳

1回答

难刮web表-多个嵌套类

python-3.x、web-scraping、beautifulsoup、html-table

我试图从一个网站刮表，但不确定是否能够正确地引用适当的类。我附上截图和从BeautifulSoup提取的身体。我是不是看错了，请原谅，我对网络刮擦很陌生。我需要提取圆圈高亮部分中存在的表格，但是不确定如何在那里遍历。

浏览 6提问于2022-08-23得票数 0

回答已采纳

2回答

收集数据，然后将数据导入drupal的最佳方法？

mysql、database、excel、drupal、web

我正在建立我的第一个数据库驱动与Drupal网站，我有几个问题。，我目前正在填充google电子表格，其中包含了我希望最终能够从该网站查询的所有数据(导入之后)。这是最好的启动方式吗？，如果这不是最好的开始方式，您推荐什么？，我的计划是填充电子表格，然后通过CCK节点将它作为csv导入mysql db。。我见过两种方法。 (将数据导入CCK节点) (使用电子表格/csv代替Inserting语句插入数据) 基本上，我的问题是什么是收集数据，然后将数据导入drupal的最佳方式？提前感谢您的帮助和建议。

浏览 0提问于2009-04-14得票数 2

1回答

如何使用python解析包含CSS和HTML的网页

python、html-parsing、beautifulsoup

我试图从一个包含CSS，当然还有HTML的网页中解析和提取一些信息。我用的是苏提斯汤和清汤。假设我想找出表格标题所用的字体大小。Beautifulsoup告诉我HTML中的表定义在哪里。但是，如果我想知道表中使用的是哪种样式，我是否从BeatifulSoup获得了这些信息？如果不是，我该如何着手解决这个问题。谢谢你的帮助。

浏览 3提问于2013-07-03得票数 2

1回答

无法使用请求从网页获取所有表格内容

python、python-3.x、web-scraping

我在python中创建了一个脚本来解析网站中的表格内容。我的脚本现在可以解析它的登陆页面中的内容。然而，在页面底部有一个NEXT PAGE按钮，当被单击时，它会显示50多个结果，等等。我试过(刮掉前50个结果)： import requests from bs4 import BeautifulSoup site_link = 'https://indiarailinfo.com/trains/passenger/0/0/0/0' res = requests.get(site_link) soup = BeautifulSoup(res.text,"lxml&

浏览 4提问于2019-10-17得票数 1

回答已采纳

1回答

在Python - JavaScript表中用美汤进行网页抓取

beautifulsoup、python-requests、prettify

我正试着从一个网站上刮一张桌子，但我似乎无法用Python中的Beautifulsoup来解决这个问题。我不确定是不是因为表格格式的原因，但我基本上想把这个表格变成一个CSV。 from bs4 import BeautifulSoup import requests page = requests.geenter code heret("https://spotwx.com/products/grib_index.php?model=hrrr_wrfprsf&lat=41.03399&lon=-73.76291&tz=America/New_York&

浏览 1提问于2017-10-06得票数 0

1回答

从芝加哥商品交易所网站抓取数据

python、selenium、web-scraping、beautifulsoup、python-requests-html

我正在尝试从CME网站的表格中抓取数据。具体地说，我想提取每种未来货币的未平仓权益数据。但是，当我尝试解析表时，它什么也得不到。下面给出的链接from which I am trying to scrape the data是我试图通过它来实现的代码。 from bs4 import BeautifulSoup import requests url="https://www.cmegroup.com/market-data/volume-open-interest/fx-volume.html" # Make a GET request to fetch the ra

浏览 49提问于2020-11-17得票数 1

1回答

在不提交的情况下获取表单url使用Python

python、beautifulsoup、python-requests

我有一个网页，其中包含一个或多个表格。我想做的是：识别表格发送post请求并捕获响应。我已经过了第1点，我使用requests.get和Beautifulsoup从网页中识别表单。我的问题是，，不提交表单，我如何才能得到表格url？示例:我将在上搜索“测试” url如下所示：我有兴趣得到这个部分：/search?q，因为其他站点在这些情况下有更复杂的urls，我想构建一个不依赖于网站的刮板。我试过的完整代码： from bs4 import BeautifulSoup import urllib.request import requests import mech

浏览 1提问于2017-10-06得票数 0

1回答

在动态表格上使用selenium进行web抓取

python、selenium、web-scraping

我试图从一个动态网站上抓取表格(我相信它每10秒更新一次信息)，并将其加载到熊猫数据帧中，但我似乎无法通过获取第一列的第一步。有人能告诉我哪里做错了吗？谢谢。 # import libraries import urllib.request from bs4 import BeautifulSoup from selenium import webdriver import time import pandas as pd urlpage = 'https://new.cryptoxscanner.com/binance/live' driver = webdriver.C

浏览 79提问于2020-02-16得票数 0

回答已采纳

1回答

如何使用BeautifulSoup将抓取列表转换为dataframe？

python、list、dataframe

我正在从这个网站上搜集数据：https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M。使用BeautifulSoup，并且必须以包含三列的表格格式显示它:邮政编码、自治市、邻居。我希望将抓取列表从列表转换为数据帧，这样我就可以删除一些行，并对数据帧进行进一步的操作。获取以下错误消息： ? 代码如下： import pandas as pd import numpy as np import requests from tabulate import tabulate from bs4 import Be

浏览 37提问于2019-05-03得票数 0

3回答

python抓取雅虎财务

python、python-3.x、web-scraping、yahoo-finance

因为雅虎财经更新了他们的网站。有些表似乎是动态创建的，而不是实际存储在HTML中(我以前使用BeautifulSoup，urllib来获取这些信息，但这已经行不通了)。我关注的是分析师的表格，例如，特别是前一年每股收益的估计(本年度专栏)。您无法从API中获取此信息。我发现这个链接对分析师推荐趋势很有效。有人知道如何对这个页面上的主表做类似的事情吗？(链接： ) 我试图遵循所采取的步骤，但坦率地说，这超出了我的能力。我只需要把整张桌子还回去，我就能从中挑出一些东西。干杯

浏览 8提问于2017-04-11得票数 3

回答已采纳

1回答

在美汤中使用NoneType函数时返回一个find值

python、pandas、beautifulsoup

我正在使用美丽汤从网站上提取表格。find函数返回一个pandas值，而我不知道如何继续将所有表提取到NoneType DataFrames中。 import pandas as pd import datetime as dt import pandas_datareader as web import matplotlib.pyplot as plt from matplotlib import style import matplotlib.ticker as ticker from bs4 import BeautifulSoup import requests url='

浏览 17提问于2020-09-12得票数 0

回答已采纳

1回答

我怎样才能访问这个网站的表格和内容？

html、pandas、selenium、beautifulsoup、selenium-chromedriver

我目前正在从这个网站的一个表中提取特定的数据：。为此，我使用Python和selenium。我的问题是，当我尝试使用read_html()从pandas中搜索表时，只找到表的标题，这是我得到的输出： lncRNA ID Chromosome Disease Pubmed P-value Bonferroni Variant miRNA Gain Loss 0 No items No items No items No items No items No items No items No items No items N

浏览 24提问于2021-03-04得票数 1

回答已采纳

2回答

如何使用selenium在网页上执行所有javascript内容，以便在已满载的网页上查找和发送登录表单信息

python、selenium、selenium-webdriver、frame、webdriverwait

我一直试图制作一个Python脚本来登录到某个网站，浏览菜单，填写表单并将它生成的文件保存到文件夹中。我一直在使用Selenium来使网站完全加载，这样我就可以找到登录的元素，但我并不成功，可能是因为该网站在完全加载之前做了大量的JavaScript内容，但我无法让它完全加载并显示我想要的数据。我尝试了Robobrowser、Selenium、Request和BeautifulSoup来完成它。 import requests from bs4 import BeautifulSoup from selenium import webdriver url = "https://d

浏览 0提问于2019-04-16得票数 2

回答已采纳

1回答

如何使用bs4在python中刮取多个页面

python、web-scraping、beautifulsoup

我有一个查询，因为我一直在刮一个网站"“，因为我无法从表中给定的链接中抓取电子邮件id。虽然需要从给定表格中的链接中刮取姓名、电子邮件和董事。请任何人，解决我的问题，因为我是一个新手，使用python与美丽的汤和要求的网页刮。谢谢你，迪克沙 #Scraping the website #Import a liabry to query a website import requests #Specify the URL companies_list = "https://www.zaubacorp.com/company-list" link = requests.

浏览 2提问于2020-05-03得票数 0

回答已采纳

2回答

是否有可能用python抓取html的伪元素中包含的数据？

python、html、beautifulsoup、python-requests

我一直试图开发一个刮擦代码，从意大利梦幻足球网站上检索表格。为此，我想解析使用python、BeautifulSoup和熊猫的html。但是，当我用BeautifulSoup解析html代码时，我找不到任何表：此代码： >>> # import libraries >>> import requests >>> from bs4 import BeautifulSoup >>> # define url of interest, request it and parse it >>> url

浏览 5提问于2019-12-18得票数 1

回答已采纳

1回答

漂亮汤网刮刀问题:在网页上找不到桌子

python、web-scraping、beautifulsoup、findall

我想通过以下代码从网站获得表格： from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my_url = 'https://www.flashscore.pl/pilka-nozna/' uClient = uReq(my_url) page_html = uClient.read() uClient.close() page_soup = soup(page_html, "html.parser") containers = page_soup.fin

浏览 1提问于2018-12-18得票数 1

回答已采纳

1回答

从网站中提取关键信息的Python框架

python、web-scraping、beautifulsoup、scrapy

我正在寻找Python的框架，以从数千个不同的网站中提取关键信息，如“办公地点”、“首席执行官”等。理想情况下，脚本应该在网站网址中阅读，识别一些“关键术语”，如“位置”、“办公室”、“团队成员”等，并打印相应的度量标准。我唯一相关的经验是在使用Scrapy时提取一个特定网页上的模式的信息(即从维基百科中提取表格)，但不确定Scrapy或BeautifulSoup是否适用于这类项目。想知道Scrapy是否是我的最佳选择，如果是的话，这种类型的项目将使用什么正确的语法。我已经尝试过一些变体 import scrapy from bs4 import BeautifulSoup import u

浏览 6提问于2022-01-12得票数 1

回答已采纳

1回答

Selenium下拉选项无法在web上进行刮除

python、selenium、web-scraping

因此，我必须在网上刮刮汽车年的信息，模型和从 (如果链接不起作用，请转到''，填写邮政编码为'75002'，在客户信息中输入随机的详细信息，你将登陆车辆信息链接)。浏览了各种答案后，我发现我不能使用机械或类似的东西，因为每次我在菜单中选择一个选项时，浏览器都会发送JavaScript请求。只剩下硒之类的东西来帮我。以下是我的代码： from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support.ui import Select from bs4 i

浏览 3提问于2018-01-16得票数 0

回答已采纳

2回答

使用python抓取AJAX电子商务站点

python、ajax、web、beautifulsoup、screen-scraping

我在使用BeautifulSoup抓取电子商务网站时遇到了问题。我做了一些谷歌搜索，但我仍然无法解决问题。请参阅图片： Chrome F12： Result：这里是我试图刮的网站："“ 问题：当我试图打开Google (F12)上的检查元素时，我可以看到产品的名称、价格等。但是当我运行python程序时，我无法在python结果中得到相同的代码和标记。在googling之后，我发现这个网站使用AJAX查询来获取数据。任何人都可以通过抓取AJAX站点来帮助我获得这些产品的数据。我想用在表格中显示数据。我的代码： import requests f

浏览 0提问于2019-01-28得票数 2

回答已采纳

1回答

使用BeautifulSoup从url中提取url列表

python、web-scraping、beautifulsoup

我想从这个链接中提取关于网站相似性的信息：我正在查看类=“站点”，试图从 <a href="/siteinfo/ebay.com" class="truncation">ebay.com</a> 但我只能看到一个价值。是否可以提取所有的4个值和相关的重叠评分？我想要实现的是一个包含这些信息的表格。 W amazon.com eBay.com 70.1 pinterest.com 54.7 wikiped

浏览 0提问于2021-01-21得票数 1

回答已采纳