使用BeautifulSoup进行循环，以便按时间戳抓取多个页面_使用BeautifulSoup循环页面以进行抓取_使用BeautifulSoup从多个页面进行多线程文件下载的网络抓取 - 腾讯云开发者社区

python、scrape

我熟悉从网页抓取数据的BeautifulSoup和urllib2。但是，如果在返回我想要抓取的结果之前需要在页面中输入一个参数，该怎么办？我正在尝试使用这个网站获取两个地址之间的地理距离：我希望能够转到页面，输入两个地址，单击“显示”，然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值，并将它们保存到字典中。有没有办法用Python把数据输入到网页中？

浏览 2提问于2011-08-13得票数 8

回答已采纳

4回答

具有不同排序选项的Java自定义比较器

java、sorting、comparator

我有一个Item类，它有两个属性- id和时间戳。有一个自定义比较器类来根据时间戳对itemList进行排序。是否有一种方法可以使用比较器类，以便我可以按时间戳或按id指定排序？物品类别： public class Item { private Integer id; private Date timestamp; } 比较国： public class ItemComparator implements Comparator<Item>{ @Override public int compare(Item mdi1, Item md

浏览 4提问于2013-10-30得票数 3

回答已采纳

3回答

在美汤中抓取多个页面进行解析

python、web-scraping、urllib2

我正在尝试从一个网站中抓取多个页面，以便BeautifulSoup进行解析。到目前为止，我已经尝试使用urllib2来做这件事，但是遇到了一些问题。我尝试的是： import urllib2,sys from BeautifulSoup import BeautifulSoup for numb in ('85753', '87433'): address = ('http://www.presidency.ucsb.edu/ws/index.php?pid=' + numb) html = urllib2.urlopen(addres

浏览 1提问于2011-12-01得票数 0

回答已采纳

1回答

如何使用python抓取多页网站并将数据导出到.csv文件中？

python、csv、beautifulsoup

我想使用python抓取以下网站，并需要将已抓取的数据导出到CSV文件中：该网站包括154页的相关搜索。我需要调用每个页面，并希望刮取数据，但我的脚本无法连续调用下一个页面。它只刮一页数据。在这里，我给值i<153，因此，这个脚本只运行154页，并给了我10个数据。我需要从第一页到第154页的数据如何在运行脚本后从所有页面抓取全部数据，以及如何将数据导出为CSV文件？？我的脚本如下 import csv import requests from bs4 import BeautifulSoup i = 0 while i < 153: url =

浏览 2提问于2016-07-24得票数 0

2回答

如何创建一个循环来遍历URL列表，抓取所有的数据。类似页面的所有URL都保存在一个file.txt中(一行中的每个URL)？

python、pandas、beautifulsoup、python-requests

我想从具有相似页面结构的多个页面中提取一些信息。页面的所有URL都保存在一个file.txt中(一行中的每个URL)。我已经创建了代码来从一个链接中抓取所有数据(它可以工作)。但我不知道如何创建一个循环来遍历txt文件中的所有URL列表，并刮取所有数据。 from bs4 import BeautifulSoup from urllib.request import urlopen import requests import pandas as pd import numpy as np import json import matplotlib.pyplot as plt from bs

浏览 8提问于2021-10-06得票数 1

回答已采纳

3回答

Python web抓取用户列表

python、python-requests

我试图从一个网站上抓取用户列表，但它有多个页面，我可以抓取第一个页面，但当我抓取每个页面时就卡住了。代码- from bs4 import BeautifulSoup import requests source = requests.get('example.com/users.php?page=1').text soup = BeautifulSoup(source, 'lxml') for profile in soup.select("li h3 a"): print(profile.text) 在url中的通知 pag

浏览 5提问于2018-01-09得票数 1

回答已采纳

1回答

从超文本标记语言<time>标签中找出确切时间

javascript、python、html、web-scraping、beautifulsoup

我目前正在使用BeautifulSoup抓取一些数据，并且遇到了关于在网页html上找到的时间元素的问题。在下面的url中，您将找到讨论帖子的列表，每个讨论帖子都有一个标题、作者姓名和相对于当前本地时间的帖子时间。源代码显示了页面显示的文本，但我似乎找不到任何datetime属性来引用每个帖子的确切日期。如果你转到列表中的第4页，你会发现，从发帖日期开始，每过一个月，帖子就会开始显示确切的发帖日期，而不是“相对时间”。有没有办法检索显示“相对时间”的帖子的确切日期？网址：

浏览 20提问于2019-07-23得票数 0

1回答

范围循环在not擦除中不起作用

python、beautifulsoup

我已经用BS4写了一个小的网页抓取器，用这个代码我可以一次刮掉一个页面，下面是相关代码。 import csv from bs4 import BeautifulSoup import requests html = requests.get("http://www.gbgb.org.uk/resultsMeeting.aspx?id=129867").text soup = BeautifulSoup(html,'lxml') 这段代码抓取一个页面，但是我想一次抓取多个页面(一个范围)，所以我尝试像这样添加这个for循环。 import csv from bs

浏览 1提问于2016-04-02得票数 0

3回答

JUnitReport HTML -单元测试结果顺序

java、html、junit

有没有人知道，是否可以在ant中对junitreport任务生成的HTML页面进行排序，以便按照时间戳而不是按类名的字母顺序对测试结果进行排序。报告确实显示了时间戳，但我找不到任何方法来按时间戳对结果进行排序。我希望默认值是按时间戳排序。非常感谢，Stef

浏览 1提问于2011-01-19得票数 1

回答已采纳

1回答

有没有办法获取http/s get请求的时间戳？

python、html、python-requests、python-requests-html

我对使用requests和BeautifulSoup的网页抓取很感兴趣。 raw = requests.get(url) print(raw.text) 当我运行代码时，我注意到结果延迟了多达7分钟。有没有办法在我执行get请求后获得请求库的时间戳？我认为这些请求不是实时的。

浏览 81提问于2021-11-16得票数 0

1回答

来自BeautifulSoup4网络刮取的时区与原始源不同

python、web-scraping、beautifulsoup、google-calendar-api、timezone-offset

我正在使用beautifulsoup4从谷歌日历中抓取信息。我编制了一份清单，列有日期，然后是有预约的人的姓名，以及会议举行的时间。然而，由于某些原因，网络刮擦产生的时间提前了5个小时，我不知道为什么。下面是我用来生成列表的内容： import requests import re from bs4 import BeautifulSoup url = "https://calendar.google.com/calendar/htmlembed?src=stationhouston.com_rjtfsabha07jarsumdg7v95b10@group.calendar.g

浏览 1提问于2018-08-09得票数 0

回答已采纳

1回答

Web抓取需要登录的站点

python-3.x、web-scraping、beautifulsoup

首先，我不是python专家。我正在学习python，以便从这个特定的游戏网站上抓取数据。我正在尝试从一个需要登录的网站上抓取数据。你不会看到数据，除非你登录到这个网站。(我附上了一个页面截图，你将看到以上网站，一旦你登录)我试图运行以下代码： import requests from bs4 import BeautifulSoup page = requests.get('<website url>') soup = BeautifulSoup(page.content, 'html.parser') print(soup) 在这里，我

浏览 0提问于2020-05-29得票数 0

2回答

如何根据特定列删除power BI分组中的重复项？

powerbi、duplicates、columnsorting

我有一个数据集，其方式如下：我希望删除每个“id”的重复时间戳，这样每个时间戳的“修订”值都是最高的，也就是说，最后的数据集应该如下所示：我想在power的查询编辑器中这样做。我试过这样做是为了一个特定的“id”，它起作用了。我选择了id=1001，然后按降序对修订进行排序，并在表中添加了索引列。然后，我在时间戳列上应用了‘删除重复项’。此过程适用于“id”的一个值。我希望对每个id分别执行此操作，以便每个时间戳只对任何特定的“id”发生一次。我该怎么做？

浏览 0提问于2022-05-02得票数 1

回答已采纳

1回答

从如此多的网页中获取抓取数据的最快方法是什么？

python、mysql、google-app-engine、google-cloud-datastore、web-scraping

我需要报废约40个随机网页在相同的time.These页面不同于每个请求。我使用python中的rpcs来获取urls，并使用BeautifulSoup抓取数据。删除所有数据并在屏幕上显示大约需要25秒。为了提高速度，我将数据存储在appengine数据存储中，以便每个数据只被抓取一次，并且可以从那里快速访问。但问题是->随着数据存储中数据大小的增加，从数据存储获取数据的时间太长(比抓取更多)。我应该使用memcache还是shift to mysql？mysql比gae-datastore快吗？或者，有没有其他更好的方法来尽可能快地获取数据？

浏览 2提问于2013-04-19得票数 0

2回答

使用Python读取和与HTML表交互

python、html、pandas、beautifulsoup

我正在尝试从一个HTML表中抓取信息，该表具有交互能力，可以在不同的时间段中筛选信息。示例表位于这个URL：上。我想在9:30开始，然后通过向前跳1分钟与桌子互动。我想将所有数据导出到DataFrame。我尝试过使用pandas.read_html()，也尝试过使用BeautifulSoup。这两种方法都不适合我，尽管我对BeautifulSoup缺乏经验。我的要求是可能的，还是网站保护这些信息免受网络抓取？任何帮助都将不胜感激！

浏览 5提问于2017-01-11得票数 0

回答已采纳

2回答

Python从多个页面请求.get()？

python、web-scraping、beautifulsoup、python-requests

我正在学习如何使用python进行网络抓取，我想知道是否可以使用requests.get()抓取两个页面，这样我就不必进行两个单独的调用和变量。例如： r1 = requests.get("page1") r2 = requests.get("page2") pg1 = BeautifulSoup(r1.content, "html.parser") pg2 = BeautifulSoup(r2.content, "html.parser") 如你所见，这里有重复的代码。有什么办法可以解决这个问题吗？谢谢!

浏览 0提问于2017-06-03得票数 2

2回答

如何在DirectShow示例抓取器和FillBuffer REFERENCE_TIME的“双”时间戳之间进行转换？

delphi、filter、directshow

IMediaSample SetTime()函数需要两个IMediaSample参数。在Delphi6中，REFERENCE_TIME被定义为"LongLong“类型，这是我在DirectShow应用程序中使用的编程语言。但是，DirectShow样本抓取器过滤器用于传递新媒体示例的采样时间的回调方法的第一个参数是double。如何在这两个值之间进行转换，以便比较从示例抓取筛选器接收到的媒体示例的采样时间与在推送源筛选器的REFERENCE_TIME ()方法中生成的FillBuffer值之间的采样时间？另外，示例Grabber过滤器在回调方法中提供的样本时间是媒体示例的开始时间，还

浏览 1提问于2011-12-01得票数 2

回答已采纳

2回答

请求代码以抓取分页的网站

python、web-scraping、python-requests

我正在尝试从Wikipedia中抓取几个编号的页面(以年份为单位)： for year in range(1991, 2000, 1): url = "https://en.wikipedia.org/wiki/" + str(year) source = requests.get(url) x = BeautifulSoup(source.text, "html.parser") x 但是，当检查'x‘时，我看到我只下载了1999年的页面。从1991年到2000年，我怎么才能抓取我需要的所有页面呢？并将它们放在字典中，其中包含每年

浏览 1提问于2015-09-19得票数 0

1回答

循环页面并对Python中的内容进行爬网

python-3.x、web-scraping、beautifulsoup、python-requests、web-crawler

我想从抓取内容我怎么能循环所有的页面并抓取红色圆圈中的所有元素呢？谢谢。代码： from bs4 import BeautifulSoup import requests import os from urllib.parse import urlparse url = 'http://www.eoechina.com.cn/cn2019/gonggaoxinxi.html?classID=1' r = requests.get(url) soup = BeautifulSoup(r.content, "html.parser") pr

浏览 9提问于2021-03-11得票数 0

回答已采纳

1回答

如何比较来自firebase的时间戳数组？

java、android、firebase、android-studio、timestamp

我正在尝试比较当多个设备按下一个按钮时，填充了时间戳的数组。然后从主要的主机应用程序，我想获取所有的时间戳，并将它们存储在上面提到的数组中，并告诉谁是第一个按下按钮的人。

浏览 0提问于2020-03-03得票数 0

1回答

如何在python中运行cutom for循环

python-3.x、for-loop、web-scraping、beautifulsoup

最近我开始尝试做一些网络抓取，我遇到了一个小问题。我试着按照定制的顺序刮页，但我似乎不能让它工作。这是密码。 import requests from bs4 import BeautifulSoup import csv from datetime import datetime results = [] for x in (3, 1, 6, 7, 5, 4, 8, 2, 9, 10, 11, 12): response = requests.get(f"https://www.example.com/index.aspx?sign={x}") soup =

浏览 1提问于2020-08-09得票数 0

回答已采纳

2回答

BeautifulSoup不抓取动态内容

python、html、dynamic、beautifulsoup

我的问题是，我想从这个页面获取相关链接：如果我检查Chrome或Safari中的元素，我可以看到<div id="outer_related_articles">和列出的所有文章。如果我试图用BeautifulSoup抓取它，它将抓取页面和除相关文章以外的所有内容。到目前为止，我的情况如下： import urllib2 from bs4 import BeautifulSoup url = "http://support.apple.com/kb/TS1538" response = urllib2.urlopen(url) soup = Be

浏览 2提问于2013-04-07得票数 1

1回答

如何使用BeautifulSoup检测页面底部并进入下一页？

python、beautifulsoup、web-crawler

我正在尝试抓取一个网页，并得到每一篇文章的网址。代码如下 import requests from bs4 import BeautifulSoup main_url = "https://www.rfa.org/vietnamese/news/programs/story_archive?year=2006&month=1" re = requests.get(main_url) soup = BeautifulSoup(re.text, "html.parser") article_links = soup.find_all("div&#

浏览 2提问于2022-01-13得票数 0

回答已采纳

2回答

同步Javascript计时器

javascript、timer、multiple-browsers

我正在开发一个有javascript时间间隔计时器的应用程序。我希望计时器在服务器上运行，然后我想在点击多个设备上抓取时间。例如:要在健身房的大屏幕上显示的倒计时计时器(这来自服务器)。我希望移动设备上的用户能够捕获时间并实时记录下来。如果大屏幕上的计时器显示为10:35，当我按下移动设备上的按钮时，我希望它抓取10:35并将其输入到输入栏中。我已经弄清楚计时器代码了。我只是不知道如何将服务器上显示的时间传递给其他设备。我知道这是一个非常普遍的问题。我只是想知道这是否可能，是否有人能给我指个正确的方向。谢谢！

浏览 6提问于2013-10-23得票数 0

1回答

Python代码监控和检测当前/实时网站抓取内容/HTML代码的变化

python、html、web-scraping、beautifulsoup

我开始使用抓取网站内容和HTML代码。我想要一个Python代码，可以存储抓取的内容或HTML代码在当前/实时。然后，在特定的手动分配的时间间隔之后，代码应该再次执行，并抓取相同网站或网页的内容或HTML代码。然后，它应该比较两个抓取的数据，并显示发生的任何更改。我想要这个代码来监控网站上发生的变化，并报告它们。到目前为止，我所做的是： import requests from bs4 import BeautifulSoup url ="https://www.uetmardan.edu.pk/uetm/" # Step1: Get the HTML content

浏览 0提问于2021-11-22得票数 0

3回答

如何在python中抓取完整的instagram页面？

python、python-3.x、python-requests、instagram

长话短说，我正在尝试创建一个Instagram python抓取器，它加载整个页面并抓取所有指向图像的链接。我让它正常工作，唯一的问题是，它只加载了Instagram显示的原始12张照片。有没有什么方法可以告诉我加载整个页面的请求？工作代码； import json import requests from bs4 import BeautifulSoup import sys r = requests.get('https://www.instagram.com/accountName/') soup = BeautifulSoup(r.text, 'lxml&#

浏览 5提问于2018-04-27得票数 0

回答已采纳

1回答

如何使用BeautifulSoup抓取网站中的每个页面

python、python-3.x、beautifulsoup

有没有办法抓取URL中的每一个页面？比如在https://gogo.mn/中找到每一篇文章的页面？以下是我到目前为止所掌握的 import urllib import urlparse import re from bs4 import BeautifulSoup url = "https://gogo.mn/" urls = [] soup = BeautifulSoup(urllib.urlopen(url).read()) for tag in soup.findAll('a',href=True): tag['href&

浏览 57提问于2020-08-14得票数 0

1回答

在scraperwiki上保存和恢复CPU时间

python、save、screen-scraping、scraperwiki

这是我第一次这样做，所以我最好提前为我的新秀错误道歉。我试图从搜索州内名字和姓氏的第一页结果中抓取legacy.com。我是编程新手，并且使用scraperwiki来编写代码。它起作用了，但是我在10,000个ish查询有时间处理之前很久就用完了cpu时间。现在，我正在尝试保存进度，在时间不多时捕获，然后从中断的地方恢复。我不能让保存起作用，对其他部分的任何帮助也将不胜感激。到目前为止，我只是抓取链接，但如果有一种方法可以保存链接页面的主要内容，这也是非常有帮助的。下面是我的代码： import scraperwiki from urllib import urlopen from Be

浏览 4提问于2012-06-19得票数 0

2回答

如何在Python BeautifulSoup中抓取网站中的每个页面

python、python-3.x、beautifulsoup

有没有办法抓取URL中的每一个页面？比如在中找到每一篇文章的页面？以下是我到目前为止所掌握的。问题是新闻文章模式很奇怪，例如https://gogo.mn/r/qqm4m 所以像下面这样的代码永远找不到文章。 base_url = 'https://gogo.mn/' for i in range(number_pages): url = base_url+str(i) req = requests.get(url) soup = BeautifulSoup(req.content) 我如何抓取这样的网站？

浏览 0提问于2020-08-16得票数 0

1回答

Python/BeautifulSoup抓取中的多线程根本不会加速

multithreading、python-2.7、parallel-processing、web-scraping、beautifulsoup

我有一个csv文件("SomeSiteValidURLs.csv")，其中列出了我需要抓取的所有链接。代码工作正常，将遍历csv中的urls，抓取信息并记录/保存在另一个csv文件("Output.csv")中。然而，由于我计划在网站的很大一部分(对于>10,000,000个页面)这样做，速度是重要的。对于每个链接，抓取并将信息保存到csv大约需要1秒，对于项目的规模来说，这太慢了。所以我加入了多线程模块，令我惊讶的是它根本没有加速，它仍然需要1个人的链接。我做错什么了吗？有没有其他方法可以加快处理速度？如果不使用多线程： import urllib2

浏览 8提问于2014-08-19得票数 10

回答已采纳

2回答

用BeautifulSoup抓取，但首先要输入值吗？

python、web-scraping、beautifulsoup、python-requests

我是网络抓取的新手，对requests和BeautifulSoup也不是很熟悉。我正在尝试用BeautifulSoup抓取aspx网站。但是要获得我想要抓取的值，我首先需要选择一个下拉值，输入一个ID，然后按submit。这有可能吗？任何帮助都将不胜感激！

浏览 4提问于2020-09-08得票数 0

1回答

刮下一页内容美汤

python、web-scraping、beautifulsoup

所以我试着抓取this新闻网站。我可以在那里从每个主题中抓取新闻文章。但有时文章页面会包含多个页面，比如this。下一页具有与第一页相同的HTML结构。如果下一页中有多个页面，有没有办法自动抓取下一页的其余文章？这是我的代码： import requests from bs4 import BeautifulSoup import pandas as pd import csv detik = requests.get('https://www.detik.com/terpopuler') beautify = BeautifulSoup(detik.content, &

浏览 57提问于2020-11-10得票数 0

3回答

为什么下面的内容只抓取了一页？我怎样才能把其他的页面也刮掉呢？

python、web-scraping、beautifulsoup

我正在尝试抓取多个页面，但是下面的代码只抓取了一个页面。我怎样才能刮掉其他的页面呢？ import requests from bs4 import BeautifulSoup headers ={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36' } for page in range(0, 10): r =requests.get

浏览 50提问于2021-08-16得票数 0

回答已采纳

1回答

使用静态url抓取多个页面

python、selenium、web-scraping

我问过一个类似的问题，关于用的静态url导航多个页面，谢谢你的帮助！但现在我想通过点击每个名字来抓取列出的每个字符的所有种族信息。我现在可以浏览所有页面，但我的代码总是从第一个页面抓取信息。我尝试过以下几种方法： url = 'https://ethnicelebs.com/all-celeb' driver = webdriver.Chrome() driver.get(url) while True: page = requests.post('https://ethnicelebs.com/all-celebs') soup = Bea

浏览 1提问于2019-07-26得票数 0

5回答

聚合SQL请求的Order子句

sql、sql-server

假设我的表模式类似于下面(它只是一个简化的示例)： MyTable (table name) ID - int (unique, auto increment) Message - string Timestamp - Datetime --我想选择ID的数量，按消息分组，然后按时间戳对它们进行排序，所以我将这样做： SELECT count (ID), Message FROM MyTable GROUP BY (Message) ORDER BY Timestamp desc 但是，Server管理演播室会抛出此错误： Column 'Timestamp ' is inva

浏览 5提问于2011-07-13得票数 0

回答已采纳

1回答

利用硒和美汤实现Python抓取JavaScript

python、selenium、screen-scraping、beautifulsoup

我正在尝试使用BS和Selenium抓取JavaScript enables页面。到目前为止，我有以下代码。它仍然不能以某种方式检测到JavaScript (并返回一个空值)。在这种情况下，我试图抓取底部的Facebook评论。(Inspect元素将类显示为postText) 谢谢你的帮助！ from selenium import webdriver from selenium.common.exceptions import NoSuchElementException from selenium.webdriver.common.keys import Keys import

浏览 2提问于2013-01-26得票数 11

1回答

用Python Selenium抓取动态网站

python、selenium、web-scraping、beautifulsoup

我试图通过BS4 python来抓取动态网站：我试过： from urllib.request import urlopen from bs4 import BeautifulSoup page = urlopen(wiki) soup = BeautifulSoup("https://www.nadlan.gov.il/?search=תל אביב יפו") 我有两个问题：网站是动态的，当我查看页面源时，我没有看到只有JavaScript脚本：的页面内容当我打开站点时，加载数据需要几秒钟时间：：如何用硒来解决这些问题呢？

浏览 1提问于2020-09-22得票数 0

回答已采纳

2回答

到csv的HTML解析器，输出文件夹中无结果

html、csv、parsing、beautifulsoup

我使用BeautifulSoup抓取了一个网站以保存为csv。当我打开csv时，只有标题和标题，没有数据(我抓取的链接)。我已经尝试过"lxml“，所以我切换到了html.parser。 from bs4 import BeautifulSoup import requests import csv page = requests.get('https://www.census.gov/programs-surveys/popest.html') raw_html = page.text # declare the raw_html var soup

浏览 40提问于2019-09-24得票数 0

回答已采纳

1回答

用BeautifulSoup抓取特定国家的产品页面

python、web-scraping、beautifulsoup

我正在使用BeautifulSoup成功地抓取下面的网站，但是页面上的产品列表会根据用户的位置而改变。我如何才能包括一个地点标签/曲奇，以便只刮与我国有关的产品？

浏览 1提问于2021-04-16得票数 1

回答已采纳

2回答

在Python中使用.write()只写一行

python、web-crawler、file-writing

因此，作为来自Thenewboston的一项任务，我试图从他的站点抓取一段代码并将其写入文件中。代码抓取部分工作正常，但编写部分不起作用： import requests from bs4 import BeautifulSoup def crawler(url): source = requests.get(url) source_text = source.text soup_obj = BeautifulSoup(source_text, "html.parser") for code in soup_obj.find('cod

浏览 7提问于2017-12-04得票数 2

回答已采纳

1回答

使用BeautifulSoup分步对表格进行抓取和分页

python、python-3.x、beautifulsoup

我正在尝试使用BeautifulSoup包来抓取这个网站。我已经使用中的指针成功地抓取了页面，但正在尝试实现分页。 import pandas as pd import requests from bs4 import BeautifulSoup for num in range(0, 800,80): url = 'https://www.sec.gov/cgi-bin/own-disp?action=getissuer&CIK=0000018349&type=&dateb=&owner=include&start='

浏览 0提问于2020-12-16得票数 0

1回答

如何使用python抓取javascript表

javascript、python、html、datatable

我正在试着从这个页面抓取表格：有18个单独的页面，url不会为每个页面改变。我该如何抓取这些数据呢？我通常使用BeautifulSoup来抓取HTML页面，但在这种情况下，数据不会出现在HTML代码中，所以我不能在url上使用BeautifulSoup来获取所需的数据。任何建议都将不胜感激。

浏览 2提问于2015-07-08得票数 0

1回答

无法使用bs4、python、selenium抓取详细信息

python、selenium、web-scraping、beautifulsoup、python-requests

我正在使用下面的代码打印soup变量，它只不过是页面的源代码。码 from urllib.request import urlopen from bs4 import BeautifulSoup import json, requests, re, sys from selenium import webdriver import re, time yes_url = "https://www.yesbank.in/personal-banking/yes-first/cards/credit-card/yes-first-exclusive-credit-card"

浏览 2提问于2021-03-08得票数 0

回答已采纳

1回答

BeautifulSoup未获取web数据

python、html、web-scraping、beautifulsoup

我正在创建一个网络抓取器，以便从商会网站目录中提取一家公司的名称。我正在使用BeautifulSoup。页面和soup对象看起来正常工作，但是当我抓取HTML内容时，返回一个空列表，而它应该用页面上的目录名填充。尝试抓取的网页：https://www.austinchamber.com/directory 下面是HTML： <div> <ul> class="item-list item-list--small"> == $0 <li> <div class='item-content'

浏览 21提问于2020-07-28得票数 1

回答已采纳

1回答

从在线词典中抓取单词:时间/循环问题

python、loops、web-scraping、beautifulsoup、while-loop

我正面临一个问题，因为我试图从在线词典中抓取所有单词，以便以后得到它们的定义。我正在使用BeautifulSoup，我认为在我的时间和循环中有一个问题。正如您在下面的代码中所看到的，我的url中有两个变量要刮，一个用于字母表中的字母，另一个用于页数，以便从一个字母中获取所有单词。 def get_data(): page = 1 letters = ['A', 'B', 'C'] all_words = [] for letter in letters: while page != 100:

浏览 3提问于2021-11-17得票数 0

回答已采纳

2回答

运行Python脚本，直到其与所需结果匹配

python、jquery、web-scraping、beautifulsoup、automation

我正在尝试从一个网站上抓取一些数据，这些数据会在一段时间后动态更新。这意味着我每次都要抓取一些不存在于页面中的HTML div。我想从中得到一个数字，当我想要的时候复制并粘贴它。到目前为止，我已经尝试这样做了，这是我在本地得到的结果。但是当我在网上从网站上抓取时，它会给我一个错误，因为那个HTML元素并不存在。我希望脚本即使在错误发生后也能运行，因为我确信如果它与元素匹配，它就会正常工作。我的代码： from urllib.request import urlopen from bs4 import BeautifulSoup from bs4 import BeautifulSoup

浏览 7提问于2020-03-07得票数 0

回答已采纳

1回答

从奇怪的仪表板格式中抓取数据

python、web-scraping、beautifulsoup、lxml

我正在收集COVID疫苗接种数据，并尝试使用Python从这个站点(第一个站点--“接受1剂疫苗的人”)中获取疫苗编号。我尝试使用BeautifulSoup来提取超文本标记语言，然后按XPath或属性进行搜索。当然，首先，我使用BeautifulSoup解析页面： rhode_island = BeautifulSoup(requests.get('https://ri-department-of-health-covid-19-data-rihealth.hub.arcgis.com').content, 'html.parser') 但是这个HTML输出看

浏览 12提问于2020-12-19得票数 1

回答已采纳

3回答

如何从一个网站抓取多个页面

python、scrape

我想从一个site.the模式中删除多个页面，如下所示：。我尝试了三种方法来抓取所有这些页面，但每种方法都只抓取了第一页。我展示了下面的代码，任何人都可以检查，并告诉我是什么问题，将非常感谢。 ===============method 1==================== import requests for i in range(5): # Number of pages plus one url = "https://www.example.com/S1-3-{}.html".format(i)

浏览 2提问于2018-03-05得票数 0

2回答

SSRS订阅文件名w/日期

sql-server-2008、reporting-services、ssrs-2008

我有一系列按不同时间表运行的报告(小时、日、周等)，报告保存到共享\unc\ reports \department\ 报告 report_1 report_2 report_3 因为这是创建新版本的唯一方法。我的问题是，是否有一种方法可以追加执行时间，甚至只是日期，以便最终用户能够看到生成报告的时间。目前，它是通过查看日期修改的属性来完成的，这是可以的，但并不理想。

浏览 4提问于2016-09-08得票数 0

回答已采纳

2回答

如何抓取没有页数的url

python、web-scraping、beautifulsoup

我正在抓取一个网页，其中有一个没有页面，我如何才能抓取这些页面，以获得我想要的信息。假设我正在抓取一个URL ，这个页面有两个页面，我如何抓取这些总页面并得到总的产品列表。到目前为止我所做的是:我从他们那里抓取一个url，我通过正则表达式抓取一个特定的url，并试图从那个url中找到他们的链接，其他页面中没有包含链接产品名称的信息。我想要从所有页面中获取产品名称。我的代码： from bs4 import BeautifulSoup import urllib.request import re import json response = urllib.request.urlopen(&

浏览 1提问于2016-02-28得票数 0