无法用未更改的url - python抓取网站页面

回答：无法用未更改的url是指在进行网站页面抓取时，如果url没有进行修改，可能会导致无法获取到最新的网页内容。Python是一种强大的编程语言，可以用于网页抓取。下面是一些常用的Python库和方法来进行网页抓取，以获取最新的网页内容：

使用requests库进行网页抓取：
- 概念：requests是一个简洁而优雅的HTTP库，可以方便地发送HTTP请求，并获取网页的响应内容。
- 分类：Python第三方库。
- 优势：简单易用，具有丰富的功能和灵活的API。
- 应用场景：适用于爬取静态网页内容。
- 推荐的腾讯云产品：无
- 示例代码：
- 示例代码：

使用Selenium库进行网页抓取：
- 概念：Selenium是一个自动化测试工具，也可以用于模拟浏览器行为，实现网页的动态抓取。
- 分类：Python第三方库。
- 优势：可以模拟用户交互操作，适用于抓取动态网页内容。
- 应用场景：适用于需要执行JavaScript代码或模拟登录等操作的网页抓取。
- 推荐的腾讯云产品：无
- 示例代码：
- 示例代码：
使用BeautifulSoup库进行网页解析：
- 概念：BeautifulSoup是一个HTML/XML的解析库，可以从网页中提取所需的数据。
- 分类：Python第三方库。
- 优势：可以通过标签选择器、CSS选择器等方法方便地提取网页中的信息。
- 应用场景：适用于从网页中抽取特定数据或结构化信息。
- 推荐的腾讯云产品：无
- 示例代码：
- 示例代码：

需要注意的是，无论使用哪种方法进行网页抓取，都需要遵守网站的相关规定和法律法规，避免对网站造成过大的负载压力或侵犯他人的合法权益。另外，合理设置抓取的频率，并注意网站的robots.txt文件中的限制。

无法在英文中抓取数据，请帮助！

、

我有一个网站，我正在尝试使用Python和BeautifulSoup抓取。网站本身可以用两种语言(泰语或英语)查看；您所要做的就是点击屏幕右上角的泰语或英国国旗，数据就会以所选语言显示。然而，在脚本中，我只能抓取泰语(默认语言)的数据，我不知道如何获得英语的数据，因为当你点击泰语或英国国旗时，URL不会改变。查看页面的源代码，发现没有与这两个标志相关联的href。我打开了Firebug跟踪，并试图搜索一些东西来给我提供线索，但没有找到任何东西(然后你必须确切地知道要寻找什么，才能知道发生了什么，这就是我的问题)。谢谢，格伦

浏览 2提问于2011-06-08得票数 0

1回答

如何在python语言中使用selenium和chromedriver抓取此页面？

我正在尝试使用selenium和chromedriver从网站“”中抓取数据。当我运行代码时，chromedriver成功地输入了url，但无法加载页面，显示了一个空白页面。我尝试将目标网站切换到google.com，但抓取成功。我的结论是目标网站服务器检测到selenium并拒绝发送回数据。那么如何在Python语言中使用selenium和chromedriver从网站抓取数据呢？我是一个Python初学者，感谢您的帮助。下面是我的简单代码： from selenium import webdriver my_driver_path = r"C:\python chrome driv

浏览 0提问于2020-05-29得票数 0

1回答

使用Selenium和Scrapy通过onclick抓取显示的数据

、、

我使用Scrapy用python编写了一个脚本，以便使用身份验证从网站上抓取数据。我正在抓取的页面真的很痛苦，因为主要是由javascript和AJAX请求组成的。页面的所有主体都放在允许使用submit按钮更改页面的<form>中。URL不会改变(而且是一个.aspx)。我已经成功地从第一页抓取了所需的所有数据，然后使用以下代码更改了单击此输入按钮的页面： yield FormRequest.from_response(response, formname="Form", clickdat

浏览 38提问于2019-02-21得票数 0

1回答

从使用Ajax请求的网站抓取数据

、、、、

到目前为止，我已经做了一个从网站上抓取数据的程序，我用python、selenium和美丽汤制作了一个程序，当它想从像这样的网站的页面中刮取数据时，我必须点击一个名为"سابقه“的选项卡(顶部是سابقه)，然后网站使用Ajax请求获取数据，然后我循环遍历表，表有多个页面，所以我必须点击表下面的数字，然后再收集新的数据。我的问题是这个方法非常慢，因为我还必须从500页中收集数据，每页包含35个表。还有其他更快的方法吗?或者，如果解决方案在python中，那么在我的程序中激发Ajax请求并获得response.It的方法会更好。

浏览 3提问于2017-12-15得票数 0

回答已采纳

1回答

python抓取、提交数据和获取输出

、

我有一个搜索数据网站()，这是起始页面上的图像。示例输入- 这里的第一个输入框(House # Range)= 3419 second one是(空的) 第三(Street Name)= Wabash 当我们提交这些数据并且我们有这个链接时，由于这个链接包ID(0570005018800)中的更改，我们无法创建用于搜索数据的URL。实际上，我对python抓取还很陌生，但我对urllib、漂亮汤和请求模块有很好的了解。我需要知道，我们可以用python来完成这个任务吗?如果是这样的话，那么使用哪个模块呢？我正在使用python 3.6

浏览 0提问于2018-03-21得票数 1

回答已采纳

1回答

如何使用Python抓取特定的ASP.NET页面？

、、

我想抓取一个ASP.NET网站，但是urls都是一样的，我如何使用python来抓取特定的页面呢？这里是我想爬的网站： (我用的是美丽的汤，urllib和python 3) 我应该得到哪些信息来区分一个页面和另一个页面？

浏览 4提问于2015-08-16得票数 0

回答已采纳

2回答

如何使用Python在需要Google帐户登录的网站上进行web爬行？

、

我是Python的新手，我想使用Python来抓取几个需要Google帐号登录的网站。例如，我想爬一个网站xxx.appspot.com，我需要登录我的谷歌帐户访问它，因为这个数据库需要验证，我是授权人员。当我做这样的事情： content=urllib.urlopen(target_url).read() 当然，我得到的“内容”只是一个登录页面。如何实现代码，以便爬虫在实际爬行之前可以在Google帐户中签名。

浏览 1提问于2013-12-18得票数 2

回答已采纳

1回答

webcrawling-有哪些可能的方法来检测使用javascript加载的页面？

我想抓取一些网站。我正在使用selenium/PhantomJS抓取JS(react、angular、jquery等)。和python爬行其他所有的东西。我的主要问题是，我无法区分页面是否使用JS加载。任何想法都将受到欢迎！

浏览 2提问于2018-03-16得票数 0

1回答

当url不变时，Python web抓取

、、、

我正在做一个使用python的web抓取项目。我应该抓取这个网站(https://www.fec.gov/data/receipts/?committee_id=C00703975&two_year_transaction_period=2020&data_type=processed)。我遇到的问题是，当你浏览数据时，url永远不会改变。我不确定如何继续。根据我的经验，当抓取一个网站时，当切换页面时，url会发生变化，但这个不会改变页面，它只是浏览同一页面上的数据。谢谢！

浏览 28提问于2020-11-10得票数 2

1回答

从多个页面中抓取表格

、

我想从网站上抓取数据。这个表扩展到多个页面上，但是url没有像page=3这样的东西，所以我不能遍历各个页面来获取数据。有没有其他方法可以像这样抓取数据，而不会在不同的页面上循环？如何从python访问不同的页面来抓取数据？

浏览 19提问于2018-03-04得票数 0

2回答

使用python抓取动态javascript内容网页

、、、、

我正在尝试使用Python抓取这个网站：'‘。首先，我注意到我感兴趣的表实际上位于这个url：但是，requests + BS4只给了我HTML格式的页面源代码。我假设这是因为内容是动态的。因此，我尝试了Selenium + BS4来抓取网站，但我仍然只能抓取页面源代码。 from selenium.webdriver import Firefox from bs4 import BeautifulSoup import lxml driver = Firefox() url = 'https://ec.europa.eu/assets/eac/msca/jobs/im

浏览 4提问于2020-02-02得票数 0

2回答

BeautifulSoup不会从网页中提取所有表单

、、、、

我希望从一个给定的网站使用Python3和BeautifulSoup提取所有表单。下面是一个执行此操作的示例，但无法提取所有表单： from urllib.request import urlopen from bs4 import BeautifulSoup url = 'https://www.qantas.com/au/en.html' data = urlopen(url) parser = BeautifulSoup(data, 'html.parser') forms = parser.find_all('form') for f

浏览 0提问于2017-03-27得票数 2

1回答

我试着用美人汤抓取多个页面，但代码总是为每个页面返回相同的数据。

、、、

我正试着用Python和美汤在steam网站上抓取特价商品。我正在尝试使用for循环从多个页面中抓取数据。我已经附加了下面的Python代码。任何帮助都是非常感谢的。提前谢谢。 game_lis = set([]) for page in range(0,4): page_url = "https://store.steampowered.com/specials#p=" +str(page)+"&tab=TopSellers" #print(page_url) steam_games = r

浏览 24提问于2021-10-03得票数 2

回答已采纳

1回答

Python Web抓取:通过加载页面抓取页面

、、

我正在建立一个网络抓取项目使用python与美丽的汤和请求模块，问题是我想要抓取的网站有一个加载页面(完全不同于主页)，然后它将我重定向到主页。我怎么能等到页面加载完成，然后从主页上抓取数据呢？我知道Selenium可以处理这些类型的网站，但网站必须使用web驱动程序启动，这是我不希望在我的项目中使用的原因，这就是为什么我使用Beautiful Soup和requests模块。到目前为止，我的代码如下。 from bs4 import BeautifulSoup import requests import time source = requests.get(url).text prin

浏览 15提问于2020-10-25得票数 0

1回答

如何使用python抓取多页网站并将数据导出到.csv文件中？

、、

我想使用python抓取以下网站，并需要将已抓取的数据导出到CSV文件中：该网站包括154页的相关搜索。我需要调用每个页面，并希望刮取数据，但我的脚本无法连续调用下一个页面。它只刮一页数据。在这里，我给值i<153，因此，这个脚本只运行154页，并给了我10个数据。我需要从第一页到第154页的数据如何在运行脚本后从所有页面抓取全部数据，以及如何将数据导出为CSV文件？？我的脚本如下 import csv import requests from bs4 import BeautifulSoup i = 0 while i < 153: url =

浏览 2提问于2016-07-24得票数 0

1回答

使用BeautifulSoup查找“团队”页面

、、

为了实践，我一直在学习Python和BeautifulSoup的web抓取。我要做一个程序，可以找到一个网站上的团队页面，并抓取团队成员的名字。下面是一个“团队”页面的示例：我已经认识到，所有的团队页面都有明显更大的“团队”，但并不是所有的网站都使用头部，所以很难解析它们。我已经用urllib2加载了一个URL。我如何浏览一个网站的主页，找到一个“团队”，或者任何有特定主题的页面呢？这和查找联系人页面的问题是一样的，你如何让抓取器找到它呢？这是我的代码的完整部分：(这只是加载站点) #Pre: url is a string containing the address of a

浏览 1提问于2017-04-09得票数 0

1回答

使用Scrapy抓取ajax页面

、、

我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站)，基于pipelines.Now给出的关键字，问题是当我们遇到javapages (ajax)时，抓取不能抓取。我正在尝试使用以下代码，并对抓取ajax页面进行适当的更改你们有没有用scrapy抓取javapages的好主意？第二个问题是，我面临的问题是scrapy无法抓取登录页面

浏览 2提问于2013-06-19得票数 0

回答已采纳

1回答

仅抓取加载的部分-不滚动

、、

我已经用Selenium写了一个简单的web抓取代码，但是我只想抓取“滚动前”存在的部分。比方说，如果是这个页面，我想要抓取- https://en.wikipedia.org/wiki/Pandas_(software) - Selenium读取信息，直到绝对的最后一个元素/文本，对我来说是页面右下角的'Powered by Media Wiki‘按钮。 ? 我希望Selenium在DataFrames之后停止(见截图)，而不是向下滚动到底部。 ? 我也想知道它在页面的什么地方结束了。我已经检查了多个来源，他们中的大多数都要求无限滚动网站。没有人要求页面只有“可见

浏览 12提问于2021-09-16得票数 0

1回答

如何让scrapy使用url遍历归档文件？

、、

我正在尝试让一个抓取蜘蛛抓取归档中的几个页面，目的是打开每个单独的链接并抓取链接页面的内容。我遇到了一些随机的HTTP500错误，我试图通过简单的尝试跳过这些错误-除了跳过那些返回500个错误的页面。解析函数的第一部分使用parse_art函数遍历归档页面中的href，以获取要抓取的页面。第二部分是在归档中查找下一页，并一直跟踪到该页以继续爬行。我试图将程序更改为遍历初始URL，但似乎无法正确执行。任何帮助都将不胜感激。在Python 3.7上运行scrapy。 import scrapy url_number = 1 class SpiderOne(scrapy.Spider):

浏览 18提问于2019-07-08得票数 1

回答已采纳

1回答

使用selenium获取当前页面url

、、、、

我用selenium打开页面。我试图得到当前打开的页面url，但我似乎无法理解它。 from selenium import webdriver from selenium.webdriver.chrome.options import Options import getpass vid = 'https://openload.co/f/KgNvMOs9fws/C__Program_Files_Python36_placeholder.mp4' chrome_options = webdriver.ChromeOptions() chrome_options.add_arg

浏览 0提问于2018-03-21得票数 1

回答已采纳

2回答

jQuery如何替换源url

、、、、

我有一个屏幕抓取的页面，抓取的页面使用了它们的图像的相对路径，当我加载我的页面时，我的网站的url被插入到src attr上。我需要找到一些方法来替换我的网址与远程网站的网址，以便图像和其他项目，引用它来正确地显示在我的页面上。我用来抓取的脚本是： <script src="path_to_jquery.js"></script> <script> $document.ready(function() { $("#weather").load("http://weather.com" table:nth-c

浏览 4提问于2010-01-24得票数 0

回答已采纳

1回答

网络抓取链接与手动浏览不同

、

我在一个网站上抓取了840个网址...当我重新构建urls以获取更多信息时，我的python抓取器无法提供与手动单击链接相同的数据。例如，当我访问这个网站时，如果我点击列表中的第一个“详细信息”，它会转到一个包含更多信息的页面。给出的信息是一个显示'/Sales/SaleDetails?PropertyId=254119896‘的相对链接。我已经抓取了“详细信息”的相对链接，然后重新构建了链接以匹配绝对地址。这个地址变成了然而，当我这样做并尝试抓取时，我得到了一组完全不同的数据，它将我带到一个通用的登录页面。一开始，我想我需要使用无头浏览器来解决这个问题，但现在我不确定

浏览 8提问于2017-07-25得票数 2

1回答

在python递归中使用selenium抓取整个网站

、、、

我是python的新手，我试着用selenium递归抓取整个网站。我想用selenium来做这件事，因为我想得到网站使用的所有cookie。我知道其他工具可以更容易、更快地抓取网站，但其他工具不能给我所有的cookie(第一方和第三方)。下面是我的代码： from selenium import webdriver import os, shutil url = "http://example.com/" links = set() def crawl(start_link): driver.get(start_link) elements = dri

浏览 11提问于2019-07-16得票数 0

1回答

无法从python web scraper获取数据，因为应用程序正在新窗口中打开页面

、、

我有这个网站，这是用JAVA创建的，它只允许你看到数据，一旦你登录。现在，当我登录时，它只是在新窗口中打开包含所有登录信息的页面，但是当复制链接并将其粘贴到同一窗口中时，它可以正常工作，这里有一些图像。登录页面的链接登录页面的https://agency-pia.crane.aero/图像 ? 登录后的链接登录后的https://agency-pia.crane.aero/JSF/RezvEntry.xhtml?faces-redirect=true图像 ? 现在，我愿意做的是创建一个软件来抓取这个网站或web应用程序。 ``import requests from bs4 imp

浏览 25提问于2019-06-20得票数 0

2回答

如何从Beautiful Soup获取URL？

、、、、

我是Python的新手，正在尝试编写一个爬行程序；我想使用Beautiful Soup从BBC新闻中抓取一些数据。但是当我用Firebug检查元素时，我发现这个页面中的HTML没有URL链接。 <li class=""> <a class="navigation-wide-list__link navigation-arrow--open" data-panel-id="js-navigation-panel-World" href="/news/world"> <span>World

浏览 2提问于2016-05-03得票数 3

2回答

延迟重定向后获取HTML源

、、、

我正试图用Python获取网站的HTML源代码。但是，当您访问站点上的任何页面时，都会出现延迟重定向，几乎就像加载屏幕一样。每当我做requests.get(url)时，我都会抓取加载屏幕，而不是它后面的内容。我正在使用请求库。有没有办法让请求等到重定向之后？重定向大约是3秒。下面是我使用的代码： import Requests page = requests.get(url) print(page.text)

浏览 1提问于2016-05-26得票数 1

回答已采纳

1回答

如何使用Python抓取受限制的网页

、

我想知道是否有任何方法可以用Python从受限制的网页中抓取html。我已经能够在一个网页上执行登录，但我想在登录后抓取另一个页面，但网址显示该页面的模式为：main_url/Restricted/Index.aspx 除了不受限制的部分之外，我无法获得整个页面的HTML。如何获取受限制网页的完整HTML？到目前为止，我的代码如下： from lxml import html from bs4 import BeautifulSoup as bs from urllib.request import urlopen from requests import Session payload

浏览 0提问于2019-10-02得票数 1

1回答

Facebook对象调试器:无法从URL检索数据。(200)

、、、

当我使用对象调试器时，抓取器无法在我的页面上看到我的OG内容。调试器显示“无法下载:无法从URL检索数据。”，即使它是200OK，并显示正确的获取和规范的URL。我有一个子域上它，它的工作fine.So不确定我的主域发生了什么。当单击抓取的URL时，我们的抓取器会准确地看到您的URL，它只显示空白页面。

浏览 0提问于2012-05-28得票数 5

回答已采纳

1回答

如何在运行刮取脚本时跳过启动页

、、、

我现在正在用Python3.5构建网页抓取脚本。我在这里遇到的问题是这个网站。当单击任何项目链接时，Forbes.com都会强制用户查看启动页面。这是splash页面URL。前缀URL是自动嵌入的，所以我不能删除它。另外，我想访问.forbes.com/./print/以便我可以抓取整篇文章，但是站点重定向到没有"/print/“的页面。当我试图通过指定标记来摘录Xpath或Beautifulsoup的文章时，它将无法工作，因为脚本被卡在这个受欢迎的splash页面中。 import lxml.html from selenium import webdriver tar

浏览 1提问于2016-10-11得票数 0

回答已采纳

1回答

抓到了。尝试爬网站点时出现SSL错误"DH密钥太小“

、、、、

在尝试抓取网站时，在重试后，我收到以下错误。 [<twisted.python.failure.Failure OpenSSL.SSL.Error: [('SSL routines', 'ssl3_check_cert_and_algorithm', 'dh key too small')]>] 我尝试了Scrapy中所有可用的SSL方法，都得到了类似的结果。当我在Chrome中访问网站时，页面似乎不安全(HTTPS坏了)，但我仍然可以绕过这个错误。使用python请求的行为相同(我可以通过将verify设置为False来获取站点内容

浏览 3提问于2016-06-28得票数 1

1回答

selenium python页面关闭-未知错误: net::ERR_NAME_NOT_RESOLVED

、、、

因此，我目前正在开发一个python抓取器，用python中的selenium来收集网站信息。我遇到的问题是，如果我转到一个不活动的页面，我会得到错误：unknown error: net::ERR_NAME_NOT_RESOLVED 我已经有一段时间没有使用python了，所以我的知识不是最好的。以下是我的代码 driver = webdriver.Chrome(ChromeDriverManager().install()) try: driver.get('%s' %link) except ERR_NAME_NOT_RESOLVED: print (

浏览 746提问于2020-12-20得票数 3

回答已采纳

1回答

抓取文本呈现到svg图形(以阻止刮刀)-如何？

、、、、

因此，这一次，我在我的抓取逃避，我遇到了一个新的敌人-一个网站，通过“转换”的价格数据，每个人都想刮成SVG图像来破坏刮刀。一个简单的问题-什么是“首选”工具或方法刮这样的网站连续？我想过用Selenium下载整个页面的屏幕截图(因为该站点也有cloudflare刮伤检测)，并使用tesseract对其进行OCR‘，但仅下载一页就需要大约7秒(而且我有180个页面需要抓取)，所以虽然这并不完全不可行，但可以这么说，这是低于预期的。我的问题是，我应该考虑的一般方法、技术或工具是什么？有没有一种方法可以让SVG直接出现在网站上，而不需要下载或者制作截图呢？或者我该看什么？作为参考，我试图刮的是

浏览 3提问于2022-04-12得票数 1

1回答

使用Python从HTML5网站抓取文本

、、

我需要从一个使用python的网站上抓取文本。我已经安装了BeautifulSoup 4、HTML和NLTK，但我似乎无法找到如何抓取。我真的需要一个简单的代码片段，我可以插入任何URL并获得纯文本。我正试着从那里得到它

浏览 1提问于2014-09-17得票数 0

回答已采纳

1回答

使用Scrapy从使用java脚本生成数据的网站获取信息

、、、

我试图用Scrapy抓取一个网站，但是网站的网址没有改变，页面是用java脚本加载的。在我执行搜索之前，站点和URL是这样的：这是我执行搜索后站点和URL的外观：在这些情况下，我如何使用Scrapy从站点获取数据？

浏览 0提问于2016-07-26得票数 1

1回答

有没有一个用于网页抓取的node.js包，可以捕获页面源代码之外的内容？

、、

有些站点并不具备页面源代码中的所有内容，只有在浏览器上加载页面时才能看到新元素。我不知道为什么，我在想可能是因为一个网站需要启用javascript？在python中，我用"AsyncHTMLSession“模块和下面的代码修复了这个问题： r = await session.get(url) await r.html.arender() 它可以让我抓取新的元素并做我需要的任何事情，node.js有这样的东西吗？

浏览 1提问于2021-10-28得票数 0

1回答

如何使用requests模块登录到fidelity.com

、、、

我正在试着用python写一个网络抓取程序。然而，我想要抓取的页面是在登录的后面。我有一个帐户，并且一直在尝试关注发布在上的帮助。我想我做的每件事都是正确的，但我无法通过登录。我的代码如下： #!/usr/bin/env python import requests, sys, lxml.html #log

浏览 9提问于2017-07-13得票数 1

回答已采纳

3回答

抓取urls的抓取顺序

、

我有个关于scrapy和python的问题。我有几个链接。我使用循环在一个脚本中抓取每个脚本中的数据。但抓取数据的顺序是随机的，或者至少与链接不匹配。所以我不能将每个子页面的url与输出的数据进行匹配。喜欢:抓取的网址，data1，data2，data3。Data 1，data2，data3 =>这是可以的，因为它来自一个循环，但是我如何添加到循环的当前url，或者我可以设置链接列表的顺序？就像列表中的第一个被抓取为第一个，第二个被抓取为第二个...

浏览 0提问于2018-04-18得票数 0

1回答

Web抓取需要登录的站点

、、

首先，我不是python专家。我正在学习python，以便从这个特定的游戏网站上抓取数据。我正在尝试从一个需要登录的网站上抓取数据。你不会看到数据，除非你登录到这个网站。(我附上了一个页面截图，你将看到以上网站，一旦你登录)我试图运行以下代码： import requests from bs4 import BeautifulSoup page = requests.get('<website url>') soup = BeautifulSoup(page.content, 'html.parser') print(soup) 在这里，我

浏览 0提问于2020-05-29得票数 0

1回答

google爬虫的爬行策略

、、、、

我想知道一些大型搜索引擎的重新爬网策略是如何工作的。例如，让我们考虑一下谷歌。我们知道google正在使用动态间隔来重新抓取每个网站。假设根据google dynamic interval，每10分钟就有100k个站点需要重新抓取。因此，这100000个网站的抓取过程应该在10分钟内完成。可能有两种可能的情况： 1)谷歌机器人将获取每个这些网站的第一页，然后在此页面中生成URL列表。对于每个URL，它将检查此url是否在之前获取。如果它是新的，它将获取新的页面。此过程将一直持续到爬网或特定深度阈值结束。 2) google bot将再次获取每个页面(无论是否已更新) 假设谷歌使用第一种策略，那

浏览 1提问于2014-06-02得票数 0

1回答

使用urllib2读取时禁用JavaScript

、、

我正在尝试抓取一个包含200+ <li class="classToGet">元素的网页，这些元素是在向下滚动时用AJAX加载的。当我用urllib2.urlopen(url).read()阅读网站的源代码时，我只能得到最初的100 <li>s。当我在浏览器中关闭JavaScript并转到该页面时，将显示所有200+ <li>。如何在加载页面时禁用urllib2的JavaScript？谢谢你的帮助。

浏览 5提问于2012-06-22得票数 1

3回答

解析无效HTML的通用Lisp包？

、、

作为一个学习练习，我正在用通用Lisp编写一个网络刮刀。(粗略的)计划是：使用管理依赖项使用加载页面用解析页面我遇到了一个关键问题:我正在抓取的网站并不总是产生有效的XHTML。这意味着第3步(用xmls解析页面)不起作用。我不愿像那样使用正则表达式:-) 因此，有人能推荐一个通用的Lisp包来解析无效的XHTML吗？我在想象类似于 for .NET的东西.

浏览 4提问于2011-01-05得票数 4

回答已采纳

2回答

搜索引擎机器人是否只通过查询字符串中参数的值来爬行不同的动态URL？

、

我知道有很多类似的问题，我四处寻找，但我从来没有找到完全的答案，所以下面是我的问题：搜索引擎机器人会抓取我的动态生成的URL吗？因此，我指的是由php基于url中的GET变量生成的html页面。链接将如下所示： www.mywebsite.com/view.php?name=something www.mywebsite.com/view.php?name=somethingelse www.mywebsite.com/view.php?name=something 我试着用下面找到的测试爬虫爬行我的网站：http://robhammond.co/tools/seo-crawler，但是

浏览 0提问于2015-02-06得票数 4

回答已采纳

3回答

Python web抓取用户列表

、

我试图从一个网站上抓取用户列表，但它有多个页面，我可以抓取第一个页面，但当我抓取每个页面时就卡住了。代码- from bs4 import BeautifulSoup import requests source = requests.get('example.com/users.php?page=1').text soup = BeautifulSoup(source, 'lxml') for profile in soup.select("li h3 a"): print(profile.text) 在url中的通知 pag

浏览 5提问于2018-01-09得票数 1

回答已采纳

1回答

用精美的汤从HTML中抓取表格

、、、

我正在尝试用python3从中抓取数据。该网站包含了基于冠军的FPS多人游戏“圣骑士”的玩家数据。我想要得到一个基于冠军的球员的统计数据，如网站所示。我面临的问题是，当我用Chrome检查页面源代码时，我得到了包含"table“标签的代码，它是干净的，我可以很容易地抓取它： (我的要点链接) 但是当我创建soup对象时，我得到了一个不同的代码。当我转到页面源码时，它和汤是一样的。页面源代码中没有标记。(您可以查看页面源代码以更好地了解)。现在，我如何从网站上抓取冠军明智的数据？我正在为python3使用请求和漂亮的汤 import requests as req import bs

浏览 2提问于2018-06-26得票数 0

1回答

在满足特定条件时自动运行python脚本

我有一个网页抓取脚本，它基本上是从一个网站上抓取一个故事(标题、描述/摘要和故事文本)，通常在多个页面中，然后将其全部写到一个文本文件中。目前，我复制一个url并从PyCharm运行python脚本，它给出了我需要的结果。但是，我希望自动运行脚本部分，以便每当我复制包含特定文本(例如网站名称)的url时，它就会自动输出文本文件，而无需每次复制url时运行脚本。

浏览 7提问于2021-12-30得票数 1

2回答

Python刮刀无法刮动img src

、、、、

我无法从www.kissmanga.com网站上抓取图片。我使用的是Python3和RequestandBeautiful外地库。刮过的图像标签为空白"src“。 SRC： from bs4 import BeautifulSoup import requests scraper = cfscrape.create_scraper() url = "http://kissmanga.com/Manga/Bleach/Bleach-634--Friend-004?id=235206" response = requests.get(url) soup2 = Bea

浏览 3提问于2015-07-15得票数 1

回答已采纳

1回答

Javascript: http请求连接超时

、、

最近我一直在我的网站上用搜索控制台处理一些问题。似乎在多次抓取时，我的网站会返回一个超时，使Google无法抓取页面。我一直在尝试找出原因，但后来我想起来我在一段时间前实现了一些新的javascript，它执行http请求以评估图像src是否已死，如果是，则将其替换为新的src url。例如： $(".productimage img").each( function() { var image_url2 = $(this).attr("src"); var http = new XMLHttpRequest(); http.open

浏览 20提问于2017-12-24得票数 0

2回答

当被Facebook抓取时，网站代码是奇怪的

、

从今天下午开始，Facebook无法读取我正在处理的一个网站的og标签。Facebook调试器说我的所有属性都丢失了(og:url、og:type、og:title、og:image、og:description等)，而我可以在源代码中清楚地看到它们。当我查看此页面(或此域中的任何其他页面)的源代码时，一切看起来都很正常。然而，当我在Facebook的调试器中输入该页面并使用‘查看我们的抓取器对您的URL所看到的确切内容’时，代码变得一团糟，缺少单词和空格。实际上，包含og属性的整个部分都丢失了。发生什么事了呢？我最近没有对网站做任何更改，它以前运行得很好。最近唯一改变的是我的dns设置

浏览 2提问于2017-09-16得票数 1

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

、、

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的URL。对于单机抓取的如此多的URL来说，4小时是“正常”时间吗？或者，有没有更适合我的包，当页面被抓取时，没有“关注”链接？

浏览 0提问于2020-08-25得票数 0

2回答

使用Flask在HTML页面上运行Python代码

、、

我是新来的酒瓶。当按下HTML页面中的start按钮并在HTML页面上显示从Python代码返回的字符串时，我想运行Python项目。我用的是Python烧瓶。这是带有按钮的HTML。(json.html文件的名称是) <!DOCTYPE html> <html> <body> <h1>Smart Job Interviewer</h1> <button type="button">Start the Interview</button> </body> </html&g

浏览 5提问于2020-03-03得票数 0

回答已采纳