如何在网页抓取过程中修复python中的页面循环？_如何使用Python循环抓取不同的页面_在Python web抓取错误中循环遍历所有页面 - 腾讯云开发者社区

python、button、tornado

在自学如何使用python的tornado web框架的过程中，我正在尝试创建一个简单的web服务器和一些网页。在其中一个网页上，我有两个按钮:一个用于注销用户并将他们重定向回登录页面，另一个用于提交博客帖子。它们都是"post“请求，并且在html中将它们的name值设置为"logout”和"new_post“。我的问题是，如何判断按下了哪个按钮，以便页面RequestHandler的post()方法在每种情况下都能执行正确的操作？有没有办法抓取被按下的按钮的“名字”？

浏览 0提问于2015-12-02得票数 0

2回答

使用Python从异常页面再次爬行

python、for-loop、try-catch、except

我使用for循环来抓取网页。然而，当我抓取一些页面时，我遇到了ip请求限制错误。当我每隔20页爬行一次时，我曾尝试让python休眠几秒钟，然而，错误仍然存在。我可以在python休眠60秒后重新开始爬行。问题是，每次出现异常时，我都会丢失一页信息。看起来python使用try-except方法跳过了异常页面。我想知道最好的方法是重新启动，从遇到异常的页面再次爬行。我的问题是如何重新启动以从异常页面爬行。 pageNum = 0 for page in range(1, 200): pageNum += 1 if(pageNum % 20 ==0): # every

浏览 3提问于2012-05-20得票数 0

1回答

使用AJAX请求抓取页面

javascript、ajax、node.js、web-scraping

我正在使用带有jsDOM的Node.js来抓取网页并在其中执行JavaScript。但是，如果页面包含AJAX请求，则不会执行这些请求。是否有在抓取的页面中执行AJAX调用的选项？

浏览 1提问于2011-05-27得票数 4

回答已采纳

1回答

机械地打开多个页面

python、beautifulsoup、mechanize、web-scraping

我正在使用机械化和漂亮的汤来创建一个python脚本来从网页中提取一些数据。抓取工作正常，但我遇到的问题是移动到多个页面。在机械循环中，有没有办法在页面之间移动？以下是我尝试过的方法 Browser().follow_link(text_regex="Next") 但它会转到下一页，这很好，但如果“下一步”按钮不存在，它就会死掉。我不确定如何做一个更好的循环，或者在运行上面的follow link命令之前，真正地检查链接是否存在。我找到的大多数示例和文档似乎只在一个页面上有效。

浏览 4提问于2011-03-04得票数 2

回答已采纳

1回答

在Python中执行网页上的Javascript方法

javascript、python、web-scraping

我正在为一个特定的网页写一个网页抓取器，我正在用"urllib2.Request( MyURL )“和"BeautifulSoup”来做这件事，但问题是在myURL中有一个页面分页，下一个页面通过点击一个链接加载(在相同的myURL/页面中)，这个链接后面是javascript方法，写成 { javascript:__doPostBack('rptPagingBottom$ctl01$btnPage','') }. 现在，如果不从Python执行这个Javascript函数，我就无法获得完整的页面清单。如何从Python中调用此Javascrip

浏览 2提问于2012-11-19得票数 8

回答已采纳

1回答

找不到命令'scrapy‘

python、linux、shell、ubuntu、scrapy

我正在尝试安装，这样我就可以写一个python程序来抓取网页，但我甚至还不能这样做，因为我需要抓取设置，所以我一直试图在我的shell中输入以下命令："scrapy startproject scrapy_javascript“，但得到以下错误："command ' scrapy‘not found”…我不知道哪里出了问题。我看了类似的问题，但没有帮助回答我的问题。我也在我下载的scrapy文件夹中。 📷

浏览 23提问于2019-05-09得票数 1

回答已采纳

1回答

使用crontab在AWS EC2上抓取数据:日志文件中缺少的输出

amazon-web-services、logging、cron

我正在使用AWS EC2实例上的crontab从web上抓取大量数据。脚本抓取数千个网页，并在每个页面之后打印"webpageID完成“。因为我计划运行脚本，然后注销实例，所以我使用crontab上的以下命令将stdout输出保存到日志文件中： 0 19 26 10 * /home/ec2-user/scrape.sh &>> /home/ec2-user/output.log 该脚本在抓取了10,000个网页后崩溃，但出于某种原因，output.log在8,000个网页后停止打印"webpageID done“。output.log中的最后几行如下所示：

浏览 0提问于2019-10-27得票数 0

1回答

Python -在空页面中绕过Beautifulsoup的“对象没有属性”错误

python、web-scraping、beautifulsoup

为了提取我需要的文本，我能够在我的条件执行中使用Beautifulsoup的find_next_sibling来刮除大部分的网页。 if len(str(h4.find_next_sibling)) < 90: ... else: ... 但是，对于一个特定的页面，网页是空的，因此Python报告了错误： AttributeError: NoneType对象没有属性“find_next_sibling” 由于空页似乎是由我计划抓取的页面列表中的错误生成的，而且我需要Python继续抓取，而不停止每个类似的实例，因此一种可能的方法是编写一个if条件，只在页面中实际存

浏览 6提问于2015-10-29得票数 1

回答已采纳

2回答

从网页上的不同链接获取信息，并使用pandas将它们写入.xls文件

python、pandas、web-scraping、beautifulsoup

我是Python编程的初学者。我正在使用python中的bs4模块练习web抓取。我从一个网页中提取了一些字段，但它只提取了13个项目，而该网页有13个以上的项目。我不明白为什么其余的项目没有被提取出来。另一件事是我想提取网页上每个项目的联系电话和电子邮件地址，但它们在项目的相应链接中可用。我是一个初学者，坦率地说，我被困在如何访问和抓取给定网页中每个项目的单个网页的链接。请告诉我哪里做错了，如果可能的话，建议我做什么。 <code>A0</code> 我做了上面的代码，只是提取每个项目的名称和位置，但它只抓取了13条记录，但在网页中有更多的记录。我不能写任何代码来

浏览 23提问于2019-04-02得票数 0

1回答

如何使用Python抓取受限制的网页

python、web-scraping

我想知道是否有任何方法可以用Python从受限制的网页中抓取html。我已经能够在一个网页上执行登录，但我想在登录后抓取另一个页面，但网址显示该页面的模式为：main_url/Restricted/Index.aspx 除了不受限制的部分之外，我无法获得整个页面的HTML。如何获取受限制网页的完整HTML？到目前为止，我的代码如下： from lxml import html from bs4 import BeautifulSoup as bs from urllib.request import urlopen from requests import Session payload

浏览 0提问于2019-10-02得票数 1

1回答

当web抓取大量数据时，使用退出代码-1073740791 (0xc0000409)完成的处理

python、web-scraping

我写了一个脚本来做一些网页抓取。网页上有javascript，所以在使用PyQT5抓取所需内容之前，我使用BeautifulSoup来呈现页面。但是，我有很多页面要抓取(超过10,000页)，我试图将内容存储在一个dict中，然后将其转换为json文件。我试图周期性地定期编写json文件，因为我认为由于刮伤的数量，dict变得太大了。还收到了出口代码。在另一个线程中，有人建议更新视频卡驱动程序(不知道为什么会影响我的Python脚本，但我尝试了一下。没有进展。

浏览 0提问于2018-10-27得票数 0

2回答

如何防止我的脚本在第一次循环后中断？

python、python-3.x、selenium、selenium-webdriver、web-scraping

我用python编写了一个脚本，使用selenium从网页中获取一些特定的信息。由于该网页是保密的，我不能透露网站地址。无论如何，我期待着我现有的抓取器将点击网页上20个链接中的每个链接，并到达所需的页面，它将收集信息并返回到较早的页面，重复相同的操作，直到所有20个链接都耗尽。然而，抓取器点击一个链接，转到所需的页面解析信息，但没有返回主页重复操作，它中断了。我的循环过程似乎有问题。下面是我的脚本中的一些行，它可能会给你任何想法，为我提供一个变通的方法。 for link in wait.until(EC.presence_of_all_elements_located((By.CSS_SE

浏览 1提问于2017-10-14得票数 0

5回答

Python/BeautifulSoup:从Web页面抓取数据

python、beautifulsoup

我是Python编程的初学者，我正在努力学习如何抓取网页。我要做的就是从这个中抓取数据我正在尝试从上面的页面中抓取ISSUE DATE (如果你打开网页，你可以看到ISSUE DATE )。我在这方面遇到了一些问题。这是我为此编写的代码。 import BeautifulSoup import urllib2 url = "http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&

浏览 0提问于2012-04-10得票数 0

3回答

Python web抓取用户列表

python、python-requests

我试图从一个网站上抓取用户列表，但它有多个页面，我可以抓取第一个页面，但当我抓取每个页面时就卡住了。代码- from bs4 import BeautifulSoup import requests source = requests.get('example.com/users.php?page=1').text soup = BeautifulSoup(source, 'lxml') for profile in soup.select("li h3 a"): print(profile.text) 在url中的通知 pag

浏览 5提问于2018-01-09得票数 1

回答已采纳

3回答

查找包含特定字符串的urls

python、regex、web-scraping、beautifulsoup

我以前没有使用过RegEx，似乎每个人都同意它对网页抓取和html不好，但我真的不确定如果没有它我的小挑战该如何解决。我有一个小的Python刮刀，可以打开24个不同的网页。在每个网页中，都有指向其他网页的链接。我想做一个简单的解决方案，得到我需要的链接，即使网页有点相似，我想要的链接不是。 urls之间唯一的共同点似乎是一个特定的字符串：'uge‘或'Uge’(uge在丹麦语中是星期的意思-周的数字每周都会改变，对吧)。我认为可以使用RegEx浏览网页，找到其中包含“Uge”或“Uge”的所有urls，然后打开它们。但是有没有办法使用BS来做到这一点呢？如果我使用RegE

浏览 4提问于2012-10-30得票数 0

回答已采纳

1回答

Web抓取:像Chrome一样更新数据？

javascript、python、selenium、beautifulsoup、screen-scraping

我在Python中遇到的所有关于web抓取的文章都引用了BeautifulSoup和Selenium作为从网页中检索HTML和JavaScript内容的主要工具。然而，我还没有找到一种方法来自动更新从同一网页接收的数据，而不需要向它发送新的请求。在Python中是不是不可能做你在Google Chrome中会做的事情，也就是说，简单地打开一个网页，然后看到它正在由主机本身自动更新？

浏览 9提问于2020-02-17得票数 0

回答已采纳

1回答

有没有可能用代码自动向下滚动网页？

python、html、web-scraping、beautifulsoup

我正在为一个特定的网页做网页抓取，我注意到我的代码只抓取了只显示第一个滚动的部分。当进一步向下滚动时，页面会自动显示更多信息。下面是似乎控制这种算法的代码。 <div class="view-pagination text-right"> <ul class="js-pager__items pager" data-drupal-views-infinite-scroll-pager="automatic"> ::before <li class="pager__item"

浏览 1提问于2019-10-31得票数 0

3回答

打开javascript生成的链接并返回到原始页面后，如何使用selenium保存原始页面的元素

javascript、python、selenium、web-scraping、selenium-chromedriver

在通过javascript生成的链接移动另一个页面之后，似乎不可能或非常复杂地将原始元素保存在selenium的webdriver中。我该怎么做？我试图使用以下组件对特定的网页进行web抓取： Ubuntu 18.04.1 LTS Python 3.6.1 Selenium (Python包) 3.141.0 谷歌Chrome 71.0.3578.98 ChromeDriver 2.45.615279 该网页包含"href“是javascript函数的链接，如下所示： <a href="javascript:funcName(10, 24,

浏览 2提问于2019-01-03得票数 0

1回答

如何在找到的页面上抓取外部链接？

nutch

我使用了从他们的wiki安装nutch的示例。我能够轻松地抓取从dmoz中拉出的多个页面。但是，有没有配置可以抓取它在页面上找到的外部链接，或者将这些外部链接写入下一步要抓取的文件？什么是最好的方式来遵循一个网页上的链接，索引该网页以及与nutch？如果我通过python执行bin/nutch，我能找回它找到的所有外部链接，并创建一个新的爬网列表来再次运行吗？你怎么做？

浏览 1提问于2010-10-26得票数 2

回答已采纳

1回答

抓取url不变的分页表

web-scraping、beautifulsoup、python-requests、pagination

我正在尝试从下面的网页中抓取表格中的：它显示了前25个结果，但对于其余的结果，您需要单击next按钮来查看它们。我有一个python脚本，其中我使用请求和漂亮的汤来抓取表格，但只能从HTML中直接抓取前25个结果。我对此完全是新手，经过一些谷歌搜索，我仍然不能想出如何从所有页面中检索所有数据。问题是，当选择新的结果页面时，URL不会更改。有没有人能带我到正确的方向？致以亲切的问候，埃沃德

浏览 26提问于2021-05-25得票数 1

1回答

如何在web浏览器的页面源代码中查看html实体代码

html、entity

我通过php cURL抓取/提取了一个远程网页。为此，我必须查看php脚本的页面源代码。问题是在远程页面中，一些文本在<pre></pre>标记内。因此，我可以看到换行或其他html实体代码，我想要抓取该网页的一部分。例如，如果您看到的页面源代码，就可以看到TODAY'S SHARE MARKET下的数据显示在<pre></pre>标记下。因为<pre>保留了换行符，所以我不能假设每行数据之后是什么。如何使用换行符/newline/查看页面源代码等html实体代码？

浏览 3提问于2017-03-19得票数 0

1回答

当下一页的后续链接在当前页面源代码中不可用时，抓取网站的所有页面

python、web-scraping

嗨，我已经成功地通过使用Python和正则表达式抓取了一些购物网站的所有页面。但现在我遇到了麻烦，要抓取某个特定网站的所有页面，该网站的下一页后续链接不存在于当前页面中，就像这里的本网站通过Ajax调用动态加载同一页面中的下一页数据。所以在抓取的时候，我只能抓取第一页的数据。但我需要抓取该网站所有页面中的所有项目。我没有办法获得这些类型的网站的所有网页的源代码，其中下一页的后续链接在当前页面不可用。请帮我解决这个问题。

浏览 0提问于2013-05-28得票数 0

2回答

Ruby中可用的网页抓取gem/工具

ruby、html-parsing、lxml、scrape

我正在尝试在我正在处理的Ruby脚本中抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合价值投资理念。我想要抓取的一些页面示例如下： http://finance.yahoo.com/q/pr?s=SPY+Profile http://finance.yahoo.com/q/hl?s=SPY+Holdings http://www.marketwatch.com/tools/mutual-fund/list/V 你对Ruby推荐了哪些web抓取工具，为什么？请记住，有成千上万的股票基金，所以我使用的任何工具都必须相当迅速。我是Ruby的新手，但我有在Python ()中使用lxml

浏览 0提问于2013-02-23得票数 10

回答已采纳

5回答

如何使用Python将数据输入到网页以抓取结果输出？

python、scrape

我熟悉从网页抓取数据的BeautifulSoup和urllib2。但是，如果在返回我想要抓取的结果之前需要在页面中输入一个参数，该怎么办？我正在尝试使用这个网站获取两个地址之间的地理距离：我希望能够转到页面，输入两个地址，单击“显示”，然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值，并将它们保存到字典中。有没有办法用Python把数据输入到网页中？

浏览 2提问于2011-08-13得票数 8

回答已采纳

2回答

如何抓取没有页数的url

python、web-scraping、beautifulsoup

我正在抓取一个网页，其中有一个没有页面，我如何才能抓取这些页面，以获得我想要的信息。假设我正在抓取一个URL ，这个页面有两个页面，我如何抓取这些总页面并得到总的产品列表。到目前为止我所做的是:我从他们那里抓取一个url，我通过正则表达式抓取一个特定的url，并试图从那个url中找到他们的链接，其他页面中没有包含链接产品名称的信息。我想要从所有页面中获取产品名称。我的代码： from bs4 import BeautifulSoup import urllib.request import re import json response = urllib.request.urlopen(&

浏览 1提问于2016-02-28得票数 0

2回答

用Python解析CSS属性值的HTML

python、html、css、selenium、phantomjs

我目前正在使用Selenium和PhantomJS与Python一起抓取呈现的网页。很容易检查HTML内容中是否存在某个单词(例如。)，但是我有兴趣在页面中搜索包含值大于或等于某个值的if "example" in html属性的元素。例如，最理想的做法是抓取一个站点列表，并保存具有CSS为元素提供z索引的页面，这个值异常大。所有内容都是构建的，除了呈现的页面的CSS爬行功能。有人对此有什么建议吗？

浏览 8提问于2015-01-06得票数 0

回答已采纳

2回答

抓取网页时调用javascript函数

python

我正在用python抓取一个网页，这个页面有： <input name="Submit" type="button" class="btn" value="query" onclick = "dataQuery();" /> 我想在python中触发onclick事件，我该怎么做呢，谢谢

浏览 1提问于2012-01-13得票数 3

1回答

使用Python使用Javascript实现Web抓取页面

javascript、python、web、screen-scraping

我正在尝试使用Python抓取一个urls列表的网页。我可以使用Python和漂亮的汤来抓取第一个页面，但是如果url列表很长，它会使用下面的JavaScript继续到第二个页面。 href="javascript:__doPostBack('WQResultGridView'，‘第$2页’) 我不知道怎么才能看到第二页。

浏览 0提问于2013-12-05得票数 0

2回答

如何将python抓取到excel中

python、excel、web-scraping

我想知道如何让python web抓取所有的结果到excel中。这并不是我不知道如何抓取网页，而是我不知道如何抓取excel。

浏览 2提问于2012-04-21得票数 2

1回答

Chrome选项在Selenium中加载页面时不适用

python、selenium、selenium-webdriver、web-scraping、automation

我正在尝试使用Selenium来抓取Amazon的法语页面。我希望这一页在加载时能从法文翻译成英文。我试图使用以下代码来实现这一点： myoptions = webdriver.ChromeOptions() prefs = { "translate_whitelists": {"fr":"en"}, "translate": {"enabled":"true"} } myoptions.add_experimental_option("prefs", prefs)

浏览 5提问于2022-07-03得票数 -1

2回答

使用selenium/chromedriver阻止网页自动重载

python、selenium、selenium-chromedriver

我正在使用python和selenium包和chromedriver来抓取网页。页面每30分钟自动重新加载一次(可能是通过java-script)，这会破坏我的抓取进度。网络抓取是通过脚本和与页面进行进一步交互所需的javascript ist来完成的。有没有可能通过chromedriver的标志来阻止页面重新加载呢？

浏览 24提问于2020-11-13得票数 0

回答已采纳

2回答

使用selenium进行Web抓取，并且无法移动到下一个网页

python、selenium、beautifulsoup

所以我一直在尝试从上抓取网页，似乎selenium一直在抓取重复的数据...... 下面是我的代码： from selenium import webdriver import time driver = webdriver.Chrome() url = 'https://www.zalora.com.hk/men/clothing/shirt/?gender=men&dir=desc&sort=popularity&category_id=31&page=1&enable_visual_sort=1' driver.get(url)

浏览 0提问于2018-04-25得票数 0

1回答

在python中，如何检查网页的完整大小，包括图像和其他嵌入元素？

python、bash、curl、web-crawler、wget

我试图在我的网络中找到完全下载大小太大的页面，比方说，大于10-20MiB。我已经知道如何爬行，我需要一些东西，它可以找出浏览器为每个页面下载的所有内容的大小，最好不要真正下载它，但这个条件是次要的。最好使用python，但如果不是这样，至少可以在bash脚本中使用(例如curl或wget)。我会从python内部调用该bash脚本。至于更多的上下文，在python中，我现在正在使用请求和漂亮的汤来抓取和检查所有网页的状态响应。

浏览 40提问于2018-07-24得票数 -1

1回答

Google网站管理员工具爬行网站错误增加而不是404错误

.htaccess、google-search-console、google-crawlers

Google检测到返回404错误(未找到页面)的URL数量显著增加。调查这些错误，并在适当的地方修复它们，确保Google能够成功地抓取站点的页面。让我知道为什么谷歌在抓取该网站时会出现这样的错误。我想提醒大家，由于我已经重写了.php页面的规则我在哪里做错了网页和内容之间的内部链接？因为我已经更新和纠正链接后，从网站管理员工作人员团队收到这条消息。请检查和调查内部链接，并确认我是否再次错过了什么？好心的建议。我会感激的。

浏览 3提问于2013-11-30得票数 1

回答已采纳

1回答

如何编辑“formdata”来抓取Ajax动态页面？

python、ajax、scrapy、web-crawler、webpage

感谢回答这个问题的人：我现在已经成功地抓取了一个Ajax网页。但是，该页面中只有120个链接可以抓取(总共540个)，因为我只使用formdata={'start':'0','num':'60','numChildren':'0','ipf':'1','xhr':'1'}模拟了一个请求。我检查了“网络”，它显示我似乎更需要编辑formdata： ] 我知道还有很多其他的方法可以抓取ajax页面，但在互联网上探索了各种答案后，我

浏览 0提问于2016-02-15得票数 1

4回答

去除网页中不相关的部分

python、screen-scraping、web-scraping

有没有一种API或系统方法，可以在通过Python抓取网页的同时，剥离网页中不相关的部分？例如，就拿这个页面来说--唯一重要的部分是问题和答案，而不是侧栏栏、标题等。人们可以猜到这样的东西，但有没有什么聪明的方法呢？

浏览 0提问于2011-05-19得票数 2

回答已采纳

1回答

如何获得网络抓取瓶应用程序，以显示新的网页刮除结果，每次烧瓶应用的网页在浏览器中重新加载？

python、flask、web-scraping、waitress

我的烧瓶应用程序进行了一些网络抓取(使用请求库)，然后在html模板(info.html)上显示结果。烧瓶应用程序可以工作，但它只做一次网络抓取(当烧瓶应用程序启动)，这意味着如果我刷新网页后，它仍然显示相同的旧的网络抓取结果与第一次。，我希望网页每次在浏览器中重新加载页面时，都会刷新网页抓取的结果。现在，结果不会刷新，除非我杀死烧瓶进程并再次运行它-这对烧瓶正常吗，如果是，我如何让应用程序再次运行刮擦，每次我重新加载标签？我用的是服务员，基本上代码看起来是这样的： from waitress import serve from flask import Flask, render_te

浏览 0提问于2019-08-30得票数 2

1回答

Python 3.6美丽的汤-在Web抓取过程中获取嵌入式视频URL的麻烦

python、web-scraping、beautifulsoup、python-requests、embedded-video

我正在尝试抓取一个网页，并使用Python3.6中的Beautiful Soup和requests模块检索网页上嵌入的视频的URL。当我在Chrome中查看网页上的超文本标记语言时，我可以看到视频的.mp4链接。但是当我使用requests和Beautiful Soup获取页面时，我找不到"video“节点。我知道视频窗口是一个嵌套的HTML文档。特别是，我想要抓取这个网页- http://videolectures.net/icml2015_liang_language_understanding/，并使用Beautiful Soup和requests模块获得视频链接- http:

浏览 25提问于2020-08-26得票数 4

1回答

有没有办法在我使用完Ghost.py后删除它的剩余物？

python、ghost.py

我在我的脚本中使用了ghost包来抓取网站。由于我有许多页面要抓取，ghost被多次使用，大约每页30次，我可能有数百个页面要抓取。当我运行我的脚本时，我注意到大约25页后，我开始收到Ghost::Qt::Qthread错误，甚至在此之前，ghost似乎并不是一致的意思:基本上ghost是用来从一个简单的页面中提取一个电话号码，如下所示：我怀疑这是关于内存超载，或者类似的东西，但我必须承认我是Python的新手，在编程方面不够熟练(我来自硬件世界)。有人遇到过这种类型的问题吗？ from ghost import Ghost gh=Ghost() page, page_name

浏览 19提问于2015-02-23得票数 1

2回答

将包含ArrayList的对象的ArrayList写入CSV

java、csv、arraylist

我的任务是从网页上抓取数据，并将它们与其他信息一起写入CSV。目前，我使用JSoup来抓取网站，但我的问题是不确定如何将它们写入CSV。我将每个抓取的页面的数据存储在一个名为CSVObject的对象中： public class CSVObject { String name; String title; String description; String ArrayList<String> color; String ArrayList<String> size; String ArrayList<float

浏览 63提问于2019-12-21得票数 0

1回答

存储刮过的网页的最佳方法？

web-scraping

我将从大量的ULR中抓取HTML代码，并将它们存储在我的计算机上，用于机器学习(基本上，我将使用Python和PyTorch对这些数据进行神经网络训练)。为所有网页存储HTML代码的最佳方法是什么？我希望能够看到我已经刮过的URL，这样我就不必再刮它们了，对于每一段HTML代码(1段HTML代码=从一个URL中提取的所有HTML代码)，我还可能希望看到它来自哪个URL(但可能这是不必要的要求)。我还希望能够在创建这些页面时看到时间戳，以便按时间顺序读取它们(我将能够在下载网页时提取时间戳)，以及可能的其他元数据。我认为HTML代码的总文件大小可以达到许多GB，如果不是TB，那么速度(无论是读

浏览 0提问于2020-09-06得票数 0

3回答

用Python对基于Javascript的网页进行屏幕抓取

python、screen-scraping、beautifulsoup、web-scraping

我正在用Python开发一个屏幕抓取工具。但是，当我浏览网页的源代码时，我注意到大多数数据都是通过Javascript获得的。有什么想法，如何抓取基于javascript的网页？有没有用Python写的工具？谢谢

浏览 4提问于2011-11-18得票数 4

回答已采纳

2回答

创建一个http-proxy，它可以在将http响应发送到客户端之前对其进行修改

python、http、proxy、node.js、http-proxy

我正在使用wget从网络上抓取一些东西，但我不想关注页面的一部分。我认为我可以设置一个代理，在将网页返回给wget之前删除我不想处理的部分，但我不确定如何实现这一点。有没有一个代理可以让我轻松修改python或node.js中的http响应？

浏览 0提问于2011-05-07得票数 1

回答已采纳

4回答

程序化表单提交

python、forms、screen-scraping、submit

我想要抓取网页的内容。内容是在填写并提交该网站上的表单后生成的。我已经阅读了如何抓取最终结果内容/网页-但是如何以编程方式提交表单呢？我正在使用python，并且已经读到我可能需要获取表单的原始网页，解析它，获取表单参数，然后执行X？谁能给我指出正确的方向？

浏览 0提问于2008-12-26得票数 3

3回答

Selenium缓慢向下滚动

python、selenium、web、screen-scraping

我正在尝试使用Python在javascript渲染的网页上进行动态web抓取。 1)然而，只有当我缓慢地向下滚动页面时，元素才会加载。我试过了： driver.execute_script("window.scrollTo(0, Y)") (这不起作用，因为它只滚动到页面上的某个点，而忽略了其他结果) 和 driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") (这不起作用，因为元素在向下滚动到页面末尾时不会加载-它需要用户缓慢地滚动整个页面) 2)如何让Selen

浏览 48提问于2019-05-07得票数 1

1回答

使用内部滚动条滚动

python-3.x、selenium-chromedriver

我有一个网站，我正在抓取，需要滚动水平(到最右边)和垂直(到最底部)的一个网页上的表格。我使用的是Python3、Selenium和Chrome Driver。我可以抓取表格数据，但它只能抓取我网页上可见的内容。当我检查网页时，我找不到任何滚动信息。通过在线搜索，我看到了使用Selenium进行滚动的各种方法，甚至可以通过xpath查找，然后以这种方式进行滚动。到目前为止，我没有任何幸运的选择，但可能做错了。这是我尝试过的一个例子，但它不起作用： html=browser.find_element_by_xpath('/html/body/form/div[3]/div[2]/d

浏览 0提问于2019-10-26得票数 1

1回答

如何从href="javascript:...“获取页面链接？

javascript、python、href、screen-scraping

我正在用Python做网页抓取。我需要获得所有的搜索结果页面的链接。但是，我发现href值不是一个常规的html链接，而是如下所示。我如何才能获得正确的页面链接？谢谢! <a href="javascript:showDocumentSearchResult('20','20','en','','0', '10','srt', 'docdt', 'desc');">2</a> <a href="j

浏览 0提问于2020-05-21得票数 1

2回答

不了解网页结构的Web抓取

python、web-scraping、beautifulsoup、web-crawler

我正试图通过写剧本来教自己一个概念。基本上，我正在尝试编写一个Python脚本，给定几个关键字，它将爬行网页，直到找到我需要的数据为止。例如，假设我想找到一张生活在美国的蛇类清单。我可能会用关键字list,venemous,snakes,US运行我的脚本，我希望能够至少80%的肯定地相信它会返回美国的蛇列表。我已经知道如何实现网页蜘蛛部分，我只想学习如何确定网页的相关性，而不知道网页的结构。我已经研究过web抓取技术，但它们似乎都假设了解页面的html标记结构。是否有某种算法可以让我从页面中提取数据并确定其相关性？任何指示都将不胜感激。我将Python与urllib和BeautifulSo

浏览 9提问于2014-05-28得票数 8

2回答

Heroku web抓取应用程序(通常但不总是)在大多数网站上都会出现403错误

python-3.x、heroku、web-scraping、http-status-code-403

我有一个由heroku托管的网络抓取应用程序，我用它来抓取大约40个公司网页。其中的27个几乎总是在heroku上给我403个错误，但是如果我在本地运行代码，每个页面都工作得很好。在运行应用程序大约25分钟后，收到403个错误(时间范围变化很大)，所有页面都神奇地开始工作，但如果应用程序重新启动，将再次返回403秒。我如何才能完全避免这403错误的发生呢？相关代码如下： from bs4 import BeautifulSoup as soup import urllib.request as ureq from urllib.error import HTTPError import t

浏览 17提问于2020-02-16得票数 2

2回答

Python 3，urllib。有可能重置连接吗？

python、python-3.x、urllib

在我的程序中，以下代码的目标是过滤掉网页源代码中的所有动态html。代码片段： try: deepreq3 = urllib.request.Request(deepurl3) deepreq3.add_header("User-Agent","etc......") deepdata3 = urllib.request.urlopen(deepurl3).read().decode("utf8", 'ignore') 下面的代码被循环3次，以确定目标网页是否是动态的(源代码每隔一段时间被更改)。如果页

浏览 4提问于2011-01-09得票数 2