当使用Python进行web抓取时，如何通过浏览器中的Javascript被禁用错误_当使用Python进行web抓取时，如何在div中找到特定的头部？_如何在使用python进行web抓取时访问HTML类中的特定对象 - 腾讯云开发者社区

javascript、python

必须编写一个Python来进行通信，并从一个受密码保护的启用JavaScript的web应用程序中获取一些数据。遗憾的是，这个webapp需要运行JavaScript，如果JavaScript被禁用，则拒绝工作。因此，“urllib2”和“请求”在尝试获取数据时不起作用。在这一点上我有什么选择？如果我通过一些工具(如Firebug )抓取HTTP流量，并尝试通过一些Python方法重放这个流量，这会成功吗？脚本所需要做的就是：登录网站更改下拉项抓取一行文本并注销

浏览 3提问于2012-01-19得票数 1

回答已采纳

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

python、web-scraping

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

1回答

如何从javascript文件运行我的纯python (.py)文件

javascript、python、selenium-chromedriver

我正在创建一个网站，从一个网站抓取数据，并在我的网站上显示该数据。我使用selenium进行抓取，这完全是用python编写的，它可以将抓取的数据转换为JSON。我使用Javascript从JSON获取数据并将其显示在HTML中。现在我想问两件事。首先，如何通过虚拟主机在web浏览器中运行python文件。其次，我想要的是每天我的Javascript代码运行python文件，这样每当网站更新时，更新的数据也会显示在我的网站上。谁能指导我如何从Javascript运行Python文件。我也看过Brython，但它不能运行我的python(.py)。下面是我如何使用Brython的这些

浏览 147提问于2021-01-03得票数 0

3回答

C#的无头浏览器(.NET)？

c#、.net、browser、automation、web-scraping

我是一个Python开发人员，正在构建一个GUI web抓取应用程序。最近，我决定迁移到.NET框架，用C#编写相同的应用程序(这不是我的决定)。在Python中，我使用了Mechanize库。然而，我似乎在.NET中找不到任何类似的东西。我需要的是一个能够在无头模式下运行的浏览器，它具有填写表单、提交表单等功能。JavaScript解析器不是必须的，但它将非常有用。

浏览 0提问于2012-04-15得票数 39

回答已采纳

1回答

使用python与在线表单进行交互，并与与"type=button“输入关联的javascript进行交互

python、mechanize、spidermonkey

我需要填写一个在线表单，其中有按钮运行java-script在后台，我已经成功地填写了所有可用字段使用python机械化模块的数据。我读到过我可以用蜘蛛猴来完成这样的任务。单击名为“浏览”的按钮时，将弹出一个窗口，选择存储在服务器上的一个文件，并将该文件的Id返回到原始网页。以下是该页面的HTML和javascript：你能给我推荐一个执行这个任务的方法吗?因为我不熟悉web抓取，也不知道用哪个模块来模拟javascript在python中所做的事情。

浏览 0提问于2014-07-10得票数 0

5回答

用于web抓取JAVASCRIPT内容的语言

php、ruby、programming-languages、web-scraping

我想主题问这个问题，我通常使用PHP进行解析/ web抓取，但我在抓取javascript时遇到了很大的麻烦，大多数情况下我做不到。例如:解析执行javascript时出现的div。我读到过RUBY，它有一个用于javascript的解析器库，所以问题是w用于程序的语言是一种web抓取，可以有效地删除javascript生成的内容吗？这是一个PHP库，就像ruby解析javascript内容的库一样？

浏览 0提问于2011-07-20得票数 2

2回答

在AWS Elastic Beanstalk中将Python版本从3.6更改为2.7

python、django、amazon-web-services、amazon-elastic-beanstalk

我最近在Elastic Beanstalk中设置了一个新的应用程序，并使用python创建了一个环境。我想用这个环境来托管一个我用python2.7和Django 1.11制作的小型Django web应用。但是，当我设置环境时，它默认使用python3.6，并且由于某些原因，更改配置的选项被禁用。有没有人知道它为什么被禁用，以及我如何更改这个配置？

浏览 2提问于2018-07-26得票数 4

4回答

如何在客户端C#应用程序中模拟JavaScript

javascript、simulation、simulate

我正在编写一个网络爬虫(网络蜘蛛)，抓取网站中的所有链接。我的应用程序是一个Win32应用程序，用带有.Net Framework3.5的C#编写。现在，我使用HttpWebRequest和HttpWebResponse与web服务器进行通信。我还构建了自己的Http解析器，可以解析任何我想要的东西。我找到了所有的链接，比如"href"，"src"，"action"...在语法分析中。但我不能解决一个问题:在页面中模拟客户端脚本(如JS和VBS)，例如，如果链接如下： A href = "javascript:buildLink(1)“

浏览 1提问于2009-05-27得票数 4

1回答

我应该使用Javascript Bookmarklet或其他工具来执行基本的表单填写任务吗？

javascript

我一直在学习Python，了解如何使用CSS选择器进行基本的web抓取和表单输入。我的理解是，Python Selenium很适合在后台运行项目，但不太适合在web浏览器中执行特定的短期任务。我试图在现有浏览器中单独完成任务，而不是创建一个完整的新浏览器对象并在多个表单中迭代。用Javascript制作一个书签小程序是个好主意，还是我应该研究一下AutoHotKey或其他东西？

浏览 24提问于2021-01-09得票数 1

回答已采纳

7回答

使用JavaScript的程序化Python浏览器

javascript、python、browser、screen-scraping、mechanize

我想用屏幕抓取一个使用JavaScript的网站。还有，这是Python的程序化web浏览器。然而，它(可以理解)不能解释javascript。有没有针对Python的编程浏览器可以做到这一点？如果没有，我可以使用Python语言中的JavaScript实现来尝试创建一个吗？

浏览 0提问于2009-12-17得票数 14

回答已采纳

2回答

如何在不使用javascript的情况下开发carousel

javascript、progressive-enhancement

谁能给我一个光如何开发一个没有jquery和javascript的网站。目前我有一个用jquery cycle plugin开发的carousel，但是当我们改变主意，我们应该实现我们的网站时相信'web for all，使用渐进式增强‘，这对我来说听起来不错，但我不知道如果javascript被禁用，我将如何修改我现有的carousel和carousel来运行。我不得不在没有javascript或最少使用javascript的情况下运行那些carousel和carousel。只使用css3和html5，所以如果javascript关闭了，用户仍然可以查看。目前没有javascri

浏览 0提问于2011-11-19得票数 2

3回答

抓取/模拟浏览帮助

c#、webbrowser-control、screen-scraping

我想做一个程序，将模拟用户浏览网站，并点击链接。必须启用Cookie和javascript。我已经用python成功地做到了这一点，但我想把它写成一种可编译的语言(python ide's don cut it)。网站上的链接是用javascript生成的，并且是动态的。在python中，我使用了PAMIE (使用win32com的第三方模块)来启动Internet explorer的一个实例，抓取生成的链接的html，然后导航到其中一个。重点是整个过程对服务器是透明的。做这件事最好的(可编译的)语言和方法是什么？我在考虑使用WebBrowser控件的C#，但如果它不能工作，我不想花太

浏览 2提问于2009-09-14得票数 1

回答已采纳

1回答

Selenium中的iFrames问题

python、iframe、selenium

我正在尝试使用Selenium (Python中的)来抓取一个几乎完全是Javascript的网页。例如，这是页面的正文： <body class="bodyLoading">  <iframe id="__gwt_historyFrame" role="presentation" width="0" height="0" tabindex="-1" title="

浏览 3提问于2011-06-16得票数 5

回答已采纳

2回答

抓取使用javascript注入html的网站

node.js、web-scraping

我试图用Node.JS抓取一个网站，但当抓取html文件时，出现的东西是注入JavaScript的脚本标签，在查看有问题的JavaScript文件时，我似乎是正确的，因为我发现了我试图抓取的文本。在这个脚本被注入到html之后，我如何抓取文档？有什么办法吗？谢谢

浏览 22提问于2020-11-04得票数 0

回答已采纳

4回答

Selenium Webdriver的替代方案

javascript、selenium、webdriver

我使用C#和Python的Selenium Webdriver从网站获取数据元素，但web抓取的速度非常慢。抓取35000个数据表花了我大约1.5天的时间。使用Selenium Webdriver，我可以执行Javascript来获取Java元素。有没有一些库可以不需要像Webdriver这样的东西来在网页上执行Javascript来检索元素，并且能够点击元素？或者有没有比硒更快的替代品？

浏览 5提问于2015-04-16得票数 13

8回答

如何从Python中调用Javascript函数？

javascript、python、web-scraping

我正在做一个网络抓取项目。我工作的一个网站有来自Javascript的数据。在上有一个建议，我可以直接从Python中调用Javascript，但我不确定如何实现这一点。例如:如果一个JavaScript函数被定义为：add_2(var,var2) 如何从Python中调用JavaScript函数？

浏览 1提问于2011-11-27得票数 40

回答已采纳

3回答

用Python对基于Javascript的网页进行屏幕抓取

python、screen-scraping、beautifulsoup、web-scraping

我正在用Python开发一个屏幕抓取工具。但是，当我浏览网页的源代码时，我注意到大多数数据都是通过Javascript获得的。有什么想法，如何抓取基于javascript的网页？有没有用Python写的工具？谢谢

浏览 4提问于2011-11-18得票数 4

回答已采纳

1回答

如何在Scrapy中模拟XHR请求以动态加载网页？

python、ajax、scrapy、web-crawler、scrapy-spider

我正在尝试抓取olx.in站点http://www.olx.in/newdelhi/bmw/，我已经将这个URL设置为start_url。现在要转到下一页，因为它不是普通的HTML，但是它是动态的，所以在network中，我看到next按钮用POST方法创建了一个XHR请求。现在我必须用请求方法来模拟它(我猜.)但我不知道它的参数是什么。我对python和web抓取非常抱歉，如果它太笼统，但任何帮助都将不胜感激。

浏览 4提问于2016-01-12得票数 1

回答已采纳

1回答

单击某个元素可使用python web抓取功能动态更改内容

python、web-scraping、beautifulsoup

所以我从我的作品网站上收集了所有的数据，以获得我所有的班次和关于那些班次的数据，比如python和漂亮的汤。抓取移位是很好的，因为它们只是元素。但是要获得信息，比如谁在轮班，你必须单击一个元素，它会显示一个隐藏的元素，但也会根据你点击的日期更改信息。这可以使用javascript函数showFloorPlan('N','N','N','20200624')进行更改我需要能够从几个星期的班次中收集数据，显示谁在哪个班次工作。我试着将javascript:showFloorPlan('N','N',

浏览 17提问于2020-06-23得票数 0

1回答

python以javascript的形式提供交互性吗？

javascript、python

我想在网页上添加点击、悬停、onpage load()之类的交互性，如果我使用python生成xhtml，python会给出像javascript这样的基本风格吗？对于web开发，我对python感到有点困惑，所以有必要在python中包含旧的javascript，或者python只能像javascript一样处理交互性和事件吗？

浏览 0提问于2010-09-29得票数 1

回答已采纳

2回答

在javascript中提出一个简单的get请求

javascript、httprequest

我试图在javascript中做一些简单的get抓取，从美味或美味的站点获取html代码来存储菜谱。一个例子是这个站点：，但是，当我使用fetch时，我无法使它工作。实际上，我用python编写了等效的代码，希望能够将这些代码转换为javascript。这是粘贴在这里： import requests url = "https://www.delish.com/cooking/recipe-ideas/a27469586/baked-zucchini-recipe/" r = requests.get(url) text = str(r.content) 当我使用不同的站点时

浏览 1提问于2019-05-31得票数 0

回答已采纳

2回答

如何创建对python应用程序的视频和语音呼叫？

python-3.x、webrtc

我想将视频和语音呼叫添加到使用python开发的web应用程序中。我在网上搜索了一下，我发现我可以用WebRTC完成这项工作，但是这项工作是用JavaScript完成的，但我不知道如何用python来完成这项工作？我在Python3.6中使用Sanic作为web框架。另一方面，有没有可能在python中使用socketio来完成这项工作？我知道这个模块非常适合聊天应用。感谢你的帮助。

浏览 2提问于2018-03-10得票数 6

回答已采纳

1回答

从javascript生成的网格中抓取

python、selenium

我试着用Python语言做一个项目，它需要来自的金属乐队的完整列表。问题是，当你访问任何字母时，你不会得到完整的列表，而只是最多500个波段的一大块(我只需要他们的urls )。要获得下一个块，你应该点击一个按钮，而我既不知道如何在代码中触发按钮，也不知道如何在它之后抓取数据。我在谷歌上搜索的是我应该使用selenium，但我不确定，也不能理解它的真正用途。此外，我尝试使用来抓取数据，但是，脚本似乎太旧了，不能正常工作。关于它做错了什么的解释在issues 中。

浏览 1提问于2020-05-10得票数 0

2回答

在PGA网站上从JavaScript表中抓取Python

javascript、python、beautifulsoup

我刚刚开始学习Python，并且一直在与BeautifulSoup一起工作，从网络上抓取体育数据。我遇到了一个问题，在PGA网站上，它是由javascript生成的，我希望有人能在我工作的特定网站的上下文中引导我完成这个过程。下面是一个示例链接"“--表是所有的播放器统计表。谢谢!

浏览 8提问于2017-03-13得票数 0

回答已采纳

3回答

如何在asp.net注销后禁用浏览器的后退按钮？

asp.net

我想在登录asp.net后禁用浏览器的后退按钮。我试着将window.history.forward(1)函数或Response.Cache函数放入javascript。该编码在我的web应用程序中有效。但是后退按钮没有被禁用。如何做到这一点？

浏览 0提问于2012-11-24得票数 1

9回答

在web上获取Python脚本输出的最简单方法是什么？

javascript、python

我有一个持续运行的python脚本。它每30秒输出2行信息。我希望能够在web上查看此输出。特别是，我希望站点自动更新(每隔30秒在页面/站点的顶部添加新输出，而不必刷新页面)。我知道我可以用javascript做到这一点，但是有没有一个只基于python的解决方案呢？即使有，javascript是要走的路吗？如果需要，我非常愿意学习javascript，但如果不需要，我更愿意专注于python。对于这个基本的问题，我很抱歉，但当涉及到web编程时，我仍然一无所知。谢谢！

浏览 9提问于2009-04-08得票数 7

回答已采纳

5回答

使用python抓取javascript生成的html

javascript、python、browser、screen-scraping

我需要用python抓取一个网站。我使用urlib模块获得了源代码html，但我还需要收集一些由javascript函数(包含在html源代码中)生成的html代码。这个函数在网站中的作用是，当你按下一个按钮时，它会输出一些html代码。我如何用python代码“按下”这个按钮？scrapy能帮到我吗？我捕获了带有firebug的POST请求，但是当我试图在url上传递它时，我得到了一个403错误。有什么建议吗？

浏览 0提问于2010-01-28得票数 18

回答已采纳

1回答

在抓取需要登录的网站时，我需要哪些信息？

python、web-scraping

我想在某个网站上访问我的业务数据库，并使用Python进行抓取(我使用的是Requests和BS4，如果需要，我可以做得更多)。但我不能。谁能提供我们的信息和简单的资源，如何抓取这样的网站。我不是在说提供用户名和密码。这个网站需要的远不止这些。除了UN和PW之外，我如何知道我需要为脚本提供的信息(例如，我如何知道我必须提供身份验证令牌)？当站点中没有HTTP，但却有javascript:__doPostBack形式的hrefs时，该如何处理？在这方面，我如何从登录页面转换到我想要的页面(包含在前面提到的javascript：__doPostBack中的页面)？我使用的库足够了吗？或者，

浏览 4提问于2018-08-02得票数 0

4回答

禁用Javascript的帮助

javascript、html、css

我有一个简单的.html页面，其中使用Javascript来显示一些弹出窗口。现在，如果Javascript被禁用，我想显示一些带有锚链接的文本，所以如果javascript被启用，我应该能够显示弹出窗口，但如果Javascript被禁用，我想显示一些文本，弹出窗口不应该显示。我不想使用，有没有一种方法可以用HTML，CSS来做？ Name: <a class="icon_help" href="#hbc_2" title="Prevention, Immunization & Screening">2</a&g

浏览 0提问于2010-05-25得票数 0

回答已采纳

7回答

用PHP代码打印Python输出

php、python、scraper

我有一个刮板，它刮一个网站(用python编写)。在抓取站点的同时，那些即将用CSV编写的打印行。刮板是用Python编写的，现在我想通过PHP代码来执行它。我的问题是如何打印由python代码打印的每一行。我使用了exec函数，但它不是我的使用，并给出输出后，执行所有的程序。是这样的；是否可以在通过PHP执行python输出时打印它。

浏览 14提问于2012-12-09得票数 10

1回答

服务器端web抓取/导航解决方案(有JavaScript支持)

javascript、web-scraping

我需要做服务器端的web抓取/导航，包括使用JavaScript的网站，我需要一个解决方案，可以在一个托管计划-我没有自己的服务器。我遇到python/pyside/pyqt4 4--这将完美地工作/允许我像无头浏览器一样浏览站点。不过，我不知道这是否可以安装在远程服务器/主机上.

浏览 2提问于2011-08-31得票数 3

1回答

在Python中执行网页上的Javascript方法

javascript、python、web-scraping

我正在为一个特定的网页写一个网页抓取器，我正在用"urllib2.Request( MyURL )“和"BeautifulSoup”来做这件事，但问题是在myURL中有一个页面分页，下一个页面通过点击一个链接加载(在相同的myURL/页面中)，这个链接后面是javascript方法，写成 { javascript:__doPostBack('rptPagingBottom$ctl01$btnPage','') }. 现在，如果不从Python执行这个Javascript函数，我就无法获得完整的页面清单。如何从Python中调用此Javascrip

浏览 2提问于2012-11-19得票数 8

回答已采纳

3回答

用JavaScript进行网络抓取？JavaScript文件I/O？JavaScript遍历URL？自动加载外部脚本？

javascript、web-scraping

我想做一些网络抓取，而不是通过帮助台和IT安装和配置Python (我没有管理权限，因为我是一个实习生)。我已经用JavaScript编写了我需要的日志函数，但我需要将程序中的数据提取到CSV中，以便以后可以转换为.XLS。我想知道JavaScript是否有可能做这些事情： JavaScript可以写入文件吗？我可以通过单击按钮来运行外部脚本吗？也就是说，在没有将代码粘贴到控制台的情况下，每个页面。或者，甚至，甚至，在页面加载时自动运行外部脚本？我能自动遍历并加载URL吗？URL详细信息都保持不变，只有一个整数值在每个页面之间发生变化。谢谢您的输入！

浏览 0提问于2018-07-25得票数 0

回答已采纳

2回答

Sharepoint如何向外部web服务发出get请求

ajax、web-services、sharepoint、get、sharepoint-clientobject

如何从Sharepoint对象模型向外部web服务发出get请求？我试着用ajax请求： $.get("http:/servername/webservice_name", function(data, status) { alert("Data: " + data[0] + "\nStatus: " + status); })；但我有一个错误:访问被拒绝。我的web服务有JSON格式的响应。我读了很多文章，但没有结论。我读到，ajax在外部web服务的SharePoint中是被禁止的。没有ajax，我怎么能成功呢？

浏览 11提问于2016-07-24得票数 0

回答已采纳

7回答

使用大量Javascript从网页上抓取屏幕

javascript、html、dom、screen-scraping

我被要求写一个应用程序，它的屏幕抓取信息从内联网网页，并从它的某些信息呈现在一个很好的，易于查看的格式。网页真的是一团糟，需要用户点击半打图标才能发现订购的商品是否已经到达或已经收到。正如你可以想象的那样，至少可以说，用户对此感到恼火，如果有一个任何人都可以使用的应用程序，在一个屏幕上列出他们的订单状态，那将是一件很好的事情。是的，我知道一个更好的解决方案是重写web应用程序，但这会涉及到打电话给供应商，而且会花费我们很少的钱。无论如何，在研究这一点时，我发现我想要抓取的网页主要是Javascript (尽管它没有使用任何AJAX技术)。有没有人知道是否存在一个库或程序，我可以用Javas

浏览 1提问于2009-05-13得票数 17

回答已采纳

3回答

禁用WebBrowser而不进行灰度化

c#、wpf、xaml、windows-phone-8

我在Windows 8中为网络浏览器设置了IsEnabled="False"，但是它变成了灰色而不是白色。在将IsEnabled设置为false时，是否有办法防止网页浏览器变灰？请别告诉我这是件坏事。网页浏览器必须被禁用一段时间，这样一个Pivot就可以抓取滑动。我的应用程序是一个混合的PhoneGap +原生应用程序，每个PivotItem都包含一个CordovaView元素。

浏览 5提问于2014-10-13得票数 2

回答已采纳

2回答

编写PHP when服务时的安全性？

php、web-services、httpwebrequest

我是第一次用PHP编写web服务，遇到了一些安全问题。 1)我计划在将密码写入数据库(或对用户进行身份验证)之前使用md5()对密码进行散列，但我意识到要这样做，我必须以明文形式将密码传输到服务器，并在那里对其进行散列。正因为如此，我想到了用javascript客户端的md5()，然后在服务器上重新散列，但是如果javascript被禁用了，那么用户就不能登录了，对吧？ 2)我听说当操作是只读的时候，你应该使用GET，但如果它修改了数据库，你应该使用POST。post是不是和GET一样透明，只是不在地址栏中？

浏览 5提问于2010-06-03得票数 0

回答已采纳

9回答

禁用Javascript，简短问题

javascript

只是一些关于javascript和网站的简短问答。 1-通过启用javascript，是否意味着在浏览器设置中安装并启用了'sun java‘？还是说每个浏览器都启用了javascript？ 2-如果javascript被禁用，例如我的网站将根本无法工作，那么在这些情况下，如果实现目标的唯一方法是使用javascript，那么主要的开发人员该怎么办？ 3-如果javascript被禁用，ajax是否也被禁用？同样，Jquery也是一样，因为它是一个javascript库？谢谢你们

浏览 2提问于2009-11-30得票数 5

回答已采纳

3回答

屏幕阅读器可以读取JavaScript动态创建的网页吗？

javascript、ajax、accessibility

我曾经认为视力受损的用户的屏幕阅读器不能阅读由javascript动态创建的网页，因为我接受了创建工作的网页的教育，即使javascript是禁用的。最近，有人告诉我，屏幕阅读器实际上可以读取在AJAX web应用程序中动态创建的web内容。那么，既然屏幕阅读器可以做到这一点，为什么在javascript被禁用的情况下，让网页正常工作又是一个可访问性的规则呢？

浏览 0提问于2010-10-22得票数 3

回答已采纳

3回答

提交表单

jquery

我想知道如果有人禁用了javascript，我的表单将如何提交给Php进行检查。还有一件事，我想知道如何执行这样的事情，如果人们点击提交按钮，PHP检查一些字段，如果其中一个字段无效，我在div中返回错误，如果没有错误，脚本运行。我知道如何执行jquery ajax，mysql之类的东西，但是如果javascript被禁用，提交数据对我来说有点令人困惑。我的意思是，我不会提供任何形式的行动，所以这一切将如何工作。我希望我说得有道理，谢谢。 //编辑好的，我得到了一些答案，谢谢它帮助我理解了这一切是如何工作的。我对这个问题的最后补充是，如果我提交了一个表单，但没有执行任何操作，那么它就像提交给

浏览 0提问于2011-05-06得票数 3

5回答

网站如何能够立即检测到javascript已被禁用？

javascript、html、css、noscript

通常，当加载页面时，当浏览器禁用Javascript时，我们使用<noscript>标记编写类似警告的内容，并告诉客户端启用Javascript。但是，Facebook，甚至是，在之后，在启用JS的情况下加载页面时，当它被禁用时，您就会收到通知。我怎么能做这种事？更新:这个机制在Facebook上已经没有了，但在此之前，我问这个问题为时已晚，但如果找到任何答案，我会非常感激的。我已经尝试过的我想在我的页面中有一个段来检查Javascript是否被禁用，如果是，则显示<noscript>的内容。为此，我创建了一个页面CheckJS.html。 <!DOCTY

浏览 5提问于2012-07-24得票数 46

3回答

如何在python中并行抓取多个html页面？

python、django、multithreading、beautifulsoup、python-multithreading

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： for url in websites: r = requests.get(url) soup = BeautifulSoup(r.content) links = soup.find_all("a", {"class":"dev-link"}) 实际上，网页的抓取是按顺序进行的，我想以并行的方式运行它。我对Python中的线程化不是很了解。谁能告诉我，我怎样才能并行抓取？任何帮助都将不胜感激。

浏览 0提问于2017-05-29得票数 2

3回答

Python网络抓取

python、web-scraping、beautifulsoup

我试着用Python从网站上抓取数据。当我查看浏览器中的源代码时，我可以看到我正在寻找的所有东西。但是，当我用BeautifulSoup下载代码时，我只得到我想要的部分数据。我知道BeautifulSoup不适用于javascript (我一点也不知道javascript )，我想知道是否有办法下载所有原始源代码(基本上是一个硬拷贝)，即使站点的一部分是用javascript完成的。到目前为止，这是我的代码： r = requests.get('https://www.example.com/example/example') data = BeautifulSoup(

浏览 3提问于2016-12-02得票数 1

回答已采纳

4回答

如何构建web文件浏览器？

javascript、python、html、web-applications

目标:简单的浏览器应用程序，用于在树状视图中导航web服务器上的文件。背景:构建一个网站作为学习经验，使用Apache，mod_python，Python代码。(目前还没有mod_wsgi。) 我应该学习哪些工具来编写浏览器树？我看到了JavaScript，Ajax，这两个我都不知道。学习它们吗？从web上抓取一个JS示例并重新编写？这样的东西可以在原始的HTML中构建吗？我是高级初学者，但我意识到那是服务器端。如果你打算从头开始做这样一个玩具，你会用什么？什么是完全简单，俗气的方式，中间的方式，完全专业的方式？请不要使用Django --这是一个学习web编程细节的练习。

浏览 0提问于2009-06-02得票数 2

回答已采纳

3回答

如何在网页抓取时登录网站

python、beautifulsoup、youtube

我正在制作一个web刮刀，它可以将我的YouTube频道统计数据带回到python中，所以我去了我的YouTube站点，复制了这个链接并用bs4粘贴它打印了汤。我完成了整个测试，并创建了一个html文件，当我查看它时，它是YouTube登录页面。因此，现在我想登录这个(假设我可以在文本文件中提供密码和电子邮件id )，以便刮除yt的统计数据。我不知道这个(我对网络抓取是新的)。

浏览 3提问于2021-01-24得票数 0

回答已采纳

2回答

使用用户名和密码从外部站点抓取数据

python、authentication、cookies

我有一个有许多用户的应用程序，其中一些用户在外部网站上有一个我想要抓取的数据的帐户。此外部网站有一个由电子邮件/密码表单保护的成员区域。这会在提交时设置一些cookie(几个ASP )。然后，您可以打开所需的页面并获取外部站点为刚登录的用户保存的数据。外部站点没有API。我设想我的应用程序要求用户提供外部站点的凭据，代表他们登录并获取我们想要的数据。我该如何在Python中实现这一点呢?也就是说，我是否需要在Python提供的服务器上运行GUI web浏览器来处理cookie(我不希望这样做)？

浏览 2提问于2015-05-05得票数 0

2回答

在Python代码中获取的HTML与显示的网页不同

python、html、web-scraping、scrapy

我最近开始用Scrapy学习web抓取，作为练习，我决定从this url抓取一个天气数据表。通过检查页面的XPath元素，我将其表复制到我的代码中，但在运行代码时只得到一个空列表。我尝试使用以下代码检查HTML中存在哪些表： from scrapy import Selector import requests import pandas as pd url = 'https://www.wunderground.com/history/monthly/OIII/date/2000-5' html = requests.get(url).content sel = S

浏览 122提问于2020-09-06得票数 0

回答已采纳

2回答

Python、BS和Selenium

python、selenium、web-scraping、beautifulsoup

我试着用javascript dynamic + bs + python进行网络抓取，我读了很多东西，想出了这个代码，我试着在一个著名的网站上用javascript抓取一个价格，例如： from bs4 import BeautifulSoup from selenium import webdriver url = "https://www.nespresso.com/fr/fr/order/capsules/original/" browser = webdriver.PhantomJS(executable_path = "C:/phantomjs-2.1.

浏览 22提问于2019-12-18得票数 1

回答已采纳

1回答

Selenium--driver.execute_script()不能工作

javascript、html、selenium、selenium-webdriver、web-scraping

我用driver.execute_script执行javascript，但是当我这样做时什么都不会发生--系统只是转到下一个python代码行。有什么想法？在网页中进行网页抓取--使用控制台中的JavaScript进行数据挖掘。当jScript i将它放到web控制台时，它工作得非常好。 JavasCRIPT： let email = ''; let contacts = document.querySelectorAll('div.contact-section'); for (let i = 0; i < contacts.length; i++)

浏览 4提问于2022-01-06得票数 2

1回答

有没有可能让selenium更快地工作？

python-3.x、rest、selenium

我正在使用Python中的selenium来抓取网页的文本，包括那些依赖于javascript的文本，但它使用的是firefox或其他浏览器，它打开一个窗口，处理速度非常慢，比如每页30秒。我能以某种方式加速它吗？代码示例如下： gecko_path = r'X:\Programming\geckodriver\geckodriver.exe' binary = r'C:\Program Files\Mozilla Firefox\firefox.exe' options = Options() options.binary = binary xm

浏览 0提问于2019-06-04得票数 0