在使用python进行web抓取分页时遍历多个页面_web抓取时无法遍历多个页面_使用python对多个Web页面进行web抓取 - 腾讯云开发者社区

python、python-2.7

我正在用Python编写一个web抓取应用程序。我正在抓取的网站有www.someurl.com/getPage?id=x表单的urls，其中x是标识页面的编号。现在，我正在使用urlretrieve下载所有页面下面是我的脚本的基本形式： for i in range(1,1001): urlretrieve('http://someurl.com/getPage?id='+str(i) , str(i)+".html) 现在，我的问题是-可以同时下载网页吗？因为，在这里，我阻塞了脚本，等待页面下载。我可以要求Python打开多个到服务器的连接吗？

浏览 14提问于2015-05-18得票数 1

回答已采纳

1回答

如何在提取特定亚马逊销售商的所有产品链接时处理分页符

python、html、amazon-web-services、xpath

我正在编写一个Python程序来提取锚标与hrefs匹配某个正则表达式模式从卖家页面。例如，我的第一个以字母'A‘开头的卖家URL如下：现在，我想要的是让所有的产品链接由上面的卖家通过抓取下面模式下的hrefs的锚标签来销售。但是来自第一个URL的产品列表分布在多个页面上。假设我正在使用Python2.7和XPath1.0字符串函数以及regex，我该如何处理分页符呢？注意:我使用的是Chrome版本60.0.3112.113 (官方版本)(64位)

浏览 1提问于2017-09-13得票数 1

2回答

Django在部分页面可用时动态加载它们

javascript、ajax、django、dynamic

我正在制作一个Django页面，它有一个侧边栏，其中包含一些从外部网站加载的信息(例如，公交车到达时间)。我是web开发的新手，我认识到这是一个瓶颈。实际上，在从其他站点加载数据时，页面会挂起不到一秒。在获得此信息之前，它不会显示任何内容，因为在将数据烘焙到html之前，它会运行python脚本来获取数据。理想情况下，它会显示直接从我的web服务器加载的大部分页面，然后有一个小的“加载”gif或其他东西，直到它真正设法在显示之前抓取数据。我如何才能做到这一点？我想javascript会有用吧？我如何让它与我现有的轮询器脚本集成？

浏览 1提问于2012-04-17得票数 1

2回答

不允许robots.txt中的所有分页页面

wordpress、robots.txt

我不想让google抓取我所有的分页：下面是示例：我还有一些其他的分页页面，比如：下面是我的robots.txt的代码 User-agent: * Disallow: */page/*

浏览 0提问于2015-10-20得票数 0

1回答

Facebook API -寻呼- 270项的限制？

python、facebook、json、api

我已经和Facebook玩了一段时间了，我想我已经做得很好了，但是，当我抓取我的朋友列表时，我遇到了270 (271?)的限制。在json数据中使用分页键返回的项。自然，我尝试迭代将 next 页面抛到分页键中，但是，从下一页返回的数组是空的，它包含一个next和next键，但没有实际的数据，谁知道出了什么问题？在浏览器中直接尝试忽略所有编程错误，与代码中的相同： https://graph.facebook.com/me/friends?access_token=[ACCESS_TOKEN]&limit=5000 我也尝试过使用&offset=269等，没有什么是真正有效

浏览 1提问于2012-07-23得票数 0

2回答

Scrapy Crawler excel输出

python、excel、scrapy、web-crawler、scraper

我是python和scrapy的新手，但是我试图开发一个爬虫和抓取器来提取亚马逊页面上的产品列表，抓取的信息必须有名称，价格和主要可用性。项目是被抓取的，但是当在csv文件中输出时，被抓取的每个项目都完全在一个单元格中。我想要的是让每个产品及其对应的详细信息在每个单元格中清晰地输出。逻辑是这样的： items= [] for products in response.xpath('//*[@id="mainResults"]/ul'): item = amazonlist() item['Tit

浏览 4提问于2017-01-23得票数 0

1回答

如何在php中使用curl获取所有页面分页数据

php、curl、web-scraping

我已经实现了一个数据抓取脚本，它使用CURL获取数据。但是获取只记录一个页面，但我需要所有数据，因为在该页面上有分页。我们正在使用以下方法获取数据 $xpath = new DOMXPath($dom); $xpath_resultset = $xpath->query("//div[@class='parentListing']"); 在上面的代码中，parentListing是div类，我在div和grep之间获取记录，使用不同的不同类。谁能知道如何获得所有页面的分页数据。如果任何人有任何建议，请帮助我。谢谢..。

浏览 1提问于2014-04-18得票数 0

1回答

如何使用RestKit获取结果页？

objective-c、ios、pagination、paging、restkit

我使用的是RestKit 0.10.1，我正在寻找一些用于处理分页结果的web服务的示例代码。我已经获得了不带参数的获取第一个页面的请求，并将它们粘贴到UITableView中。理想情况下，当我到达页面底部时，它将获取下一页并在底部插入这些值。我想我应该澄清，我更关心的是如何进行抓取，而不是如何将它们钉在桌子的末端，但如果有这样的建议，我很想听听。而且，这些记录不是存储在托管对象中，而是存储在内存中。更新:在将我的谷歌搜索从“分页”切换到“分页”之后，我遇到了，并意识到我正在处理的API是相当死气沉沉的，没有输出任何关于您在哪个页面上或页面大小的计数或数据。

浏览 1提问于2012-08-01得票数 2

回答已采纳

2回答

使用javascript分页进行抓取

web-scraping

我试图抓取一个多页的网站，分页是用javascript完成的。该网页如下：网页只是一个例子。在网页上使用相同的分页来显示所有提出立法的法案，列表，这些法案最终将被刮掉。使用Chrome中的开发人员工具并检查网络活动，我无法找到点击页码时发送的参数。用于分页的javascript似乎是这样的(cbpHorizontalMenu.js)：我正在尝试用R进行抓取，但我对其他编程语言或程序(在Chrome、Python、Puppeteer、Phantomjs中运行的脚本)持开放态度。

浏览 1提问于2020-06-04得票数 0

1回答

webcrawling-有哪些可能的方法来检测使用javascript加载的页面？

web-crawler

我想抓取一些网站。我正在使用selenium/PhantomJS抓取JS(react、angular、jquery等)。和python爬行其他所有的东西。我的主要问题是，我无法区分页面是否使用JS加载。任何想法都将受到欢迎！

浏览 2提问于2018-03-16得票数 0

2回答

在Selenium中使用find_element_by_class_name迭代多个类

python、selenium、webdriver、web-scraping

我正在使用Python中的Selenium进行web抓取项目。在网页上，我正在做的是有许多表条目具有相同的类名。 <table class="table1 text print"> 我正在使用find_element_by_class_name。但是，我得到了一个错误： *Compound class names not permitted * 另一个问题：如何迭代具有相同css类名的所有表？谢谢

浏览 5提问于2011-11-27得票数 3

回答已采纳

7回答

可以在服务器端运行jQuery吗？

php、javascript、jquery、web-scraping、screen-scraping

我在网页抓取工作中实现了AJAX分页，因为网站是在asp即扩展.aspx页面中开发的，我曾尝试提交分页表单以从其他页面获取数据，但没有任何成功，看看这里的代码我使用了，所以我的问题是如何从php点击分页链接，即是否可以在服务器端运行jQuery或javascript？我知道Node.js可以在服务器端运行javascript，但不知道如何在Apache和PHP上使用它。

浏览 3提问于2013-02-27得票数 7

回答已采纳

1回答

向数组添加新元素时迭代数组

ruby、iteration、each

我正在用Ruby编写一个web抓取脚本，它打开一个二手车网站，搜索汽车的品牌/型号，遍历结果页面，然后抓取每个页面上的数据。我遇到的问题是，我不一定知道开始时页面的最大数量，只有当我迭代到最后几个已知页面时，分页才会增加并显示更多页面。我已经将cleanpages定义为一个数组，并在第一次打开站点时用我知道的可用页面填充它。然后我使用cleanpages.each do遍历这些“页面”。每次我在一个新页面上，我都会将所有已知页面添加回cleanpages中，然后运行cleanpages.uniq来删除重复页面。问题似乎是cleanpages.each do的迭代次数与其原始长度一样多。我

浏览 0提问于2019-11-09得票数 1

3回答

如何修复不应该被GoogleBot和其他搜索引擎爬虫抓取的索引页面？

asp.net-mvc-3、http-status-code-404、http-redirect、google-crawlers、search-engine-bots

在现有的.Net MVC3站点上，我们实现了分页，其中URL类似于www.mysite.com/someterm/anotherterm/_p/89/10，其中89是页码，10是每页的结果数。不幸的是，大于3的页码链接中缺少rel="nofollow"，这些页面也缺少<meta name="robots" content="noindex,nofollow" />。问题是Google和其他一些搜索引擎现在已经对这些页面建立了索引，并且现在试图抓取所有这些页面，而且相当频繁，正如我们发现的那样，这开始对prod db服务器产生巨大的

浏览 17提问于2012-08-04得票数 0

回答已采纳

1回答

Python中的Web抓取

python、web-development、scraping

我需要学习高级python编程技能才能使用python进行web抓取吗？或者，我应该看一些关于网络抓取的教程，同时学习使用python。我对python没有任何经验，因为我是Laravel开发人员，这是我第一次在web抓取中做这样的工作。

浏览 0提问于2019-11-04得票数 -1

1回答

Python到PHP异步数据传输

php、python、asynchronous

我有一个建立一个网络刮擦工具的要求。抓取部分将在python中编码，结果将在PHP中显示。结果应该在PHP中异步显示，而python正在抓取页面。客户认为python是快速和更好的web抓取的选择。您认为混合python和php仍然会带来快速的结果吗?还是坚持使用php进行web抓取更快/更好？在这两种语言之间异步交换数据的首选方法是什么？谢谢!

浏览 3提问于2017-05-04得票数 1

回答已采纳

1回答

使用python从下拉菜单中抓取所有动态生成的数据的最佳方法

python、selenium、web-scraping、beautifulsoup

我正在创建webscraper，它将从这个网站中动态地生成玩家数据。我想要创建一个循环，它将从下拉菜单中为播放器生成数据，刮取数据，然后循环遍历下拉菜单中的所有播放器列表。我很好奇是否使用selenium与站点交互是最好的方法。但我也注意到，每个播放器的URL都遵循特定的模式，所以我考虑了抓取初始页面来收集我需要的所有数据，然后使用这些数据构造URL列表，然后循环遍历URL列表并将它们作为静态页面处理。是否有为这种特定类型的web抓取构建的python工具？

浏览 6提问于2020-03-18得票数 1

回答已采纳

1回答

在抓取需要登录的网站时，我需要哪些信息？

python、web-scraping

我想在某个网站上访问我的业务数据库，并使用Python进行抓取(我使用的是Requests和BS4，如果需要，我可以做得更多)。但我不能。谁能提供我们的信息和简单的资源，如何抓取这样的网站。我不是在说提供用户名和密码。这个网站需要的远不止这些。除了UN和PW之外，我如何知道我需要为脚本提供的信息(例如，我如何知道我必须提供身份验证令牌)？当站点中没有HTTP，但却有javascript:__doPostBack形式的hrefs时，该如何处理？在这方面，我如何从登录页面转换到我想要的页面(包含在前面提到的javascript：__doPostBack中的页面)？我使用的库足够了吗？或者，

浏览 4提问于2018-08-02得票数 0

3回答

(Python 3，BeautifulSoup 4) -在分区中抓取分页

python、web-scraping、beautifulsoup

我可以抓取这个网站的第一页：但我试图通过在网站的分页中使用“下一步”按钮来抓取网站上的所有其他页面。我单击了Next按钮，可以看到参数从0/1/10更改为第2页的0/2/10，依此类推。我已经查看了分页代码，可以看到分页位于Div中 <div id="pagingNext" class="link-wrapper"> 问题是我只使用下面的代码成功地从另一个站点抓取了分页： button_next = soup.find("a", {"class": "btn paging-next"}, hr

浏览 13提问于2017-07-19得票数 1

回答已采纳

1回答

使用selenium-python的完整页面源代码(在JS渲染之前)？

python、selenium

我从一个网站抓取数据与分页表(最大结果500，每页25个结果)。当我使用chrome“查看源代码”时，我可以看到全部500个结果，但是，一旦JS在selenium中呈现，使用driver.page_source时只会显示25个结果。我尝试过将cookie和头文件传递给requests，但这并不可靠，需要坚持使用selenium。我还创建了一个简单的解决方案，即单击分页器的next按钮，但肯定有更好的方法！那么，如何在使用selenium和python绑定进行JS呈现之前捕获完整的页面源代码呢？

浏览 0提问于2018-11-26得票数 0

1回答

如何将包含多个页面的HAR转换为JSON

json、web-scraping、har

我正在做一个研究项目，我需要能够从大量的Tiktoks中抓取标签。Tiktok已经采取了很多措施来对抗web抓取的正常方法，但是我发现我可以从chrome下载HAR文件并从中提取哈希标签。我发现的每个HAR到JSON python或java模块要么不工作，要么在输出JSON文件中没有hashtag信息。大多数在线HAR查看器只显示标题和参数，而我需要原始的JSON文件才能访问哈希标签。我可以通过 chrome扩展来访问它，但是有了大量的数据，我需要查看它就崩溃了。我需要从单个HAR文件中获取多个web页面的原始JSON。任何帮助都是非常感谢的！

浏览 4提问于2022-11-06得票数 0

2回答

刮除网页分页与rvest。结构中不显示分页路径。

html、r、screen-scraping、rvest

我需要你帮我解决网络抓取问题。我正试图从一个网站上抓取新闻。但是我在抓取总分页的数量时遇到了问题。例如，在这个页面上，我想刮这个分页(166)。但是分页路径不在站点结构中： url <- 'https://www.burkina24.com/category/actualite-au-burkina-faso/politique/' read_html(url) %>% html_nodes("#wrapper .nav-links > a") %>% html_attr("href") %>%

浏览 3提问于2020-10-05得票数 0

回答已采纳

4回答

如何避免多次重新加载XML文档？

php、javascript、xml

tl；博士:我想一次加载一个XML文件，然后一次又一次地重用它。我有一些javascript，它向一个PHP页面发出ajax请求，该页面收集并解析一些XML并将其返回给显示(例如，有4000个节点，PHP将结果分页为100块，您将有40个“页面”的数据)。如果有人单击其他页面中的一个(除了最初加载的页面)，则会发出另一个请求，PHP加载该大XML文件，抓取索引的子集(如记录200-299)并返回它们以供显示。我的问题是，是否有一种方法只加载该XML文件一次，然后重复使用它？每个ajax请求的过程是： - load the xml file (simplexml\_load\_file()

浏览 7提问于2010-01-29得票数 1

回答已采纳

3回答

Python web抓取用户列表

python、python-requests

我试图从一个网站上抓取用户列表，但它有多个页面，我可以抓取第一个页面，但当我抓取每个页面时就卡住了。代码- from bs4 import BeautifulSoup import requests source = requests.get('example.com/users.php?page=1').text soup = BeautifulSoup(source, 'lxml') for profile in soup.select("li h3 a"): print(profile.text) 在url中的通知 pag

浏览 5提问于2018-01-09得票数 1

回答已采纳

1回答

用Python和Selenium从标记中获取文本

python、selenium、selenium-webdriver、web-scraping、xpath

我一直试图用Python和Selenium抓取一个网页，结果遇到了这个问题。基本上，我正在抓取的网页在带有分页的表中显示信息，所以我想从所有页面中获取信息。当我在一个不是最后一页的页面(本例中为第2页)时，这是分页系统的HTML： <span class="pagelinks"> " [" <a href="?page=1">First</a> "/" <a href="?page=2">Previous</a> "]

浏览 4提问于2022-11-10得票数 1

回答已采纳

1回答

需要在Python中刮分页

python、selenium

我有一个selenium / python脚本，它可以抓取页面标题和一些其他信息。在页面底部有一个" next“按钮和一些分页，当我单击next时，它会加载接下来的20个结果。所有这些都是在不加载页面的情况下发生的。我需要能够刮剩余的网页，直到“下一步”按钮不再可见，这意味着没有更多的结果要加载。下面是我到目前为止给你们一个想法的逻辑。我已经把它简化了，所以很容易被跟踪。我可以刮第一页的标题，但一旦浏览器单击“下一步”脚本终止。我怎样才能让它刮掉剩下的几页？谢谢! #loads web page browser.get("URL") #scrapes titles d

浏览 1提问于2018-05-27得票数 1

回答已采纳

2回答

如何使用Dropbox选择器抓取多个文件？

dropbox、dropbox-api

对于个人网站，我正在尝试实现Dropbox选择器。其中一个好处是多选择选项，允许用户抓取多张图片的链接。当我使用< input >按钮和页面上提供的Javascript时，我可以选择多个文件，但它只返回一个链接. 不能真正弄清楚如何抓取所有选定的文件链接，谷歌也没有帮助我。有人能帮我吗？)

浏览 2提问于2013-05-15得票数 2

回答已采纳

1回答

利用JSoup浏览网页

java、web、screen-scraping、jsoup

我制作了一个网络刮刀，在IMDB上抓取一些信息。它通过将url中的数字更改为不同的随机数字来遍历每个页面，然后在这个新页面上重复web抓取过程。 <--将这个号码更改为一部新电影。我怎样才能在BFI网站上做到这一点？我看不到从一部电影到另一部电影的路。提前感谢！

浏览 2提问于2013-10-25得票数 0

回答已采纳

1回答

分页大数据集

node.js、mongodb、mongodb-query、mongojs

我收集了大量的数据，我希望针对这些数据编写一个脚本，然后再读取进程；在我的例子中，我会抓取一些字段并发送到RESTful API。为了节省负载，我想使用限制和跳过来对我检索的数据进行分页，并在while循环中进行分页，但是由于它是nodejs，所以我必须使用回调。在nodejs/mongo中处理大量数据而不崩溃/超时的最佳方法是什么？

浏览 2提问于2015-07-07得票数 0

回答已采纳

2回答

动态获取urls的python抓取

python、web-crawler、web-scraping

我是数据抓取领域的新手，之前使用python进行web和桌面应用程序开发。我只是在想，如果有任何方法可以从页面中获取urls，然后查看它的具体信息，如电话号码，地址等。目前我使用的是BeautifulSoup和built方法，其中我将urls作为方法的一个参数。我正在抓取的网站很大，真的很难为每个页面传递特定的url。有什么建议可以让它变得更快、更自驱动吗？提前谢谢。

浏览 1提问于2011-04-22得票数 2

回答已采纳

1回答

Selenium不工作在服务器上，因为它在本地机器上工作。

python、selenium、centos、pyvirtualdisplay

我最近完成了Selenium Python刮板。当我在我的个人机器上运行它时，它运行的非常好，但是当我在服务器上运行它时，结果是不一样的。在服务器上，我使用pyvirtualdisplay运行无头程序。 browser.get('https://example.com') html = browser.page_source 这是我的pyvirtualdisplay代码。 display = Display(visible=0, size=(800, 600)) display.start() 在本地机器上运行时，它完全抓取了由JavaScript生成的HTML，但当我在服

浏览 5提问于2016-06-15得票数 3

1回答

漂亮的汤分页，在next_page类中find_all找不到文本。还需要从URLS提取数据

web-scraping、beautifulsoup、pagination

我已经在这上面工作了一个星期，并决心让它工作起来！我的最终目标是编写一个网络爬行器，你可以在其中插入县的名称，这个爬行器将从面部照片中生成一个csv文件，其中包含姓名、位置、眼睛颜色、体重、头发颜色和身高(这是我正在从事的一个遗传学项目)。站点组织是主站点页面-->州页面-->县页面-- 120带有名称和url的头像-->带有我最终想要的数据的url，下一步链接到另一组120。我认为最好的方法是编写一个抓取器，它将从120张照片的表格中抓取URL和名称，然后使用分页从县的其余部分抓取所有的URL和名称(在某些情况下有上千张的10张)。我可以得到第一个120，但是我的分页不

浏览 4提问于2019-11-15得票数 2

回答已采纳

2回答

使用Scrapy抓取递归页面数据

python、web-scraping、scrapy

我正在尝试使用python和Scrapy从中抓取商店位置数据。我已经设法抓取了单个页面，但我想将其设置为遍历链接末尾的1000个递归id的列表。任何帮助都将不胜感激。免责声明:我不知道我在做什么 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from subway.items import SubwayFinder class MySpider(BaseSpider): name = "subway" allowed_domains = ["htt

浏览 0提问于2014-02-13得票数 0

1回答

分页，而不对每个页面有不同的urls。

python-3.x、web-scraping、python-requests、python-requests-html

我正在抓取一个web (使用Python请求和请求-html模块)，我需要浏览项目列表的所有页面。在“人工用户”世界中，我单击"2“表示第二页，或在"->”中单击从实际到下一页。当我检查我刚才说的元素时，它们是一个<div>标记，如： <div class="pagination__Page..."> 2 </div>或 <div class="pagination__Page..."> -> </div> 两者都有一个event链接到每个，所以当我点击它，移动到下面的页

浏览 3提问于2019-05-01得票数 0

回答已采纳

1回答

DEPTH_LIMIT到底指的是什么？当前深度是否可引用？

python、scrapy、scrapy-spider

Scrapy表明它有一个，但没有特别说明它认为的“深度”。在抓取页面方面，我见过' depth‘指的是'depth of the url'，或http://somedomain.com/this/is/a/depth/six/url，其中该URL所请求的页面的深度为' six '，因为它有六个分段。http://somedomain.com将为深度零。另一方面，当我们从树的角度考虑抓取时，深度更可能是指你离起始位置有多远。因此，如果我给它提供一个http://somedomain.com/start/here的起始url，即深度为零，那么在该响应上找到

浏览 11提问于2016-08-19得票数 1

回答已采纳

2回答

如何启动页面抓取技术

html、xml、rss

我刚开始浏览页面，我不知道从哪里开始。做页面抓取最简单的方法是什么？你对此有什么看法，什么是最好的web技术？有人能帮我吗，谢谢。

浏览 2提问于2012-12-02得票数 0

回答已采纳

1回答

使cURL cookies在成功的curl_exec连接中工作

php、curl、web-crawler

我正在用cURL和DOM抓取网页。该网站有一个产品部分，在那里你可以一页一页地查看所有的产品，也有更简洁的搜索小节，每页列出9种产品。我需要存储子部分的信息，以确定产品所属的位置。我从所有子部分的URL开始，上面的程序显示了我如何尝试获得一个部分的下一个9个产品页面。问题是，web使用一些信息进行重定向，我认为它在cookie上，因为网络中没有post跟踪。例如:在ALL PRODUCTS部分，第二个页面的URL如下： www.example.com/product/?n=2 任何小节的第一页都有一个唯一的URL，如下所示： www.example.com/product/subsect

浏览 1提问于2012-11-15得票数 0

1回答

Facebook可以抓取多个页面吗？

facebook、facebook-opengraph

我使用的是带有类似Facebook按钮的OpenGraph。在Facebook对页面进行爬网之前，OG无法正常工作。使用调试工具，我可以强制Facebook抓取特定的页面，但我有很多页面要抓取。 Facebook是否可以根据分页链接抓取这些内容，或者是否有其他方法可以强制Facebook抓取这些内容，而不必手动将它们输入到调试工具中？

浏览 2提问于2014-01-07得票数 0

2回答

维基百科允许通过Google App Engine获取URL吗？

python、http、google-app-engine、url、web-applications

我正在编写一个Python web应用程序，其中我计划利用维基百科。当尝试一些网址抓取代码时，我能够同时抓取谷歌和脸书(通过谷歌应用引擎服务)，但当我试图抓取wikipedia.org时，我收到了一个异常。有人能证实维基百科不接受这些类型的页面请求吗？维基百科如何区分我和用户？代码片段(这是Python!)： import os import urllib2 from google.appengine.ext.webapp import template class MainHandler(webapp.RequestHandler): def get(self):

浏览 3提问于2011-09-25得票数 4

回答已采纳

1回答

当url不变时，Python web抓取

python、beautifulsoup、python-requests、anaconda

我正在做一个使用python的web抓取项目。我应该抓取这个网站(https://www.fec.gov/data/receipts/?committee_id=C00703975&two_year_transaction_period=2020&data_type=processed)。我遇到的问题是，当你浏览数据时，url永远不会改变。我不确定如何继续。根据我的经验，当抓取一个网站时，当切换页面时，url会发生变化，但这个不会改变页面，它只是浏览同一页面上的数据。谢谢！

浏览 28提问于2020-11-10得票数 2

3回答

Teleric RadGridView是否支持winforms中的远程分页？

c#、winforms、gridview、telerik

我想知道Teleric 是否支持分页，每次页面索引改变时都会从web服务中获取数据。我曾尝试在网格视图中启用分页，但似乎网格视图对已设置为数据源的数据应用了分页。有没有办法在Teleric gridview中实现远程分页，因为我不想一次性将所有数据放在内存中？

浏览 1提问于2014-05-28得票数 1

2回答

在使用python的selenium中使用xpath获取innerHTML

python、selenium、xpath、css-selectors、webdriverwait

我正在尝试学习web抓取，尽管我检查了文档中的示例和堆栈中的一些问题，但我无法使我的代码工作。我想要抓取的网站有工作列表，但它的结构上没有模式或固定的类，几乎每个元素都有自己的id和单独的类。当我使用检查器从锚标记中查找innerHTML的xPath时，我得到的是：使用Firefox： /html/body/div[1]/div/main/div[3]/div/div/section/ul/li[1]/article/header/div/div[1]/h2/a 使用Brave Browser： //*[@id="16542952"]/section/div/header/

浏览 7提问于2020-05-19得票数 0

1回答

在Python中执行网页上的Javascript方法

javascript、python、web-scraping

我正在为一个特定的网页写一个网页抓取器，我正在用"urllib2.Request( MyURL )“和"BeautifulSoup”来做这件事，但问题是在myURL中有一个页面分页，下一个页面通过点击一个链接加载(在相同的myURL/页面中)，这个链接后面是javascript方法，写成 { javascript:__doPostBack('rptPagingBottom$ctl01$btnPage','') }. 现在，如果不从Python执行这个Javascript函数，我就无法获得完整的页面清单。如何从Python中调用此Javascrip

浏览 2提问于2012-11-19得票数 8

回答已采纳

2回答

从URL中删除某些ajax调用

python、regex、web-scraping

我刚开始使用python进行网络抓取，我面临着一个问题。我在https://upplysing.se的各个页面上进行抓取，并且需要从分页按钮的href中删除某个部分。href的结构如下： https://upplysning.se/person/?x=1204&where=Sveav%e4gen+Stockholm&m=1&sl=detail&page=2 我需要从url中删除&sl=detail部件，但不完全理解如何做到这一点。谁能给我指明正确的方向？

浏览 0提问于2018-12-17得票数 0

回答已采纳

3回答

Python擦伤索引

html、parsing、python-2.7、beautifulsoup、python-requests

我对任何形式和形式的web抓取都很陌生，我一直试图进入Python，我听说web抓取是向Python展示自己的一种很好的方式。所以，在谷歌搜索了很多次之后，我终于开始使用两个强烈推荐的模块:Request和BeautifulSoup。我在这两方面都读了相当多的书，并对如何使用它们有了基本的理解。我找到了一个非常基本的网站(基本原因是没有太多的内容或javascript之类的内容，使得解析HTML变得更加容易)，我有以下代码： import requests from bs4 import BeautifulSoup soup = BeautifulSoup(requests.get(

浏览 8提问于2015-01-15得票数 0

回答已采纳

2回答

如何单击javascript网格(‘ac$w$PC$PC$javascript：__doPostBack’，'Page$2')

javascript、python、selenium、webdriverwait

我正在使用selenium和python抓取页面。数据已分页，表数据如下所示。 <td> <a href="javascript:__doPostBack('ac$w$PC$PC$grid','Page$2')">2</a> </td> 现在的挑战是让selenium单击这个链接并前进到下一页。有一个SO 试图解决这个问题，但它不是python。也有许多SO问题试图使用execute_script来解决这个问题，但没有一个问题解决了使用似乎有两个参数的javascript函数所增加的复杂

浏览 0提问于2018-09-19得票数 1

1回答

抓取问题：“检查元素”与“查看页面源”不同

html、python-3.x、selenium、web-scraping、beautifulsoup

我试图做一个网页刮一个网页，其中包括多个标签本身。当我单击所需的选项卡，在显示其内容后，首先会出现两个问题。1-网页地址不改变，对所有标签都是相同的。2-当我看到带有浏览器(firefox和chrome)的“查看页面源”的页面源时，所有选项卡的页面源看起来也是相同的，而当我对其中一个选项卡使用“检查Elemnt”时，我看到我的目标内容以html形式显示的代码。问题是，我无法通过python访问所需选项卡的内容，这是web世界中可用的典型WEB抓取代码。这些代码通常是基于bs4的。有没有人有任何想法或示例代码来学习如何处理我的问题？我正在查找的页面位于以下地址：

浏览 2提问于2020-02-06得票数 4

回答已采纳

1回答

自动按下“加载更多”按钮

web-scraping

我正在尝试抓取一个页面，我有所有的代码集，只是我被“加载更多”按钮卡住了。这个页面很简单，它有一些项目，但只有几个。在web浏览器上要查看其余项目，您可以单击具有onClick事件的html按钮，当它被按下时，更多的项目被加载，依此类推，直到它们都出现在页面上，然后它就消失了。到目前为止，我发送了一个请求并将其存储在一个变量中，然后让BeautifulSoup对其进行解析。我该如何将其余的项加载到该变量中？我应该采取一种不同的方法吗？

浏览 0提问于2021-01-08得票数 0

1回答

如何在分割的页面上自动滚动，例如谷歌地图？

python、selenium、web-scraping、autoscroll

使用python/selenium抓取google地图(评论)。以下内容不会滚动： self.driver.execute_script("window.scrollTo(0,document.body.scrollHeight);") 假设这是由于拆分页面造成的，因为类似的代码在其他网站上也是有效的。我相信以前有人处理过这个问题。有什么建议吗？

浏览 2提问于2018-07-17得票数 0

4回答

屏幕抓取页面，使用CSS进行布局和formatting...how抓取CSS适用于html？

html、css、screen-scraping、firebug

我正在开发一个应用程序，用于对外部网页的一小部分进行屏幕抓取(不是整个页面，只是其中的一小部分)。所以我的代码可以很好地抓取html，但我的问题是，我不仅要抓取原始的html，还要抓取用于格式化我提取的页面部分的CSS样式，这样我就可以在新页面上显示它的原始格式完好无损。如果你熟悉firebug，它能够显示哪些CSS样式适用于你突出显示的页面的特定子集，所以如果我能想出一种方法，那么我就可以在新页面上显示内容时使用这些样式。但我不知道该怎么做......

浏览 2提问于2008-11-18得票数 7

回答已采纳