使用Selenium加载页面和抓取信息的问题

文章/答案/技术大牛

发布

1回答

、、

我试图从https://www.rollingstone.com/charts/artists/中抓取前200名艺术家，但在通过Selenium成功加载所有200名艺术家之后，使用.click()单击"load more“按钮和.implicitly_wait()函数，并将它们插入到我的数据库中，我只得到了前50名艺术家。div.c-content.c-content--charts > section.l-section

浏览 16提问于2020-06-21得票数 2

回答已采纳

1回答

使用Python对页面和浏览器扩展数据进行with抓取

、

我正在尝试获取网页的文本数据，就像它在我的浏览器上的样子一样。我的问题是，我还使用了一个网页的扩展，它的给定数据(由于它而显示的文本)也要被收集。我知道urllib，但它只收集正常的网页数据，而不是扩展生成的数据。那么，如何收集这些数据有什么帮助吗？另外，我想问的是，这是否可能？

浏览 12提问于2020-08-15得票数 0

1回答

从html页面不显示数据的url读取数据

、

r = s.get(link) print(soup.prettify()) 但是我看不到网页的内容

浏览 1提问于2020-02-05得票数 0

1回答

如何通过Python获取Youtube搜索结果列表，并获取最大数量的视频？

、、

v=" + x) print(n) 问题是我得到的结果非常少(在30到50之间)。每次都有不同的数字。我希望能得到300个左右的结果...这就是为什么我没有使用API --只是模仿浏览器搜索，就像普通用户一样。它会在无休止的回滚中给你更多的结果。如何解决这个问题？我是个新手，几乎完全迷失了方向。

浏览 97提问于2021-08-07得票数 1

2回答

使用Python通过AJAX抓取网页

、、

我知道使用Python的Beautiful Soup抓取HTML的基础知识。但是，页面会进行AJAX调用，以获取球员上场时间的数据。(我使用firebug识别了网络调用)。我的问题是:有没有可能使用python来“抓取”这些信息？我需要什么工具，除了HTML我还应该知道什么？(我目前正在阅读有关JavaScript和AJAX的文章)。我为这个不明

浏览 0提问于2013-11-02得票数 0

1回答

如何使用scrapy或selenium抓取动态页面？

、、、、

我正在尝试抓取web动态页面，但使用scrapy时，我不能检索所有信息，因为我想要的信息是动态的。我试着使用Selenium，但与Scrapy不同的是，你不能指定头部，网站阻止了我。(我不能说出这个网站的名字，因为抓取是非法的，但它是一个著名的旅游元搜索引擎...)。我有一个带有验证码解算器的页面(用脚本很难

浏览 23提问于2019-06-13得票数 0

2回答

Python -如何在URL中不分页地刮分页

、

下面是示例页面： * 我知道如何使用刮取库(BS4、Selenium)，但我不知道如何抓取这样的站点。我知道pubmed有API，但是API不返回我需要的信息(天气文章是否可以免费下载)。像Python这样的抓取站点通常的工作流程是什么？

浏览 0提问于2019-07-05得票数 0

回答已采纳

1回答

使用BeautifulSoup和拆分器从推特帐户检索文本

、、、

我正在尝试从的最新推文中检索文本 twitter_url = 'https://twitter.com/marswxreport?r-ad9z0x r-bcqeeo r-qvutc0"但是，它抛出一个错误，声明"'NoneType' object has no attribute 'text'"和soup.find_all在检查twitter页面时： &l

浏览 3提问于2019-12-07得票数 1

2回答

如何解析由javascript编写的html文本？

、、、、

我是新手，刮刮和需要刮一些数据集的数据挖掘项目。我要刮"“。跟踪每个链接并提取数据。我编写了一个使用xpth和css.But获取数据的工作抓取器，我在页面中看到了这个元素，它使用javascript来填充一个选项卡式表。xpath对于每个tab.So都是相同的，不能为单个选项卡提取数据，并从每个选项卡中获取数据存量增益百分比。我可以从xpath和css中刮取数据，但是页面的一部分是从ja

浏览 6提问于2017-04-21得票数 1

回答已采纳

2回答

Ruby -页面重定向时需要等待/休眠(刷新)

、

我正在使用Ruby创建一个网页爬行/抓取脚本。我正在抓取的页面是通过AJAX加载的，并显示特定帐户的信息。如果您在下拉菜单上选择了第二个帐号，页面将非常简短地重定向到另一个URL并返回到原始URL，只是使用通过AJAX加载的不同信息。我想要能够刮信息的两个帐户号码上列出的下拉选项。<

浏览 0提问于2014-07-01得票数 3

回答已采纳

1回答

避免在Selenium中获取某些元素，比如定制的广告阻止程序。

、

有办法避免在selenium中加载某些元素吗？例如，由XPATH表达式定义的？如果这是必要的解决方案，我很乐意使用selenium-wire来拦

浏览 5提问于2021-07-21得票数 0

2回答

使用CURL将特定数据输入数据库

、、

我刚开始使用CURL，还是个PHP程序员新手。我想采取网页上的特定元素(通过AJAX的变化)，并使用CURL输入到数据库中。到目前为止，我可以用CURL写一个网页的文本文件，但我真的不知道下一步该怎么做。

浏览 0提问于2010-07-13得票数 0

2回答

cURL在这里的行为似乎不正确

我在我的shell上尝试执行以下命令：试着输入专利号和申请号: 6836866和10007391。然后点击获取书目数据按钮。网页返回内容(一个“整齐”格式化的表格)，但是curl调用似乎遇到了“一些”问题。我已经在浏览器上使用了firebug来确认上面的三个变量都是

浏览 0提问于2008-12-14得票数 0

1回答

webcrawling-有哪些可能的方法来检测使用javascript加载的页面？

我想抓取一些网站。我正在使用selenium/PhantomJS抓取JS(react、angular、jquery等)。和python爬行其他所有的东西。我的主要问题是，我无法区分页面是否使用JS加载。任何想法都将受到欢迎！

浏览 2提问于2018-03-16得票数 0

2回答

使用selenium/chromedriver阻止网页自动重载

、、

我正在使用python和selenium包和chromedriver来抓取网页。页面每30分钟自动重新加载一次(可能是通过java-script)，这会破坏我的抓取进度。网络抓取是通过脚本和与页面进行进一步交互所需的javascript ist来完成的。有没有可能通过chromedriver的标志来阻止页面重

浏览 24提问于2020-11-13得票数 0

回答已采纳

2回答

用Python中的Selenium停止动态页面中的滚动

、、、、

大家好，我试着用selenium和scrapy从中抓取一些信息elem.send_keys(Keys.PAGE_DOWN)browser.execute_script("window.scro

浏览 0提问于2015-10-04得票数 2

回答已采纳

1回答

for循环中的Webscrape后续

、、

在我之前的问题之后，我开始尝试自动化我在excel文档中准备的这个网站的url列表的过程。当我尝试20和30URL时，它工作得很好，但是当我增加它的时候，一个关于GetNodesTextAsArray中的ReDim的“脚本超出范围的错误”发生了，你知道为什么吗？

浏览 0提问于2020-07-08得票数 1

1回答

有没有办法像Facebook那样在自扩展页面上使用BeautifulSoup？

、、、

当你接近底部时，一些网页可能会通过ajax扩展，Facebook就是一个众所周知的例子。我特别感兴趣的是截屏电影的电影列表页面。它确实有一个结尾，但当你向下滚动时，你可以看到它在添加电影。有没有办法使用BeautifulSoup来获取页面上的所有内容？

浏览 18提问于2018-08-24得票数 0

1回答

用python3.x漂亮汤和urrllib.request抓取数据

、、、、

我最近刚开始使用python，作为一个项目，我被要求学习如何从网站上抓取数据，但我很困惑，因为im更新到html，所以当我在python中做这个时。price_box = soup.find('div', attrs={'class':'price'})span class="priceText__1853e8a5">2,711.66 有人能向我解释我错过了什么或者我<

浏览 0提问于2018-06-27得票数 0

回答已采纳

1回答

Python -如何刮除多个动态更新的表单/网页？

、、、、

我一直在尝试抓取一个动态更新的网站，每个网页包含数百行，网站总共有数千页(就像在每个页面中点击"next“按钮或页面底部的一个数字，就像在Google搜索页面底部看到的那样)。因此，例如，如果我正要刮第101页，我在第100页，而第101页上的用户登录到他们的帐户，那么我就会错过那个用户的信息。考虑到活动量，这可能是相当大的问题。我试着在凌晨的<

浏览 1提问于2015-10-08得票数 0

点击加载更多