使用Selenium和lxml进行Python Web抓取

文章/答案/技术大牛

发布

0回答

javascript、python、selenium、web-scraping

我正在尝试从一个网站上抓取一些数字(参见下面代码中的链接)。因为网站是使用JavaScript加载的，所以我使用selenium首先加载页面，然后将其传递给xlml以解析数据。我使用的代码如下：from lxml import html url = "http://sebgroup.com但是当我使用selenium

浏览 4提问于2016-12-30得票数 2

回答已采纳

5回答

LinkedIn网络抓取

data-mining、social-network-analysis、crawling、scraping

我想获取某一公司所有员工的数据，您可以使用在现场手动操作，但是通过API是不可能的。如果import.io是识别LinkedIn分页，那么它将是完美的(参见页面末尾)。是否有人知道适用于LinkedIn站点当前格式的任何web抓取工具或技术，或者如何弯曲API以进行更灵活的分析？最好是基于R或网络，但肯定对其他方法开放。

浏览 0提问于2015-05-13得票数 11

回答已采纳

1回答

使用Python进行Web抓取，而无需加载整个页面

python、python-3.x、web-scraping、web-scraping-language

我刚用Python开始了几个web抓取项目。我目前使用lxml，Beautiful Soup和requests模块来抓取网页。requests模块执行GET请求并接收整个，bs4，lxml只过滤数据。我尝试过Selenium，但这也打开了浏览器，这不太适合工业项目。我对scrapy和splash一无所知。

浏览 28提问于2021-11-13得票数 0

回答已采纳

1回答

在抓取之前需要登录到站点

php、curl、web-scraping、autologin

我写了一个PHP脚本来抓取网站(zillow.com)上的搜索结果。但是，在用户登录到他们的站点之前，站点会隐藏部分结果。当我的抓取器运行时，它不会收集任何登录所需的信息。它只抓取未登录的用户可用的信息。抓取脚本正在收集页面上的信息如果没有，我需要

浏览 0提问于2014-07-17得票数 0

3回答

用python刮网站

python、web-scraping、beautifulsoup、scrapy、libraries

我试图在网上刮一个网站，以获取价格和标题从它。我已经看过多个教程和博客，最常见的库是漂亮汤和scrapy。如果有一种方法可以在不使用任何第三方库(如beautifulsoup和scrapy )的情况下抓取一个网站，那么就可以使用beautifulsoup。

浏览 1提问于2020-06-09得票数 1

回答已采纳

1回答

用Laravel和Selenium进行Web抓取

php、laravel、selenium、web-scraping

我目前正在使用Python进行web抓取。我使用了Selenium和Beautifulsoup库来抓取。我最近知道Selenium适用于php/Laravel。我的问题是，我可以使用Laravel + Selenium web驱动程序抓取web吗？如果是，你能给我提供一些链接或存储库，以便我学习吗？我被迫在我的

浏览 19提问于2019-11-19得票数 0

3回答

Python硒多处理

python、python-3.x、selenium、web-scraping、multiprocessing

我用python和selenium结合编写了一个脚本，从它的登陆页面中抓取不同帖子的链接，并通过跟踪指向其内部页面的url最终获得每个帖子的标题。虽然我在这里分析的内容是静态的，但我使用selenium来查看它在多处理中的工作方式。然而，我的意图是使用多处理进行抓取。到目前为止，我知道selenium不支持多处理，但我似乎错了。我的问题:当使用多进程运行时，如何减少使用s

浏览 2提问于2018-11-26得票数 31

回答已采纳

1回答

解析python中的html值

python、html、beautifulsoup

:0px;border:0px;background-color:#f3f3f3" type="submit" value="▾"/> </td> 我需要从value="25“和value

浏览 20提问于2020-12-15得票数 4

回答已采纳

2回答

将数据从Tripadvisor导入Google电子表格或Excel

excel、web-scraping、import、tripadvisor

是否可以获取此数据的列表：阿姆斯特丹所有餐馆的名单。如果可能的话，还有详细的地址等等。非常感谢！

浏览 1提问于2020-09-17得票数 0

1回答

在没有BeautifulSoup的Python语言中将HTML表解析为列表

python、html、html-parsing

我想知道是否有一种方法可以从HTML表中提取数据，并仅使用HTMLParser将其解析到字典中。由于某种原因，我不能做这件事..

浏览 1提问于2012-03-04得票数 0

2回答

从ychart.com中提取收益日期

python、web-scraping

我试图使用下面的脚本为苹果股票(在上传的图片中的表格中)刮取苹果股票的收益日期。

浏览 5提问于2017-09-19得票数 2

回答已采纳

1回答

抓取问题：“检查元素”与“查看页面源”不同

html、python-3.x、selenium、web-scraping、beautifulsoup

2-当我看到带有浏览器(firefox和chrome)的“查看页面源”的页面源时，所有选项卡的页面源看起来也是相同的，而当我对其中一个选项卡使用“检查Elemnt”时，我看到我的目标内容以html形式显示的代码问题是，我无法通过python访问所需选项卡的内容，这是web世界中可用的典型WEB抓取代码。这些代码通常是基于bs4的。有没有人有任何想法或示例代码来学习如何处理我的问题？

浏览 2提问于2020-02-06得票数 4

回答已采纳

1回答

使用Selenium和Python进行Web抓取

python、selenium

我的目标是从网站上抓取信息，并将其存储在数据库中。这是一个有体育赛事和赔率的历史数据的网站。我感兴趣的是我能做些什么来改进和优化它。我最关注的是什么，我做错了什么？from selenium import webdriverfromselenium.webdriver.common.by import By from selenium.we

浏览 0提问于2020-09-12得票数 5

回答已采纳

2回答

使用python抓取动态javascript内容网页

python、html、selenium、web-scraping、rendering

我正在尝试使用Python抓取这个网站：'‘。但是，requests + BS4只给了我HTML格式的页面源代码。我假设这是因为内容是动态的。因此，我尝试了Selenium + BS4来抓取网站，但我仍然只能抓取页面源代码。from selenium.webdriver import Firefoximport lxml dri

浏览 4提问于2020-02-02得票数 0

3回答

使用Python和Selenium进行Web抓取

python、selenium

我正在使用以下代码通过Python提交表单。当输入的值正确时，它会重定向到一个名为http://localhost/a/my.php的新页面。如何使用python检查页面是否被重定向，以便知道输入的值是否正确。from selenium import webdriver driver = webdriver.Chrome("C:\

浏览 0提问于2017-11-17得票数 1

2回答

在使用Python进行web抓取时，如何使用相同的连接？

python、webkit、screen-scraping

有人建议我使用WebKit (如Ghost.py )来抓取数据，但在浏览器中模拟打开的选项卡使连接保持打开状态。

浏览 1提问于2015-08-12得票数 1

回答已采纳

1回答

下载HTML时未出现URL如何刮除？Javascript在这里可能是个问题

python-3.x、web-scraping、xpath、python-requests、lxml

我可以得到标题和其他网址。但是它们中的一些不在HTML上，无法使用请求和lxml进行抓取。我不想使用selenium/bs4 4/美观so，因为代码将在Heroku服务器上运行，因此会使一切变得更加困难。尽管存在这个问题，有谁知

浏览 4提问于2022-03-11得票数 1

回答已采纳

1回答

使用ipython和lxml进行web抓取

python、beautifulsoup

menu_date=2015-07-06 from urllib2 import urlopen from lxml.html import fromstring

浏览 1提问于2015-07-06得票数 0

1回答

使用lxml进行Web抓取

python、web-scraping、lxml

如何使用xpath提取标记之间的文本？例如，我试图提取以"Area:“开头的文本，下面的代码只提取单词"Area”，而不是下面的文本。tree = lxml.html.fromstring(response.text) xpath_ex= '//b[contains(text(),"Area:")]/descendant::text(

浏览 0提问于2019-07-01得票数 0

回答已采纳

1回答

如何使用requests和pyqt5获取web数据？

python、python-requests、pyqt5

如何使用pyqt5完成此操作

浏览 14提问于2019-01-23得票数 4

点击加载更多