需要使用lxml和xpath抓取NHL统计表的帮助

python、python-3.x、xpath、web-scraping、lxml

我是python的新手(使用python3.6)，我学习它主要是为了能够为这个页面构建一个抓取器from bs4 import BeautifulSoup soup = BeautifulSoup(urllib.request.urlopen('http://www.nhl.com=seaso

浏览 4提问于2017-01-12得票数 1

回答已采纳

2回答

如何使用Xpath刮除NHL滑冰者的统计数据？

python、parsing、xpath、web-scraping、lxml

我正在努力为2017年/2018年的NHL滑冰者做统计。我已经开始编写代码了，但是我遇到了一些问题，解析数据并打印到excel。到目前为止，我的代码如下：from lxml.html import fromstring有什么技巧可以帮助我编写Xpath，这样我就可以遍历数据了吗？for nhl, skater_row in e

浏览 0提问于2018-11-03得票数 1

回答已采纳

2回答

获取包含文本的标签的最快方法

python、lxml

我需要使用lxml.html抓取所有包含文本的标记。我一直在使用{e.tag for e in doc.xpath('.//*[text()= true()]')}，但是lxml中的通配符和text()查询都是出了名的慢。有没有更快的方法。

浏览 0提问于2013-02-04得票数 0

回答已采纳

2回答

用于抓取表数据并存储为值以供将来计算的BeautifulSoup

python-3.x、pandas、web-scraping、beautifulsoup

非常新手的网络抓取，所以我很感谢所有的帮助。我正在尝试构建一个从NHL参考表中提取值的模型：html = urlopen(url) soup = BeautifulSoup(htm

浏览 2提问于2019-02-25得票数 1

1回答

Python Xpath: lxml.etree.XPathEvalError:无效的谓词

python、xpath、web-scraping、python-requests、lxml.html

我正在尝试学习如何抓取网页，在教程中，我使用下面的代码抛出了这个错误：我正在查询的网站是(不要评判我，它就是在培训中使用的网站)：links = tree.xpath('//div[@class="center-stack"//*/

浏览 20提问于2016-04-06得票数 8

回答已采纳

2回答

Scrapy:修改响应中的元素和字段

python、python-2.7、scrapy、lxml

例如，我正在尝试修改“src”链接，使其指向本地保存的抓取文件。

浏览 2提问于2015-07-19得票数 6

1回答

当抓取所有div以获取数据时，在python中使用lxml获取空列表

python、lxml

我想要抓取产品名称、产品链接、产品价格，但是当我使用xpath时，它显示空列表。如何添加xpath和for循环来获取上述详细信息。我已经试过了 import requests html = requests.get("https://www.lazada.sg/catalog/?q=Samsung+Mobile&_keyori=ss&from=input&spm=a2o42.h

浏览 28提问于2021-06-29得票数 0

1回答

Python lxml打印每个表行

python、python-3.x、lxml

当我在'cn‘中输入一些东西时，脚本会在网站上进行查询，并给我一个有多行的表格 from lxml import htmlfrom lxml.etreeimport XPath find_page = requests.get('search query' + cn + ''('//t

浏览 7提问于2020-12-29得票数 2

1回答

从一个站点返回的数据，而不是从另一个站点返回的数据

python、html、xpath、lxml

据我所知，我创建了一个能工作的1，和第二个几乎相同的，这是不起作用的，我也不知道为什么。我从Firebug抓取的xpath是： <a href标题： Python

浏览 1提问于2017-04-21得票数 1

回答已采纳

1回答

在Python中使用Request&LXML抓取时如何选择“加载更多的结果”项

python、web-scraping、python-requests、lxml

在48条条目之后，它会提供一个Load更多的结果按钮。我需要从这个页面上得到所有的产品。我该怎么做呢？对于抓取，我使用Python、LXML和Requests。import requestshome_page = requests.get('https://www.anntaylor.com/

浏览 1提问于2021-02-11得票数 0

1回答

下载HTML时未出现URL如何刮除？Javascript在这里可能是个问题

python-3.x、web-scraping、xpath、python-requests、lxml

我试图刮这个主页()的一些网址。我可以得到标题和其他网址。但是它们中的一些不在HTML上，无法使用请求和lxml进行抓取。我不想使用selenium/bs4 4/美观so，因为代码将在Heroku服务器上运行，因此会使一切变得更加困难。我想要抓取的URL是在div之后使用以下两个类:容器和false。这是强制性的。在div上没有类"false“<em

浏览 4提问于2022-03-11得票数 1

回答已采纳

2回答

使用xpath/lxml抓取文本

python、xpath、web-scraping、beautifulsoup、lxml

我正在尝试使用xpath/lxml从中抓取文本" 2005 -2013“中的”2005- 2013“，并且只能在这个站点上的其他一些页面上这样做，而不是这个页面。不确定我做错了什么/我从元素复制的xpath是否不正确print(content_divs[0].text_content().strip())下面是我的代码：

浏览 0提问于2017-07-27得票数 3

回答已采纳

2回答

如何使用Pandas和Python创建和添加新变量到dataframe以打印到excel？

python、pandas、dataframe、parsing

我试图创建一个新的变量"spg"，或者说每次游戏都使用Python上的Pandas。这个新的变量是简单的s/gp或投篮/游戏。urlopen url = "https://www.hockey-reference.com/leagues/NHL</

浏览 0提问于2019-10-25得票数 0

回答已采纳

1回答

如何解析NHL团队防御统计数据以使用Python创建Pandas DataFrame？

python、pandas、dataframe、parsing、web-scraping

我已经抓取了数据，但需要帮助正确解析它。我仍然在学习，并将感谢任何我能得到的建议。# print(td_tags) a_tags = table.find('a')我已经抓取了正确的数据，但有额外的信息，我可以使用帮助解析。Washington 31.0 提前感谢您提供的任何<

浏览 3提问于2019-10-29得票数 1

回答已采纳

1回答

Python抓取xpath不适用于特定站点/表

python、python-2.7、xpath、urllib2、lxml

我在尝试从url的表中抓取数据时遇到问题： import urllib2import lxmlimp

浏览 0提问于2014-01-18得票数 0

2回答

Clojure等同于Python的lxml库吗？

java、python、clojure、lxml

我正在寻找与Python的lxml库等效的Clojure/Java。我过去曾大量使用它来解析各种html (作为BeautifulSoup的替代品)，而且能够使用同样的elementtree api for xml也很棒--真的是一个值得信赖的朋友！关于lxml lxml是一个基于libxml2的xml和html处理库。它可以很好地处理损坏的html页面

浏览 2提问于2009-10-14得票数 10

回答已采纳

1回答

使用xpath抓取web内容是行不通的

python、xpath、web-scraping、amazon、lxml

我正在使用xpath来抓取一个特定于amazon的网页，但它不起作用。有人能给我一些建议吗？下面是指向该页面的链接：from lxml import htmlpage = reque

浏览 2提问于2014-07-31得票数 1

回答已采纳

1回答

Web抓取<td>标记问题-Python3 With Lxml

python、xpath、web-scraping、lxml

我正在使用lxml库在python中进行web抓取。而且，我试图从棒球网站上获取一些数据。由于某种原因，我的代码在我之前打印的内容之后打印了一个空列表。在这个问题上的任何帮助都是很棒的！from lxml import html page = requests.get('http://mlb.mlb.com/mlb/standings/exh

浏览 4提问于2017-02-26得票数 0

回答已采纳

1回答

Scrapy Vs Nutch

python、solr、web-scraping、scrapy、web-crawler

我计划在我目前正在开发的一个应用程序中使用网络爬行。我在Nutch上做了一些研究，并使用它进行了一些初步测试。但后来我遇到了scrapy。但是，当我做了一些初步的研究并浏览了有关scrapy的文档时，我发现它只能捕获结构化数据(您必须提供要从中捕获数据的div名称)。我正在开发的应用程序的后端是基于Python的，我知道scrapy是基于Python的，有人建议scrapy比Nutch更好。我的要求

浏览 0提问于2013-06-20得票数 16

回答已采纳

1回答

如何将所有从站点抓取的页面导出到Excel

python、pandas、web、web-scraping

我正在尝试将抓取的数据从站点导出到excel。但是我的代码用最后一次抓取的数据覆盖了excel文件中以前的数据。这是我第一次尝试抓取和Pandas。请帮助我理解正确导出的逻辑。这是我的代码： import requestsimport timeimport pandas as pd sys.stdin.reconfigu

浏览 10提问于2021-06-29得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

需要使用lxml和xpath抓取NHL统计表的帮助

相关·内容