我正在用python中的lxml抓取一个网页
from lxml import html
import requests
page=requests.get(url)
tree=html.fromstring(page.text)
name=tree.xpath(xpath)
print name
它正在显示:['Matthew']
我想显示:Matthew
有什么解决办法吗?
因此,我正在抓取一些内容,并试图用python中的漂亮汤删除html标记,但保留内容。例如,考虑到:
<p>Hello, how <b>are</b> you</p>
我想要输出:
Hello, how are you
通常,我会使用get_text方法。问题是,很明显,我正在抓取的一些页面中有html错误。例如:
<p>Hello, how </b><b>are</b> you</p>
当发生这种情况时,get_text()将删除我想要的大部分文本。我试着用regex来做这件事,结果还
我试图从一个网站抓取信息使用CSS选择器,以获得特定的文本元素,但遇到了一个问题。我试图搜索我想要的网站部分,但我的程序告诉我它不存在。我的程序返回一个空列表。
我正在使用request和lxml库,并使用CSS选择器来进行HTML抓取。我有Python 3.7。我试着用选择器搜索我需要的网站部分,但它没有出现。我也尝试过使用XPath,但也失败了。我已经尝试使用以下选择器:
div#showtimes
当我使用这个选择器时,我得到了以下结果:
[<Element div at 0x3bf6f60>]
我得到了预期的结果,这就是所需的元素。当我尝试进一步访问嵌套在div#show
我最近开始用Scrapy学习web抓取,作为练习,我决定从this url抓取一个天气数据表。 通过检查页面的XPath元素,我将其表复制到我的代码中,但在运行代码时只得到一个空列表。我尝试使用以下代码检查HTML中存在哪些表: from scrapy import Selector
import requests
import pandas as pd
url = 'https://www.wunderground.com/history/monthly/OIII/date/2000-5'
html = requests.get(url).content
sel = S