问使用Python抓取多页属性数据
EN

Stack Overflow用户

提问于 2017-11-20 10:41:23

回答 1查看 196关注 0票数 0

需要从以下网站报废多页数据

https://dubai.dubizzle.com/en/property-for-rent/commercial/office/?page=1

要获取的字段是多个页面的"Price，description，area和location“。我只写了下面的代码。此外，我不知道如何解析电话号码，因为它只在你打开特定链接时出现

from urllib.request import urlopen
from bs4 import BeautifulSoup

file = "Dubizzle.csv"
f = open(file, "w")
Headers = "Price,Area,Description,Location,Website\n"
f.write(Headers)
for page in range(1, 4):
    url = "https://dubai.dubizzle.com/en/property-for-rent/commercial/office/?page={}".format(page)
    html = urlopen(url)
    soup = BeautifulSoup(html, "html.parser")

python

screen-scraping

回答 1

Stack Overflow用户

发布于 2017-11-20 11:37:03

为了查看电话号码，你必须点击“显示电话号码”按钮，这是正确的。但在检查页面的元素后，您可以看到电话号码已经存在，它只是被隐藏起来，并将在您单击按钮后出现在页面上。

<img class="phone-num-img" src="data:image/png;base64,...

不幸的是，电话号码被保存为PNG图像，所以即使它在那里，您也必须以某种方式解析图像以获得电话号码本身。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47390100

复制

相似问题

问使用Python抓取多页属性数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Python抓取多页属性数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Python抓取多页属性数据
EN