Python新手入门,但仍在线自学等。
我正在尝试构建一个漂亮的网页爬行器,到目前为止,我已经找到了页面上我想要抓取和打印的元素,但在测试第一个元素时,它只打印空括号,而不是我需要的站点上的html/text。
以下是到目前为止的代码:
from bs4 import BeautifulSoup
import requests
source = requests.get('https://www.expireddomains.co.nz/search.php?action=search&status=6&results_per_page=100&page=2')
soup = BeautifulSoup (source.text, 'html.parser')
elems = soup.select('body > table > tbody > tr > td:nth-child(3) > div.PageTabsBox > form:nth-child(4) > table.DomainList > tbody > tr:nth-child(2) > td:nth-child(2) > a')
print(elems)任何帮助都将不胜感激。
发布于 2020-01-18 18:19:24
这将抓取子节点的所有链接。
from bs4 import BeautifulSoup
import requests
source = requests.get('https://www.expireddomains.co.nz/search.php?action=search&status=6&results_per_page=100&page=2')
soup = BeautifulSoup (source.text, 'html.parser')
Link = []
div = soup.find('div', {'class': 'PageTabsBox'})
TR = div.findAll('tr')
for tr in TR:
TD = tr.findAll('td')
for td in TD:
try:
link = td.find('a')
link = link['href']
Link.append(link)
except:
continue
print(Link)
print(Link[6])https://stackoverflow.com/questions/59772218
复制相似问题